六年成果一个周末被爬取250+万次,新时代该如何保护数据版权

六年成果一个周末被爬取250+万次,新时代该如何保护数据版权

上个月,著名教育机构学而思曾透露消息,称正在自研数学大模型MathGPT,面向全球数学爱好者和各大科研机构,解题讲题两条腿走路。当时就有许多人感慨,在全球大语言模型你方唱罢我登场时,终于有一家理科版大模型要来了。然而一个多月过去了,现实的发展却走到了另一个方向。

本周二13日,AI写作工具“笔神作文”,指控学而思通过“爬虫”技术,非法访问、缓存其服务器数据多达250多万次,以此开发MathGPT的新产品“作文AI助手”,并索赔一元钱。

一、六年成果与一个周末

笔神作文成立于2017年12月,是面向K12,即国内的小学到高中的作文教育平台,隶属于北京一笔两划科技有限公司。成立时虽然也有将AI与结合的呼声与概念,但市场预期及实际表现都没有现在的火热,引起的关注也非常有限。然而即便如此,笔神作文却依然凭借其“利用AI技术帮助写作者提升写作能力”的特色,在2018年1月获得了真格基金的数百万种子轮融资,后来又在第二年7月完成了不惑创投的数百万天使轮融资。

根据官方资料显示,笔神作文上线六年以来,每个月都能收到超过30万篇作文投稿,以及超过40万次的点赞评论,积累了数百万篇作文素材,月批改作文量也超过三万篇。而去年底ChatGPT上线后,笔神作文的投资方之一,世纪天鸿曾表示,“笔神”与ChatGPT技术同源,二者都是采用基于transformer的最先进算法作为底层技术。笔神作文创始人宋嘉伟也曾介绍道:“一笔两划目前团队中技术研发人员超过六成,在成立公司之前就曾创办过NLP类公司,部分骨干在NLP领域深耕多年,持续积累。”

因此整体上来说,笔神作文的算法模型为一笔两划公司自研训练,平台采用的大数据主要源于自身累积。而且也正因为在写作方面的技术积累且卓有成效,三年前笔神作文与学而思正式开展合作,与学而思旗下的学习工具App“题拍拍”签约,主要负责为其提供作文素材查询服务。

但是作为合作伙伴,笔神作文却在近日表示:在4月13日至17日,我们团队从创业以来六年的成果,被合作多年的“学而思”无情背刺,短短一个周末的时间就爬取了超过250万次!5月学而思就公布了MathGPT,时间上也未免过于巧合。

二、笔神的诉求与学而思的回应

从笔神作文官方微博发表的声明来看,它本身并没有完备的数据安全机制,而对于“合作伙伴”学而思更是没有心怀防备,从而导致三体云联公司(学而思的子公司)有机可乘,利用了彼此的信任。对此,笔神作文表示该行为明显是视双方的合同条款若无物,更违反了《数据保护法》第三十二条“任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据”的规定,严重侵犯了笔神作文APP的数据权益。事后第一时间内,笔神作文就找到学而思进行求证,对方倒也不拖拉,直接承认是他们的算法组在爬取数据并作为己用。因此笔神作文发送了律师函,这次却没有得到学而思的实质性回复。

“我们作为一家体量远小于‘学而思’的公司已经别无他法,只能通过法律渠道来维护自身权益。”但笔神作文同时在声明中也指出,目前的法律法规并没有“AI大模型数据盗取”的判决先例,因此只能“勇敢地走出这第一步”。至于笔神作文的实际诉求,实际上倒也不难:只想要学而思支付一元赔偿金,公开道歉并删除已爬取的数据。

笔神作文对此的解释是:“数据有价,心血无价,索赔一元是因为公平公正都不能用金钱衡量,我们希望通过诉讼告诉对方,告诉社会这种行为是要付出代价的。AI产业的发展需要各家共同努力,共同创造,而非觊觎和剽窃他人的成果。”

也正如笔神作文所说,这次诉讼只索赔一元钱,因此声明也未引起多大反响和关注,仅有的几条也都在谴责学而思。然而毕竟是负面消息,学而思的官方微博也在近日发文回应:“首先,MathGPT是专注于数学领域的自研大模型,没有任何作文相关数据;其次,‘作文AI助手’目前处于开发状态,尚未发布,该服务并未使用笔神作文的任何数据。”

而此次事件中的关键,250多万次的数据爬取,学而思指出合同中明确表示过“每月保底费用包含的调用次数为百万次量级”,其调用的接口“属于双方合同约定的正常合作范围”。在回应的最后,学而思强调其“一直尊重知识产权、重视知识产权保护”,所有行为均严格按照合同约定履行,但是“笔神作文的公开声明已经对学而思品牌声誉造成了伤害,我们将保留追究其名誉侵权责任的权利。”

三、数据版权问题

就目前双方的声明而言,下任何结论都为时尚早,但这也揭示了最近半年火热的大模型市场,一个十分重要却又极易被忽视的地方:AI训练数据的版权归属问题。最近在外网闹得满城风雨的,号称“美版贴吧”Reddit强制对API进行收费的决定也是出于这个原因。

Reddit上因为有最近多年积攒的丰富聊天内容,已成为谷歌、微软、OpenAI等企业训练大语言模型都在使用的素材,ChatGPT等的能说会道以及后来的火遍全球,Reddit同样有贡献。但是现在伴随着这些类GPT产品的火爆,Reddit创始人&CEO就曾表示:“Reddit的语料库数据非常有价值,但我们不想把这些内容免费提供给一些巨头公司了。”继这番表态后,另一家知名IT问答网站Stack Overflow也宣布,计划从今年中时候起,向大型开发商收取数据访问费用,其CEO也表示:“大语言模型最近的发展也得益于社区的推动,因此社区作出的贡献也必须得到补偿。”

毫无疑问,AGI,大模型在从小众到大众,从幕后到台前,智能程度越来越高的过程中,海量的训练数据是不可或缺的。但从目前各家企业的表现来看,即便是目前的一哥OpenAI,对于训练数据的版权问题都没有很好的解决方案。原因倒也不难理解,GPT的早期版本几乎没有引起外界重视,当时人们对它能否实现产品化都很怀疑,自然没人在意数据来源以及版权问题。等到ChatGPT上线了,巨大的使用价值,商业价值,社会热潮扑面而来,传统的法律体系,经济模式,发展思路等,立刻都会成为困扰你的麻烦。

不论真假以及最终的结局如何,本次笔神作文和学而思联袂上演了国内首起大模型数据版权的戏码,也为国内大模型产业和企业带来一点启发。虽然只是一元钱的纠纷,但意义非同小可。或许在未来成千上万的戏码上映时,再回顾今天笔神作文和学而思的声明,会发现这一元钱真是有先见之明。返回搜狐,查看更多

责任编辑:

发布于:重庆大足大足县