六年成果一个周末被爬取250+万次，新时代该如何保护数据版权

上个月，著名教育机构学而思曾透露消息，称正在自研数学大模型MathGPT，面向全球数学爱好者和各大科研机构，解题讲题两条腿走路。当时就有许多人感慨，在全球大语言模型你方唱罢我登场时，终于有一家理科版大模型要来了。然而一个多月过去了，现实的发展却走到了另一个方向。

本周二13日，AI写作工具“笔神作文”，指控学而思通过“爬虫”技术，非法访问、缓存其服务器数据多达250多万次，以此开发MathGPT的新产品“作文AI助手”，并索赔一元钱。

一、六年成果与一个周末

笔神作文成立于2017年12月，是面向K12，即国内的小学到高中的作文教育平台，隶属于北京一笔两划科技有限公司。成立时虽然也有将AI与结合的呼声与概念，但市场预期及实际表现都没有现在的火热，引起的关注也非常有限。然而即便如此，笔神作文却依然凭借其“利用AI技术帮助写作者提升写作能力”的特色，在2018年1月获得了真格基金的数百万种子轮融资，后来又在第二年7月完成了不惑创投的数百万天使轮融资。

根据官方资料显示，笔神作文上线六年以来，每个月都能收到超过30万篇作文投稿，以及超过40万次的点赞评论，积累了数百万篇作文素材，月批改作文量也超过三万篇。而去年底ChatGPT上线后，笔神作文的投资方之一，世纪天鸿曾表示，“笔神”与ChatGPT技术同源，二者都是采用基于transformer的最先进算法作为底层技术。笔神作文创始人宋嘉伟也曾介绍道：“一笔两划目前团队中技术研发人员超过六成，在成立公司之前就曾创办过NLP类公司，部分骨干在NLP领域深耕多年，持续积累。”

因此整体上来说，笔神作文的算法模型为一笔两划公司自研训练，平台采用的大数据主要源于自身累积。而且也正因为在写作方面的技术积累且卓有成效，三年前笔神作文与学而思正式开展合作，与学而思旗下的学习工具App“题拍拍”签约，主要负责为其提供作文素材查询服务。

但是作为合作伙伴，笔神作文却在近日表示：在4月13日至17日，我们团队从创业以来六年的成果，被合作多年的“学而思”无情背刺，短短一个周末的时间就爬取了超过250万次！5月学而思就公布了MathGPT，时间上也未免过于巧合。

二、笔神的诉求与学而思的回应

从笔神作文官方微博发表的声明来看，它本身并没有完备的数据安全机制，而对于“合作伙伴”学而思更是没有心怀防备，从而导致三体云联公司（学而思的子公司）有机可乘，利用了彼此的信任。对此，笔神作文表示该行为明显是视双方的合同条款若无物，更违反了《数据保护法》第三十二条“任何组织、个人收集数据，应当采取合法、正当的方式，不得窃取或者以其他非法方式获取数据”的规定，严重侵犯了笔神作文APP的数据权益。事后第一时间内，笔神作文就找到学而思进行求证，对方倒也不拖拉，直接承认是他们的算法组在爬取数据并作为己用。因此笔神作文发送了律师函，这次却没有得到学而思的实质性回复。

“我们作为一家体量远小于‘学而思’的公司已经别无他法，只能通过法律渠道来维护自身权益。”但笔神作文同时在声明中也指出，目前的法律法规并没有“AI大模型数据盗取”的判决先例，因此只能“勇敢地走出这第一步”。至于笔神作文的实际诉求，实际上倒也不难：只想要学而思支付一元赔偿金，公开道歉并删除已爬取的数据。

笔神作文对此的解释是：“数据有价，心血无价，索赔一元是因为公平公正都不能用金钱衡量，我们希望通过诉讼告诉对方，告诉社会这种行为是要付出代价的。AI产业的发展需要各家共同努力，共同创造，而非觊觎和剽窃他人的成果。”

也正如笔神作文所说，这次诉讼只索赔一元钱，因此声明也未引起多大反响和关注，仅有的几条也都在谴责学而思。然而毕竟是负面消息，学而思的官方微博也在近日发文回应：“首先，MathGPT是专注于数学领域的自研大模型，没有任何作文相关数据；其次，‘作文AI助手’目前处于开发状态，尚未发布，该服务并未使用笔神作文的任何数据。”

而此次事件中的关键，250多万次的数据爬取，学而思指出合同中明确表示过“每月保底费用包含的调用次数为百万次量级”，其调用的接口“属于双方合同约定的正常合作范围”。在回应的最后，学而思强调其“一直尊重知识产权、重视知识产权保护”，所有行为均严格按照合同约定履行，但是“笔神作文的公开声明已经对学而思品牌声誉造成了伤害，我们将保留追究其名誉侵权责任的权利。”

三、数据版权问题

就目前双方的声明而言，下任何结论都为时尚早，但这也揭示了最近半年火热的大模型市场，一个十分重要却又极易被忽视的地方：AI训练数据的版权归属问题。最近在外网闹得满城风雨的，号称“美版贴吧”Reddit强制对API进行收费的决定也是出于这个原因。

Reddit上因为有最近多年积攒的丰富聊天内容，已成为谷歌、微软、OpenAI等企业训练大语言模型都在使用的素材，ChatGPT等的能说会道以及后来的火遍全球，Reddit同样有贡献。但是现在伴随着这些类GPT产品的火爆，Reddit创始人&CEO就曾表示：“Reddit的语料库数据非常有价值，但我们不想把这些内容免费提供给一些巨头公司了。”继这番表态后，另一家知名IT问答网站Stack Overflow也宣布，计划从今年中时候起，向大型开发商收取数据访问费用，其CEO也表示：“大语言模型最近的发展也得益于社区的推动，因此社区作出的贡献也必须得到补偿。”

毫无疑问，AGI，大模型在从小众到大众，从幕后到台前，智能程度越来越高的过程中，海量的训练数据是不可或缺的。但从目前各家企业的表现来看，即便是目前的一哥OpenAI，对于训练数据的版权问题都没有很好的解决方案。原因倒也不难理解，GPT的早期版本几乎没有引起外界重视，当时人们对它能否实现产品化都很怀疑，自然没人在意数据来源以及版权问题。等到ChatGPT上线了，巨大的使用价值，商业价值，社会热潮扑面而来，传统的法律体系，经济模式，发展思路等，立刻都会成为困扰你的麻烦。

不论真假以及最终的结局如何，本次笔神作文和学而思联袂上演了国内首起大模型数据版权的戏码，也为国内大模型产业和企业带来一点启发。虽然只是一元钱的纠纷，但意义非同小可。或许在未来成千上万的戏码上映时，再回顾今天笔神作文和学而思的声明，会发现这一元钱真是有先见之明。返回搜狐，查看更多

责任编辑：