中国电子陆志鹏：大模型将冲击现有政务系统，正研发政务行业大模型

7月8日，由上海数据交易所、大数据流通与交易技术国家工程实验室承办的“大模型时代下的数据要素流通”主题论坛在上海举行。中国电子副总经理陆志鹏围绕“数据要素驱动的大模型体系”做主旨演讲，他认为，大模型技术实现高质量发展，数据有效供给是关键，亟需建设安全可信的数据底座。当前数据合规确权、计量估价、协调分配、安全隐私保护等核心难题需要破解。

陆志鹏

陆志鹏首先谈到大模型数据集的训练过程，大模型训练一般要经历这样一个流程：一般是公开数据，包括互联网数据、代码库，然后对这些数据进行半监管的训练，训练后形成了一个较为高质量的数据语料库以后，供大模型训练。

“但大模型公司可能会因为侵犯隐私和知识产权被起诉。”陆志鹏举例说，美国大模型出来后，就已经面临着一些法律风险。主要来自两个方面，一个是隐私，一个是知识产权。

美国目前采取鼓励型的监管政策，而欧洲则采取保守型的监管政策，相比之下，中国是一种包容型、审慎的监管政策。

“大模型技术出现后，数据供应的过程中间遇到什么问题？”陆志鹏说，一是缺少合规确权的机制，目前国内面临的问题就是数据的有效供给不足。很多企业都在做语料库，但数据都非常有限，而且可能面临着统一标准的问题；二是缺少数据的计量估价机制；三是缺少协调分配；四是缺少安全隐私保护机制。

面对这四个方面的问题，陆志鹏提及，中国电子这几年来和清华大学进行了跨学科研究，因为数据的构建非常复杂，涉及到了法律、管理、经济、金融、技术还有人文甚至政治等因素，为此，中国电子联合清华大学七个学院、将近一百个专家进行了联合攻关，形成了一套方案。大模型训练的问题和数据要素的问题实际上是一致的，也分别涉及确权、计量定价、流通分配和保护安全。

目前，中国电子研究开发出来的数据底座，可以对现有的数据进行归集、清洗、治理以后形成一个标准的数据产品，这个初级产品可能是文本数据，也可能是结构数据，还可能是非结构数据，把这些数据提供给大模型及各个应用方。

陆志鹏说，之所以OpenAI发布的语言大模型振动很大，其中一个原因是给它喂养的语料非常好，“用我们的话是小学、初中、高中到大学都是名校，所以数据需要进行治理”。

数据运算过程中，变量越多，大模型的反应就会越来越灵敏；参数越多，大模型的精准度越高，然而，面对大的参数计算机运算时，还要经过多层次的变化、多层次的降维才可以实现。如果数据量不经过加工治理，很难获得应用、很难挖掘价值，于是，中国电子提出“数据元件”，先把数据加工成元件，元件来支撑流通、支撑模型训练。这样就有效地解决了四个问题。

第一个是确权问题，目前数据确权是大问题，大家感觉无处下手， “数据二十条”发布提出数据产权“三权分置” 破解数据产权难题，数据元件与此相呼应。

第二个是计量问题，无论是文本数据还是结构化数据，从数据字段而言，它的价值很难进行计量，只有融合后的计量才有意义。也就是说，原始数据的价值是很难估量的。以前大家有一个误区，提出把数据评估进入会计报表，如果对现在的数据进行估值，只能通过成本法，计算采集数据花了多少人力、保存数据花了多少电费等等。而如果推动数据流通，计量这个数据到底有什么价值，此时数据的最大价值，即它承载的信息量能够计算出来，数据的价值就出来了。

第三个是在定价阶段，需要分阶段定价、分阶段分配。如果不在“数据元件”阶段前把分配问题解决，后续分配就很难落实。

第四个则是安全隐私问题，有了“数据元件”以后，可以通过元件监管方式回避安全问题。一是防止数据泄露，二是防止数据篡改——大模型会不会把我的数据带走，会不会篡改我的数据，会不会滥用我的数据——这些都是公众比较关心的。

最后，陆志鹏也谈到数据元件支撑的政务大模型应用探索，中国电子正在推动中国数字政府建设，参与数字广东、数字云南、数字湖南、数字新疆建设。基于数据元件的数据底座，能够支撑政务系统的大模型训练，为目前国内很多的大模型公司提供数据支撑，即政务行业大模型。

“我们有一个基本的判断，人工智能来得非常迅猛，再过几年可能政务系统现有的信息化、应用系统会被大模型冲击。如果政务系统的大模型一旦应用成功，现有的很多信息化系统就显得有点多余了，也同时显得有点重。”陆志鹏说。

南方+记者郜小平

【作者】郜小平

【来源】南方报业传媒集团南方+客户端返回搜狐，查看更多

责任编辑：