喜爱面包？来我们店！最好的面包店广告口号

如果你喜欢面包，那么你一定需要来我们的面包店。我们是最好的面包店，提供符合你口味的面包选择和最好的服务体验。通过我们的广告口号，你可以了解到我们店铺的特点和优势，进而决定来一次愉快的购物之旅。

1. 我们店的网络资源

现在，绝大部分人都通过网络来得到信息。我们店知道这个特点，并且充分利用了网络资源。我们在各大社交媒体平台上都有账号，发布各种信息并与顾客互动。我们还有自专门的官方网站，网站上有专业的面包知识和相关资讯。同时，我们也提供在线预约购买面包，为顾客提供更便捷的购物体验。我们的网络资源不仅提高了我们的知名度，也为顾客提供了更多的方便和选择。我们的顾客可以在家里或者工作地点通过网络了解我们的新品情况，同时还可以通过网上购物随时得到我们的面包，非常方便。

2. 我们店的面包选择

作为一家最好的面包店，我们必须提供最优质的面包选择。我们的面包是由专业的面包师傅制作，选用最好的材料。我们提供各种口味的面包，比如法式面包、意大利面包、杂粮面包等等。不仅如此，我们店还可以根据顾客的需要制作特殊口味的面包，比如无糖面包、低热量面包等等。总之，我们提供的面包种类非常多样化，每个人都可以找到自己喜欢的口味。

3. 我们店的服务体验

对于我们来说，服务体验同样重要。我们的店铺环境非常温馨舒适，顾客可以在这里放松身心，尽情享受美食。我们的店员都接受专业培训，有良好的服务态度和高素质的服务水平。他们会非常热情地为顾客提供服务，解答顾客的问题，帮助顾客选择适合的面包。除此之外，我们还提供专业的面包知识咨询服务。如果你对面包的制作过程和营养价值感兴趣，可以来我们店里咨询，我们的店员会非常愉快地为你解答。

4. 我们店的口号

最后，我们店的广告口号也是非常重要的。喜爱面包？来我们店！这句话简短而直接，表达出我们店的主要特点：提供最好的面包选择和最优质的服务体验。口号也是我们店的品牌形象的重要组成部分，它能够帮助顾客记住我们店的名字和特点，增加店铺的知名度。

总结

我们的面包店不仅提供最好的面包选择，而且提供最优质的服务体验。通过充分利用网络资源和提供多样化的面包选择，我们吸引了越来越多的顾客。我们的店员非常专业、热情，可以为顾客提供满意的服务体验。如果你喜欢面包，那么你一定需要来我们的面包店。最后，我们的广告口号也足以表达我们店的特点，对于新顾客表示欢迎，对于老顾客表示感谢。

问答话题

1.我可以在你们店买到哪些口味的面包？你可以在我们的面包店买到各种口味的面包，比如法式面包、意大利面包、杂粮面包等等。我们还可以根据你的需要制作特殊口味的面包，比如无糖面包、低热量面包等等。总之，我们提供的面包种类非常丰富多样。2.我可以通过什么方式预约购买面包？你可以通过我们的官方网站预约购买面包，非常方便。我们还在各大社交媒体平台上发布各种信息，如果你关注我们的账号，也可以得到最新的面包消息。当然，你也可以到我们店里购买面包，我们将会提供最优质的服务体验。3.我可以得到哪些面包知识咨询服务？我们提供专业的面包知识咨询服务，店员会非常愉快地为你解答面包制作过程、营养价值等方面的问题。如果你对面包感兴趣，可以在我们店里咨询。

喜爱面包？来我们店！最好的面包店广告口号随机日志

扩展功能中，可查看远程日志、设置葵域名访问、开启/关闭云监控、屏幕墙等功能。

1、用户名：可填写员工IAM员工编号、邮箱地址、手机号码。

2、步骤九：选择表格数据所在的单元格，点击右键选择“设置单元格格式”命令，在对话框中选择“边框”选项卡，设置表格框架线条粗细，设置完点击“确定”

3、Teamviewer的界面更加简洁，按照标示的步骤一步步进行即可轻松使用。

4、出门在外，通过APP实时掌控家中情况。例如，“大门、空调”是否关闭，婴儿房温度等

5、增加WIN7IPX协议安装文件IPX_WINzip

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>深(shen)度(du)對(dui)話(hua)產(chan)業(ye)專(zhuan)家(jia)：“百(bai)模(mo)大(da)戰(zhan)”愈(yu)演(yan)愈烈(lie)，地(di)球(qiu)上(shang)現(xian)有(you)算(suan)力(li)不(bu)夠(gou)支(zhi)撐(cheng)十(shi)億(yi)人(ren)使(shi)用(yong)

圖(tu)片(pian)來(lai)源(yuan)：由(you)無(wu)界(jie) AI工(gong)具(ju)生(sheng)成(cheng)

“百模大战”愈演愈烈，互(hu)聯(lian)網(wang)大廠(chang)、創(chuang)业公(gong)司(si)、甚(shen)至(zhi)科(ke)研(yan)機(ji)構(gou)，都(dou)在(zai)過(guo)去(qu)的(de)2-3個(ge)月(yue)內(nei)推(tui)出(chu)了(le)大模型(xing)。為(wei)何(he)似(si)乎(hu)短(duan)短時(shi)間(jian)内，幾(ji)乎所(suo)有的科技(ji)公司都对“大模型”摩(mo)拳(quan)擦(ca)掌(zhang)？所有的生意(yi)真(zhen)的都值(zhi)得(de)用AI重(zhong)做(zuo)壹(yi)遍(bian)嗎(ma)？在AI重塑(su)商(shang)业的过程(cheng)中(zhong)，大模型的意義(yi)究(jiu)竟(jing)是(shi)什(shen)麽(me)？我(wo)們(men)真的需(xu)要(yao)這(zhe)么多(duo)大模型吗？究竟有沒(mei)有標(biao)準(zhun)可(ke)以(yi)評(ping)判(pan)大模型的優(you)劣(lie)？未(wei)来，我们究竟應(ying)該(gai)如(ru)何駕(jia)馭(yu)大模型？

帶(dai)著(zhu)(zhe)这些(xie)有關(guan)大模型的关鍵(jian)問(wen)題(ti)，騰(teng)訊(xun)科技邀(yao)請(qing)了兩(liang)位(wei)在NLP領(ling)域(yu)有几十年(nian)研究經(jing)驗(yan)、並(bing)具有产业经验的专家：MoPaaS 魔(mo)泊(bo)雲(yun)创始(shi)人、CEO魯(lu)为民(min)博(bo)士(shi)，多語(yu)言(yan)多领域自(zi)然(ran)语言處(chu)理(li)（NLP）資(zi)深架(jia)构師(shi)、Trend首(shou)席(xi)科學(xue)家李(li)維(wei)博士，用了將(jiang)近(jin)两个小(xiao)时的时间，試(shi)图討(tao)論(lun)并解(jie)決(jue)以上问题。雖(sui)然有些问题目(mu)前(qian)可能(neng)没有唯(wei)一答(da)案(an)，但(dan)是我们可以找(zhao)到(dao)某(mou)些啟(qi)發(fa)或(huo)探(tan)究路(lu)徑(jing)。本(ben)文(wen)将呈(cheng)现直(zhi)播(bo)的完(wan)整(zheng)回(hui)放(fang)，及(ji)内容(rong)的精(jing)華(hua)梳(shu)理。文章(zhang)較(jiao)長(chang)，但值得收(shou)藏(zang)閱(yue)讀(du)。

策(ce)劃(hua)、主(zhu)持(chi)丨(shu)郭(guo)曉(xiao)靜(jing)

編(bian)輯(ji)丨郭晓静、秦(qin)昊(hao)陽(yang)

文字(zi)整理丨趙(zhao)楊(yang)博

大模型是未来商业版(ban)图必(bi)爭(zheng)之(zhi)地還(hai)是新(xin)的紅(hong)海(hai)競(jing)争？

腾讯科技：“百模大战”進(jin)行(xing)中，那(na)我们到底(di)如何去评判一个大模型？目前有没有公認(ren)的标准，能评價(jia)大模型的性(xing)能优劣？

李维：这其(qi)實(shi)是一个很(hen)大的问题。大模型與(yu)上一代(dai)AI的“單(dan)任(ren)務(wu)模型”不同(tong)，单任务模型通(tong)常(chang)有公认的數(shu)據(ju)集(ji)作(zuo)为黃(huang)金(jin)标准，用於(yu)測(ce)试系(xi)統(tong)的优劣并排(pai)名(ming)高(gao)低(di)。对于大模型来說(shuo)，评测提(ti)出了新的挑(tiao)战。因(yin)为大模型是多任务的，任务其实是開(kai)放式(shi)的，難(nan)以預(yu)先(xian)定(ding)义，具體(ti)任务常常由应用場(chang)景(jing)而(er)定。結(jie)果(guo)就(jiu)是，数据質(zhi)量(liang)的测试既(ji)繁(fan)重，也(ye)难以全(quan)面(mian)。

在这種(zhong)情(qing)況(kuang)下(xia)，如何评价大模型的好(hao)壞(huai)？客(ke)觀(guan)地说，其实目前为止(zhi)并没有真正(zheng)的公认的客观评判标准和(he)方(fang)法(fa)。隨(sui)着时间推移(yi)，AI共(gong)同体也許(xu)會(hui)凝(ning)聚(ju)共識(shi)，逐(zhu)漸(jian)形(xing)成一些核(he)心(xin)功(gong)能的评测方案。

但是，做大模型的團(tuan)隊(dui)，在开发过程中需要合(he)適(shi)的质量監(jian)控(kong)（Quality Assurance，QA）指(zhi)标来幫(bang)助(zhu)糾(jiu)正航(hang)向(xiang)。像(xiang)大模型这樣(yang)需要高算力和巨(ju)大资源耗(hao)費(fei)的工程，如果没有一个好的QA团队来帮助，很可能会走(zou)偏(pian)。等(deng)妳(ni)开始意识到走偏的时候(hou)，已(yi)经花(hua)费数月的时间，而你的竞争对手(shou)可能已经领先。從(cong)这个角(jiao)度来看(kan)，QA非(fei)常重要，但如何做好QA，目前来说都还是各(ge)自在摸(mo)索(suo)。

回顧(gu)一下Open AI 的做法。GPT-3开源的时候，Open AI发的報(bao)告(gao)用了很长的篇(pian)幅(fu)展(zhan)示(shi)测试结果，用的是NLP领域中以前定义过的各項(xiang)任务（大約(yue)20-30种）测试这个大模型，比(bi)如Sentiment Analysis，Name Entity Tagging，Open Question Answer，等。测试之後(hou)发现ChatGPT的的NLP多任务的綜(zong)合表(biao)现都还不錯(cuo)。这是大模型测试发展的第(di)一階(jie)段(duan)。

后来进入(ru)第二(er)阶段，面对更(geng)廣(guang)闊(kuo)的前景，如何测试大模型？Open AI从GPT3.5到GPT4，开始把(ba)考(kao)核人的专业知(zhi)识的测试拿(na)出来测试大模型。中小学的各科考试，大学生的入学考试，研究生的考试，最(zui)后到職(zhi)业考核，例(li)如律(lv)师资格(ge)考试、醫(yi)生资格考试等，都用来测试，看看大模型表现怎(zen)么样。这个从道(dao)理上来说是更高級(ji)的，比上一阶段的测试更加(jia)全面、更加实用，因为我们人就是这么考过来的。但这样做工作量巨大。比如在GPT-4发布(bu)时，微(wei)軟(ruan)已经投(tou)入大半(ban)年的时间和几十人的团队来测试它(ta)，證(zheng)明(ming)它比GPT-3提升(sheng)了一大步(bu)，例如，律师资格从GPT3的不及格，到 GPT4 的优異(yi)表现（位居(ju)人類(lei)律师考试成績(ji)的前10%）。

未来我们应该如何评估(gu)大模型？如何对人类的这些考试进行排序(xu)？哪(na)些考试是最核心、最有用的？或者(zhe)有哪些优先级的配(pei)置(zhi)等等？这可能是一个需要我们进一步讨论探索的課(ke)题。究竟应该如何客观地评价大模型，如何在有限(xian)的时间和资源條(tiao)件(jian)下做出客观的评价并給(gei)出有用的反(fan)饋(kui)，讓(rang)数据团队更有針(zhen)对性地准備(bei)数据，让开发团队不偏離(li)方向，保(bao)障(zhang)模型的健(jian)康(kang)叠(die)代，这是大模型开发者的共同挑战，还需要时间積(ji)累(lei)经验，形成基(ji)本的QA操(cao)作規(gui)範(fan)。

从另(ling)一个角度来看，现在所有聲(sheng)稱(cheng)成为本行业第一的人其实都是有疑(yi)问的，因为根(gen)本就不存(cun)在共同的标准，只(zhi)能说是勇(yong)氣(qi)可嘉(jia)。當(dang)然，OpenAI除(chu)外(wai)，人家是先行者，是公认的领跑(pao)者，他(ta)们的最新模型 GPT4 就是当前大模型技術(shu)的天(tian)花板(ban)。对于所有其他的追(zhui)随者，包(bao)括(kuo)谷(gu)歌(ge)，目前来看还没有清(qing)晰(xi)明了的标准来测量他们。

中國(guo)有一句(ju)古(gu)话叫(jiao)“文无第一”，多任务的开放式大模型，基本是这样的形態(tai)。现在不管(guan)誰(shui)自称第一，只能看成是營(ying)銷(xiao)而已。真正重要的是，你的模型不能太(tai)差(cha)。如果你的模型太差，就会被(bei)用戶(hu)自然淘(tao)汰(tai)。开放以后，长期(qi)无人问津(jin)是危(wei)机的信(xin)號(hao)。只要你没有被遺(yi)忘(wang)，你可能是第一，也可能是第二，不得而知，但你總(zong)可以说是“最好之一”。

腾讯科技：大模型创业有哪些商业模式？我们到底需要多少(shao)大模型？

鲁为民：首先，我们需要多少大型模型？这是一个值得思(si)考的问题，因为它其实有很多限制(zhi)因素(su)。

首先大模型的訓(xun)練(lian)和運(yun)行对算力等资源消(xiao)耗很大，Midjourney 的 CEO David Holz 在一次(ci)訪(fang)談(tan)中提到，“如果有10亿人都来使用大模型，现在地球上的算力是不够的。”我想(xiang)他的话至少可以解读为当今(jin)算力资源有限，可能有资源滿(man)足(zu)不了需求(qiu)的时候。所以大家如果一窩(wo)蜂(feng)去做大模型而去竞争资源，也可能会形成某种内卷(juan)，即(ji)使不缺(que)錢(qian)。

其次，做大模型的商用运营，由于投资成本很高，需要足够的回报来支撑大模型的持續(xu)运营，比如大模型服(fu)务需要通过獲(huo)得一定规模的用户来产生足够的收入。只有好的产品(pin)才(cai)能吸(xi)引(yin)更多的客户使用。但是，要保证模型产品和服务好用，需要足够的人力和財(cai)力对大模型产品工程細(xi)節(jie)的打(da)磨(mo)和对系统运行的维護(hu)。我们说大模型門(men)檻(kan)高，不僅(jin)仅是说它所需要的算力成本，也包括除去算力的其它成本和资源要求等。

所以需要多少大模型可能由市(shi)场决定比较好。

大模型衍(yan)生的商业模式可以从基礎(chu)、模型到应用等層(ceng)面考慮(lv)。就模型来说我把它们大致(zhi)分(fen)为两类：一类是模型作为服务 (MaaS)，比如，像 OpenAI、Anthropic、Midjourney和Stability AI 等专业公司提供(gong)大模型服务，包括像 Whisper,、DALL E-2、Midjourney、Claude、ChatGPT 和 GPT-4 这样的针对大眾(zhong)消费者的模型服务，同时他们也可能提供相(xiang)应模型服务的 API 给开发者或其它企(qi)业用户，可以让更多的应用场景可以接(jie)入大模型。

对于更多从业者来说，大模型层面的机会更多的是垂(chui)直领域模型和应用，所以这一类商业模式圍(wei)繞(rao)垂域应用。一方面，我们可以围绕大型模型（MaaS 或预训练模型）开发一些垂域模型应用。虽然大型模型很強(qiang)大，但它实際(ji)上不可能在所有领域都達(da)到最先进的水(shui)平(ping)。在很多自然语言处理的任务上，通用大型模型即使与业界最先进的小模型相比在性能可能还存在差距(ju)。在这种情况下，我们一方面可以通过大模型服务（像ChatGPT）提供的模型微調(tiao)服务（通过 APIs）或仅仅是有针对性的提示設(she)計(ji)，有机会获得有竞争力的垂域解决方案，这也是创业比较可行的方向。

另一方面，就是垂直领域专业大模型在垂直领域的应用，这类应用往(wang)往可能不需要处理多个任务，也就就不需要上千(qian)亿的參(can)数规模。另外这类场景往往需要将大模型适配后部(bu)署(shu)到相应的私(si)有化(hua)应用场景。一部分原(yuan)因是因为现在许多企业的一些垂域应用需求对数据也有一定的安(an)全要求，因此(ci)不适合使用公共的大模型服务。好消息(xi)是现在企业不需要从零(ling)开始训练大模型，因为现在有很多合适的开源预训练模型可以選(xuan)擇(ze)，只需投入有限的算力，企业可以针对这些开源的大型模型进行场景适配部署。对于这类大模型的规模以及企业内部应用的使用負(fu)載(zai)要求，运行所需资源和成本是完全可控的。

将大模型适配到垂直专业场景的模式涉(she)及到遷(qian)移学習(xi)。迁移学习为什么重要？它在不同场景的应用中提供必要的泛(fan)化能力。比如预训练大模型使用不同的数据集，训练好一个大的模型它能涵(han)蓋(gai)多个垂直领域任务。但是，我们新的目标任务有可能不在预训练的大模型覆(fu)盖范围之内，那我们需要对它进行适配迁移，来让其覆盖目标垂域。

腾讯科技：中国目前有很多企业推出了大模型，但都与OpenAI有很大差距，在这个賽(sai)道，中国企业还有机会吗？

李维：我认为有机会，首先，如果中国的IT产业要向前发展，建(jian)立(li)大模型时代的新生态，就不能长期依(yi)賴(lai)国外的大模型提供商，因为提供商的可靠(kao)性和連(lian)续性就目前的国际形勢(shi)看是无法保障的。

第二，毫(hao)无疑问，美(mei)国是AI老(lao)大。有人说中国的人工智(zhi)能落(luo)后美国两年，周(zhou)明老师前几天说大概(gai)差距是三(san)年。两年也好，三年也好，总之差距是很明顯(xian)的。

但是，如果从另一个角度来看，我们知道，全世(shi)界没有任何一个国家比中国更接近美国的技术水平，无论是人才、论文与专利(li)、投资環(huan)境(jing)，还是国家的政(zheng)策激(ji)勵(li)和支持，还包括整个民众对AI的意识（awareness）。如果要趕(gan)上或者逼(bi)近美国，除中国以外没有其他成规模的对手，包括深度学习的故(gu)鄉(xiang)加拿大，也包括日(ri)本、歐(ou)洲(zhou)等先进国家，他们都无法与中国相比。中国人对于AI新技术的熱(re)情和投入，全民从普(pu)通百姓(xing)到各路精英(ying)对于大模型的津津樂(le)道，在全世界都是一道風(feng)景。我们有理由相信中国的AI新时代会走在世界前列(lie)。

鲁为民：我同意李维老师的说法。中国的情况非常特(te)殊(shu)，它擁(yong)有龐(pang)大的市场和海量的中文数据，这些都是大模型发展的必要条件。因此，我们不应该过于自卑(bei)，我们有理由自信，但同时也需要意识到距离感(gan)的存在。

从ChatGPT 到GPT-4的出现，让很多人应接不暇(xia)，甚至感到恐(kong)慌(huang)，因为人类还没有准备好应对这样一个新的物(wu)种，即大型AI模型。包括 Bengio 和 Musk等之内的美国AI界、政界和企业界的重要人物都呼(hu)籲(xu)“停(ting)止研究GPT-4这样级別(bie)的巨型人工智能至少半年”。为什么是半年？一开始我们也不知道。但起(qi)草(cao)人之一 Tegmark 教(jiao)授(shou)在最近一次采(cai)访中表示，停止半年时间从国家之间技术竞争的角度来说比较安全，因为中国半年内赶上美国的大模型技术的机会比较小。这个代表一部分西(xi)方 AI 专家对于中美在大模型 AI 差距上的看法，我们至少可以参考将这个半年作为中国和美国之间距离的下限。

当然，还有各种其它的猜(cai)测，但我们不必过于纠结于这些，只需要专註(zhu)于自己(ji)的工作即可，因为发展大模型 AI 技术从企业 AI 应用到国家技术发展战略(lve)等各个层面来看都是必要的。

腾讯科技：我们常講(jiang)的人工智能发展的三要素，数据、算力和模型在AI发展中分别扮(ban)演着什么样的角色(se)？

李维：讲到大模型的三大要素，其中算法就是模型，算力則(ze)包括硬(ying)件等工程力量，最后是数据。除此之外，还有人工智能的倫(lun)理学方面的研究以及其他邊(bian)緣(yuan)方面的规范。但总体上，大模型本身(shen)的建设主要由这三大要素組(zu)成。

在OpenAI已经证实了大模型的威(wei)力之后，说明，这条路已经走出来了，后来者赶上只是一个时间的问题。从这三大要素来看，算法在大的层面上是学术界共享(xiang)的，虽然在具体的实现中会有一些细节不同，但总体上，从国内已经经歷(li)过大模型研发的团队的报告来看，只要按(an)照(zhao)他们的路線(xian)走，大都搞(gao)定了语言模型的理解和生成能力，甚至也达到了篇章对话、思维鏈(lian)、多任务等重要指标。因此，从算法方面来说，总体上来说是可以追赶或者復(fu)制的。

算力方面可能会有一些硬件方面的限制，但目前看，据专家们说，它还不是最大的瓶(ping)頸(jing)。很多团队第一想到的就是算力和钱，没有钱買(mai)不了机器(qi)，根本拿不到进入赛道的入场券(quan)。有了钱，第二就是人才，有了人才就能搞定算法和工程。人才最好是过去几年实实在在做过大模型的，最好是在大厂的大模型团队做过，可以少绕彎(wan)路。很多团队忽(hu)略了第三条数据这件事(shi)兒(er)。忽略的这一塊(kuai)实际上可能是对整个模型影(ying)響(xiang)最大的一块。在以数据为中心（data-centric）的AI新时代，模型能不能出彩(cai)实际上主要是靠数据。前大模型时代，AI的主流(liu)是以模型为中心（model-centric）的单任务系统，数据基本保持不變(bian)。新时代的系统研发迭代的特點(dian)是，算法基本保持恒(heng)定，而数据在不斷(duan)增(zeng)强增大。而数据这一块也是很难纏(chan)的一块，最dirty的一块，也是有很多魔鬼(gui)细节的一块。

就拿Google和OpenAI对比，不管是从算力、算法，包括人力资源来看，Google的团队一点都不比OpenAI差，而且(qie)大模型最关键的基础 Transformer和基于人类反馈的强化学习（RLHF）算法实际上是Google发明的，它有殺(sha)手鐧(jian)一般(ban)的武(wu)器，结果是为他人做了嫁(jia)衣(yi)裳(chang)，让OpenAI遠(yuan)远走在了前面。

怎么回事儿？感覺(jiao)是OpenAI做了两件事把Google甩(shuai)在了后面。首先是大模型预训练后的supervised fine-tuning（SFT，监督(du)微调），主要是大模型训练出来以后先要做一个针对任务的监督学习，就是InstructGPT论文报告的工作，否(fou)则的话，按照大模型本身的特性，它的生成能力太强了，可以生成很多从大数据预训练所得到的可能的序列出来。而这些序列中，90% 对于人类来说既不是直接针对给定任务的，也没有什么实质价值，甚至是有害(hai)的。监督学习要把90%以上我们人类不想看見(jian)、甚至有毒(du)的那些東(dong)西壓(ya)下去，把10%能聽(ting)懂(dong)人的语言指令(ling)去做任务的东西浮(fu)现上来。

这个工作是OpenAI首创的，然后Google他们开始学习，据说基本达到了OpenAI的多任务水平，国内相关的公司的这类学习效(xiao)果也不错。緊(jin)接着下面一个任务，基于人类反馈的强化训练，这一工作OpenAI做得非常仔(zai)细，很多细节没有人知道，而这些“魔鬼细节”有些是决定成敗(bai)的。

他们有个非常强大的数据团队。这些数据团队不仅仅是外包，用了肯(ken)尼(ni)亞(ya)的廉(lian)价勞(lao)工进行数据标注，它其实是把它的数据团队建设成为不同水平的hierarchy（层级），有些数据可以把它下放给廉价劳工去做，主要是那些需要数量大，而标注要求簡(jian)单明確(que)的。也有从设计角度考虑的高等级的数据，需要高素质的标記(ji)人員(yuan)，不少是训练有素的博士。这裏(li)面蘊(yun)含(han)了很多非常有效的探索，而目前没有任何一个团队在数据工作方面能与它匹(pi)敵(di)，not even close。

如何“驾驭”大模型的超(chao)能力

腾讯科技：“大力出奇(qi)跡(ji)”的大模型，会有哪些特殊“超能力”？现在如何驾驭这些超能力？鲁为民：大模型的“大”是指其规模，具体表现为其参数数量的多少。由于大模型需要存儲(chu)大量的知识，因此需要更多的神(shen)经元(yuan)来存储这些信息，因此参数的数量大是必要的条件。但是，仅仅参数数量大并不足以支撑强大的多任务能力，必須(xu)要有足够大的数据集来支持规模化的模型的训练和学习。目前我们知道基于Transformer 的大模型技术已经可以比较有效地应用于各种自然语言和计算机視(shi)觉任务，但是训练这样的模型对于数据的质量和数量都有较高的要求，这是一个比较有挑战性的问题。此外，由于计算量和算力的限制，需要通过不同的方法来实现大模型的训练和优化。OpenAI、Google、DeepMind 等公司的不同实验和研究中基本上得到类似的结论，就是大模型的训练性能与它参数的多少以及数据量的大小是成冪(mi)等的伸(shen)縮(suo)规律，模型规模越(yue)大，它的训练損(sun)失(shi)函(han)数值越小。在这种情况下它们满足一定的伸缩率(lv)。我们要求模型性能更好，能力更强更多，则需要的模型规模就越大，同时训练的数据量要大。

当然具体收缩率与选择的模型本身有关。进一步的研究发现指数，像指数 α和β与特征(zheng)空(kong)间(或流形)的内在维度有关系。这个是细节。

但现在主要的焦(jiao)点在哪里？特别是对于大语言模型的性能，主要体现在数据集；数据集是影响模型性能的关键因素。因为目前数据集是一种稀(xi)缺资源。我们可以根据幂等的伸缩率发现，增加(高质量的)数据量的大小会带来最大的性能回报。但是现在有人开始讨论通用数据是否已经用完？另外，专有数据量是否太少？特别是对于有价值的数据。例如，代碼(ma)数据实际上占(zhan)的比例相当小。甚至根据幂等率，人们发现 OpenAI 的 GPT-3 模型都没有得到充(chong)分训练 (见上图)；因为通过这个可以看出，如果繼(ji)续训练，光(guang)就性能来说，还可以进一步提高。OpenAI 在这方面可能有其它考量，但至少这些观察(cha)可能对于我们训练大模型具有一定的参考价值。

另外，我们在训练中也发现大模型的一种特殊现象(xiang)，即“頓(dun)悟(wu)”（Grokking)。

顿悟的测试性能远远落后于训练性能。因为我们可以很快(kuai)地发现模型训练可以达到最优值，但在测试或验证时，它需要更长的时间才能表现出模型的精度。在这种情况下，模型有一个从记憶(yi)到泛化切(qie)換(huan)的过程。

在训练开始时，模型主要依赖于记忆提供的训练数据，并通过过度擬(ni)合来实现高效的性能，然后逐渐学会泛化。因此，“顿悟”出现在训练从记忆到泛化的切换点。

我们知道AlphaZero是在ChatGPT之前非常火(huo)爆(bao)的一个应用，主要是在棋(qi)牌(pai)领域。实际上，研究人员发现在1萬(wan)步到3万步的训练之间，模型学会人类棋类的概念(nian)，到2万6到6万步之间才开始发明一些开局(ju)的理论。对于这种“顿悟”，模型越大或数据越小，它就越明显。为什么要讨论“顿悟”？因为我们更关注的是测试性能，而这个影响到大模型的有效应用。

另外像 ChatGPT 的让人驚(jing)艷(yan)的地方在于大模型的各种惊人能力，而很多这些能力是 OpenAI 的工程师在设计和开发中没有考虑到。人们将这种能力称为“湧(yong)现”（Emergence)。

什么是“涌现”？模型在达到一定程度后，性能首先得到急(ji)劇(ju)提升，同时它涌现许多新的能力。特别是，任务所训练的模型适用于更多以前未经训练的任务。涌现对大型模型应用的影响非常重要，只有通过这种能力，我们才能高效地实现模型的泛化，并实现模型的迁移。因此，我们不仅关注其本身的性能，还要关注这种“涌现”能力，因为它使得模型适用于以前未经训练的任务，而这些任务可能是我们关注的应用场景。

涌现能力的体现方式有很多，其中一种是上下文学习（In-Context Learning，ICL）能力。通过提示来引導(dao)模型学习新的事例，并可以进一步詢(xun)问模型新提示和问题的答案，这种能力在模型规模达到一定程度后会呈现并快速(su)提升。

思维链 (Chain of Thoughts, CoT）学习是一种特殊的上下文学习。它提供一种结构化的上下文学习方法，对于复雜(za)的推理问题更加高效。在许多任务中，特别是数学任务中，傳(chuan)统简单提示的结果并不好。但是，如果我们将问题结构化、按步驟(zhou)分解，模型就能够给出正确的答案。特别是对一些比较复杂的推理问题，通过 CoT 一步步链式地提示，可以更好地让大模型具备一定程度的推理能力并逐步给出答案。

另外，基于思维链的学习也具有一定的规模优势。虽然像ChatGPT这样的标准大模型随着规模的增加展现出一定的能力，但是基于思维链的推理能力更加明显。

我们观察到这种涌现能力，并且意识到如果能够善(shan)加利用，它确实能够为我们的应用带来很多好处和优势。但是，我们也希(xi)望(wang)了解涌现能力的出现原因以及影响它的因素。在研究这个问题时，我们需要从几个方面来考虑。

首先是模型架构。涌现能力是否与Transformer有关？或者是否也适用于其他类型的神经网絡(luo)模型，例如循(xun)环神经网络（RNN）？训练的目标和学习方法是否会体现这种能力？例如，自回歸(gui)或对比学习等学习方法是否会影响涌现能力？

其次，涌现能力是否与数据的特点和数据集本身分布有关？比如，数据集的语言特点是否有助于展现这种涌现能力？特殊的数据集是否也会影响它的表现？因为之前的研究表明，在对代码数据进行训练后，模型的推理能力显著提高。

我们首先注意到这种涌现出来的能力是大模型的强大泛化能力，即它通过上下文提示学习 (In-Context Learning) 可以适用于多个任务中去。对于每(mei)个任务，模型内部体现一种閉(bi)环的学习过程。在训练模型时，外环是非监督学习，通过反向传播来训练学习模型。这样在推理时通过提供的实例，让系统動(dong)态生成一个臨(lin)时的小型神经网络来实现这种学习能力（内环）。

从模型架构的角度来看，可以验证这个猜想是否正确。例如，斯(si)坦(tan)福(fu)大学的Percy Liang 教授的团队进行一系列的实验验证，发现Transformer确实隱(yin)含一种学习算法。此外，Anthropic 的研究人员提出 Induction Heads 的概念，从另一个角度解釋(shi)In-Context Learning确实能够学习一种可泛化的函数，并且可以保留(liu)过去的一些token。此外还研究人员还发现，在单层线性Transformer中，In-Context Learning等价于梯(ti)度下降(jiang)学习机制。这些从不同的角度从理论上也进一步解释了之前的猜想。

此外，研究人员也从数据分布上也验证了涌现能力。因此，这些实验观察和理论解释给了我们使用大模型来进行上下文提示学习更多的信心，

腾讯科技：大模型还有一些缺陷(xian)，比如幻(huan)觉，这完全是坏事儿吗？有没有辦(ban)法控制？

李维：大约几天前，我在我的NLP数字頻(pin)道剛(gang)发了一篇博客，讲的就是这个问题。博客的标题是【大模型推理的细节编造(zao)是 feature，不是 bug】。所謂(wei) “一本正经的胡(hu)说八(ba)道”，主要是指虛(xu)构的细节，用更中立的说法，就是编造细节。

实际上，编造细节是生成式大语言模型的本质特征。从本性来看，它实际上的确是一个特性（feature），而不是一个错誤(wu)（bug）。

在软件工程中，这两种概念是需要區(qu)分的。特性是一种可以善加利用、有用的功能。当然，也可能会有副(fu)作用，但副作用是有限的。

那么为什么说这不是一个 bug？因为生成式大模型本质是一种语言模型，而不是一个全面系统的知识模型。语言大模型搞定了语言的方方面面，能听会说，比人类的平均(jun)语言水平要强。但是，语言模型并不等价于知识模型。知识的海洋(yang)中有一部分是深藏在底部的，只有那些漂(piao)浮在上面的细节，在训练时频繁遇(yu)到，模型能够记住(zhu)，这样的细节不会有问题。那些被它编造的细节，实际上都是那些模型记不住的东西。这与人类的大腦(nao)类似，人类也不可能记住所有的细节。

人类记不住细节的时候，除少数騙(pian)子(zi)外，一般都会改(gai)用不确定的口(kou)气，或幹(gan)脆(cui)略去细节，而不是编造细节。生成大模型不然，生成絲(si)滑(hua)的语言序列是它的本性，为此它不惜(xi)编造细节。这就是大模型所谓“幻觉”（hallucination）的表现。幻觉会导致模型輸(shu)出错误的答案、知识或编造信息，OpenAI已经花费了很多心力在RLHF中減(jian)少胡编亂(luan)造，例如GPT4的编造比例从GPT3的20%左(zuo)右(you)，已经降低到10%一下，但没办法让它絕(jue)迹。从通用大模型的视角，编造细节其实反映(ying)了模型的创造能力，并不总是坏事儿。

通用模型的本义就是支持各种开放式任务。这些任务可以分为两类。第一类任务是需要模型编造细节的，例如輔(fu)助寫(xie)作，包括写剧本、小说、詩(shi)歌，创作有创意的广告文案等。这时，编造细节不仅不是一个问题，而且是必要的，因为只有这样才能让作品更加生动有趣(qu)。

第二类任务是需要模型回答问题，例如知识问答，还有历史(shi)和地理的教育(yu)辅导等。在这种情况下，编造细节就成为一个问题，一个副作用，特别是当编造的细节混(hun)在在事实中的时候，真假(jia)莫(mo)辨(bian)，可能会造成嚴(yan)重的误导后果。

Open AI发布 GPT4 之前为抑(yi)制这个副作用做了半年多很细致的强化学习和微调，卓(zhuo)有成效。最近，我一直在测试它，发现实际效果比宣(xuan)传的10%的细节编造率要低。现在想看 GPT4的笑(xiao)话，已经很不容易(yi)了。这表明，通过更多的强化学习或微调，我们可以有效抑制它的副作用，不至于给我们造成太大的困(kun)擾(rao)。

腾讯科技：看来“我们人类有时候会不正经”，这个“能力”可能是我们超越人工智能的一个很大的特性。

李维：实际上，编造细节是人类智能中的高阶能力。据《人类简史》，人类精神文明的一个里程碑(bei)就是人学会了“讲故事” ，虚拟的故事。人类从此有了宗(zong)教和哲(zhe)学，有了组織(zhi)和动员群(qun)体力量的精神武器，从而成为地球霸(ba)主。

Having said that，在很多场景中，编造细节和胡说八道是傷(shang)人的、甚至致命(ming)的，尤(you)其是当它一本正经真假混杂的时候，而这正是 GPT 最为人所詬(gou)病(bing)的一个命门。作为一个大模型，它是通过语言序列学习到的那些细节和事实。如果这些细节和事实在语言训练中出现的频率不够高，从本质上它是不可能记住的。因此，在生成文本时，它就编造。除像GPT-4这样通过强化学习不断地改善，使得生成的胡编乱造的内容出现的频率持续降低外，从应用场景的角度来看，真正的解决方案被称为“外掛(gua)”。

什么是外挂？

解决方案实际上是到特定场景中去外挂所需的知识庫(ku)或知识图譜(pu)。在任何一个领域中，知识图谱或知识库所表达的场景的知识深度和细节豐(feng)富(fu)度是任何一个语言模型，不管它有多么大，按照现在这种方式是不可能完全学习到的。怎么办？方案就是把这个大模型和外挂的知识库结合起来，用它来彌(mi)補(bu)大模型的细节记忆不足，这才有可能较好地解决这个问题。具体的外挂方式有多种可能，例如，把外挂的知识库查(zha)询做成一个插(cha)件（plug-in），合适的节点调用它。调回来的结果可以追加到问题提示中，这样知识库的结果可以覆盖原模型没有记忆的部分，确保细节正确。另一种方式是以领域场景的业务邏(luo)辑及其领域知识库为主体，在需要语言能力的时候调用 ChatGPT 的API。两种外挂的方式都会继续推进，值得关注其消长。两种方式其实反映了大模型供应方与大模型应用方的不同视角和利益(yi)傾(qing)斜(xie)，到底谁是主体，谁调用谁。

腾讯科技：继续擴(kuo)大参数的迭代路径还能走多远？通用数据是不是有用完的时候？

李维：迄(qi)今我们没有看到大模型大力出奇迹的数据质量天花板在哪里，最新的GPT4的确在已经令世人惊艳的GPT3.5的基础上，显示出更强的接近人类专家的能力。

因此，大模型扩大参数迭代提升的嘗(chang)试还会持续下去，相应的也就需要更多的训练数据来餵(wei)飽(bao)这越来越大的模型。如果以目前的速度继续发展，业界大佬(lao)估算可能需要5年或10年的时间，可以用来训练大模型的比较干凈(jing)和高质量的数据有可能用完了。在AI加速发展日新月异的时代，这不是一个很短的时间，我们可以先擱(ge)置这个问题，因为到那个时候可能会有新的解决办法。

例如，可以开动大模型自己没完没了生成新数据，然后通过某种自动或半自动的质量过濾(lv)，反过来再(zai)用于训练模型。这样，模型的能力仍(reng)然可望提升。这似乎就是自我学习，或曰(yue)反哺(bu)。

模型大小与模型能力的关系一直是研究界关注的题目。鲁总谈到的模型顿悟现象，以及大模型表现出来的新能力的涌现，都是模型做大路上给我们带来的惊喜(xi)和实惠(hui)。总体而言，模型变大，首先是搞定了语言能力，然后是展示了越来越多的知识能力。

从ChatGPT发布的时候，我们很快发现它的理解和生成能力超过了人类的整体水平。语言通天塔(ta)已经在技术上建成了。我们人类具有与生俱(ju)来的语言潛(qian)力，在语言成长环境中的曝(pu)光使得我们成为母(mu)语的流利说话者，native speakers，但即便(bian)如此，我们每个人还是会犯(fan)错误，在语法、用詞(ci)上出现口误筆(bi)误并不罕(han)见。看看语言大模型，除非是你明令它生成“洋涇(jing)浜(bang)”，它正常生成的句子非常順(shun)暢(chang)丝滑，挑不出语法或用词的错误，其生成能力显然比人类总体强。

另一方面，ChatGPT的语言理解能力也比我们强，毫无懸(xuan)念。它不仅能够听懂各种不同的语言，即使不同语言混合在一起，它也能够理解。甚至你使用各种不同的语言的变形，只要大致意思在，它都能够抓(zhua)住，知道如何回应，可见其超群的鲁棒(bang)性。总之，无论语言理解还是语言生成，可以说大模型完全搞定了人类语言，表现得比 native 还 native。

这是因为ChatGPT这样的模型背(bei)后是千亿级的tokens（字或词），有千亿级参数的向量空间，它有足够的数据用于训练和调参足够大的模型，它消化了世界上几乎所有稍(shao)微像样的文字材(cai)料(liao)，结果就超越了人类的语言能力。

前面提过，大模型追求两种能力：一个是语言能力，另一个是在语言能力的基础上的知识能力。现在我们知道，第二个能力难度大得多。根据对中外发布的一系列大模型的调研，我们提出下列的基于观测的初(chu)步猜想：十亿级别搞定句法，文通字顺；百亿级别搞定篇章和多輪(lun)对话，不掉(diao)链子；千亿级别搞定百科和基本推理，全科大学畢(bi)业了；而万亿级别就逼近各行高知和专家的知识水平了（能通过律师、医生这类严格的专业资格考试）。现在有不同规模的模型 available，有条件认真验证上面的假说。这个工作有很现实的意义，我们想知道什么应用场景至少需要什么规模的模型，这样投入应用会比较放心。

许多国内外团队的模型表现，说明百亿级别可以达到语言能力的天花板，你基本上无法挑出其文字的毛(mao)病，它也理解上下文，对话流畅，什么语言问题都可以解决。然而，知识是无限的，要学习越来越多的知识并将其用于不同的场景，模型需要继续向上发展，达到千亿级别，就是现在的GPT-3。当GPT-4推出时，到底是多少参数？我们不知道。可能是万亿级别，也可能是五(wu)千亿级别。

总之，它肯定比GPT-3、GPT-3.5大了不少，因为看上去它的专业能力直逼专家精英的知识水平，而且比任何一个专家更博学得多，感觉就是个全才。这并不是说它就不犯错误了，也不能保证它不编造细节。其实，进一步的探究表明：这并不是说它就不犯错误了，也不能保证它不编造细节。其实，进一步的探究表明: GPT-4 的上下文逻辑与常识还是不够穩(wen)固(gu)，还有进一步提升的不小的空间。

腾讯科技：ChatGPT被认为不是一个新鮮(xian)的事物，但是它有很神奇的工程化的能力，究竟我们大语言模型和算力模型是如何应用到真正的产业中的？

鲁为民：大型语言模型 (LLM)，实际上可以解释为是一种概率模型，定义序列中单词的概率分布，并通过计算概率分布来评估该序列的好坏。因此，语言模型需要具备语言能力和世界知识。我们现在主要使用的是自回归语言模型，它根据之前生成的token来迭代产生新的token，这种生成能力也为我们带来一些新的应用。实际上，这种基于预测下一个Token的语言模型的概念最早(zao)由香(xiang)農(nong)于1948年提出。但是，直到 2003年，图靈(ling)獎(jiang)得主 Bengio 将神经网络用于语言模型，并经过一系列的努(nu)力，使得语言模型应用通过神经网络变得越来越计算可行。

语言模型作为一种生成模型。它通过归納(na)和推理，将已有的知识表示为一个类似知识图谱的结构，存储在深度神经网络中，供应用时调用。然而，在使用语言模型时，仅仅依靠该模型往往不足以生成准确的答案。

由于语言模型本身的统计特性，所以生成的答案可能是不肯定的。因此，如果我们根据该模型选择答案，就必须提供一些可能与数据无关的条件假设，这就是所谓的归纳偏差 (Inductive Bias)。因此，我们做的一切事情，包括对大型模型的训练，都是将我们自己的归纳偏差强加给模型，以便更好地训练和推理。强的 Inductive Biases 一般以降低模型的通用性为代价。

另外，我们使用ChatGPT时，了解到大模型有一种幻觉 (Hallucination)现象。幻觉是如何产生的？首先，正如前面提到，这种语言模型实际上是一个概率模型。同时，语言模型将某种知识图谱存储在神经网络權(quan)重中。因此，当它回答问题在该“知识图谱”中，找不到答案，但它得生成一个答案，则这种幻觉产生，往往是一本正经的胡说八道。第二个问题是，许多答案看似可信，但包含错误的信息。在这种情况下，就会产生幻觉。

OpenAI 在 ChatGPT 上试着解决这些问题。首先，他们试图通过监督学习微调来尝试解决包括幻觉和人类价值对齊(qi)的问题。好像收效甚微。后来，借(jie)助于 RLHF (人工反馈强化学习) 来进行微调，收到比较好的效果。它主要是通过奖賞(shang)模型来学习人类对事实的一些判断或价值的一些体现，并通过强化学习来对模型进行微调。然而，强化学习并不能根除幻觉现象，这个与语言模型特性本身有关。毕竟语言模型是一个概率模型。

将大模型适配到垂直专业场景的模式涉及到迁移学习。迁移学习为什么重要？它在不同场景的应用中提供必要的泛化能力。比如预训练大模型使用不同的数据集，训练好一个大的模型它能涵盖多个垂直领域任务。但是，我们新的目标垂域有可能不在预训练的大模型覆盖范围之内，那我们可以对它进行适配迁移，来让其覆盖目标垂域。具体来说，迁移学习有下图所示的几种形式。

。

我们目前大模型的迁移适配主要用后两种形式，即第一种通过重新调整模型参数，使其成为适用于场景的垂直模型；这方面已经有过很多好的实踐(jian)，比如我们可以通过改变少量参数进行模型适配，减少训练的计算量，比如大家熟(shu)悉(xi)的 LORA等方法；另一种则是利用其具有的涌现能力，直接通过提示 (Prompt) 的设计或提示学习 (Prompt Learning)，来使得模型在推理时可以动态学习来生成适合相关场景的内容。前者的优势是能充分利用垂域数据集，多样本学习性能好，同时对提示要求低，推理成本低，但可能的问题是训练成本高，且应对数据漂移等问题不灵活(huo)。

而后者基于Promp的迁移学习的优势是可以小样本学习，对数据要求不高，不需要模型进行训练，而不用改变预训练模型的参数和结构；另外通过动态地提供迁移学习能力，对数据漂移等问题可以灵活处理；但可能需要提供比较长的复杂的提示，因此推理成本可能高一些。

除了模型的迁移适配外，通过适当地接入外部的工具，来提供一系列工具链完成更为复杂的任务，目前像 LangChain，HuggingGPT，BabyAGI 和 AutoGPT 等框(kuang)架做了一些有益的尝试。返(fan)回搜(sou)狐(hu)，查看更多

責(ze)任编辑：