微信广告投放案例

随着移动互联网的普及，微信已成为中国最受欢迎的社交媒体平台之一。不仅仅是个人用户，越来越多的企业也开始在微信上推广自己的品牌和产品，从而获得更多的曝光率和客户。下面，我们将分享一个微信广告投放案例，帮助你更好地了解微信广告投放的效果和策略。

广告背景

该案例的广告主是一家时尚服装品牌，希望通过微信广告推广新品系列并增加销售量。广告投放时间为两周，预算为50000元人民币。

广告策略

为了让广告更有效地传递品牌信息和吸引潜在客户，广告主采取了以下策略：

定位目标受众：通过微信广告平台的定位功能，将广告展示给年龄在18-35岁的女性用户，这是该品牌的主要受众群体。
制作吸引人的广告素材：广告主制作了高质量的图片和视频素材，展示了新品系列的时尚和品质感，同时结合了女性用户的情感需求和生活场景，增加了广告的吸引力。
设置合理的广告出价：广告主根据广告平台的提示和市场竞争情况，设置了合理的广告出价，确保广告可以显示在目标用户的微信朋友圈或聊天界面中。
监测和调整广告效果：广告主通过微信广告平台的数据分析功能，及时监测广告投放效果，根据反馈结果进行调整和优化，确保广告效果最大化。

广告效果

经过两周的广告投放，该品牌的微信粉丝量和销售量都有了明显的增长。具体效果如下：

微信粉丝量增加了约20%，其中不少是新用户。
销售量增加了15%，其中有很多是新品系列的销售。
广告点击率高达2%，远高于行业平均水平。

通过这个微信广告投放案例，我们可以看到广告主通过制定合理的广告策略和监测广告效果，成功地增加了品牌曝光率和销售量。对于其他企业来说，也可以借鉴这些策略，提高自己的广告投放效果。

如果您对微信广告投放有任何疑问或需要咨询相关服务，请联系我们的客服人员。

结论：微信广告投放可以帮助企业提高品牌曝光率和销售量。要想成功，需要制定合理的广告策略和监测广告效果，确保广告可以吸引目标受众并获得最佳效果。

微信广告投放案例随机日志

要闻、早上、医疗硅谷、抗疫、设计规划

1、教师可以申请培训班进修。金牌教师可以接受到邀请，对培训机构的学员考核颁发成绩。

2、多样的图标设计形状，首页的各专区设置了不同的形状还展示精美的样式；

3、城市覆盖面特别广，成千上万的专业装修师傅；

4、附近趣闻:基于地理位置展示附近美图，让你发现身边的美好~

5、【增加】漫画猫漫画下载，不支持多线程下载，需要设置单任务下载。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>ChatGPT怎(zen)麽(me)突(tu)然(ran)變(bian)得(de)這(zhe)么強(qiang)？華(hua)人(ren)博(bo)士(shi)萬(wan)字(zi)長(chang)文(wen)深(shen)度(du)拆(chai)解(jie)GPT-3.5能(neng)力(li)起(qi)源(yuan)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

作(zuo)者(zhe)：符(fu)堯(yao) 彭(peng)昊(hao) Tushar Khot

編(bian)輯(ji)：LRS 好(hao)困(kun)

【新智元導(dao)讀(du)】ChatGPT是(shi)如(ru)何(he)從(cong)GPT-3逐(zhu)漸(jian)進(jin)化(hua)的(de)？

最(zui)近(jin)OpenAI發(fa)布(bu)的ChatGPT給(gei)人工(gong)智能領(ling)域(yu)註(zhu)入(ru)了(le)壹(yi)針(zhen)强心(xin)劑(ji)，其(qi)强大(da)的能力遠(yuan)超(chao)自(zi)然語(yu)言(yan)處(chu)理(li)研(yan)究(jiu)者們(men)的預(yu)期(qi)。

體(ti)驗(yan)過(guo)ChatGPT的用(yong)戶(hu)很(hen)自然地(di)就(jiu)會(hui)提(ti)出(chu)疑(yi)問(wen)：初(chu)代(dai)GPT 3是如何进化成(cheng)ChatGPT的？GPT 3.5驚(jing)人的语言能力又(you)來(lai)自哪(na)？

最近来自艾(ai)倫(lun)人工智能研究所(suo)的研究人員(yuan)撰(zhuan)寫(xie)了一篇(pian)文章(zhang)，試(shi)圖(tu)剖(pou)析(xi) ChatGPT 的突現(xian)能力（Emergent Ability），並(bing)追(zhui)溯(su)这些(xie)能力的来源，并给出了一個(ge)全(quan)面(mian)的技(ji)術(shu)路(lu)線(xian)图以(yi)說(shuo)明(ming) GPT-3.5 模(mo)型(xing)系(xi)列(lie)以及(ji)相(xiang)關(guan)的大型语言模型是如何一步(bu)步进化成目(mu)前(qian)的强大形(xing)態(tai)。

原(yuan)文鏈(lian)接(jie)： https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756

作者符尧是2020年(nian)入學(xue)的愛(ai)丁(ding)堡(bao)大学博士生(sheng)，碩(shuo)士畢(bi)業(ye)於(yu)哥(ge)伦比(bi)亞(ya)大学，本(ben)科(ke)毕业于北(bei)京(jing)大学，目前在(zai)艾伦人工智能研究所做(zuo)研究實(shi)習(xi)生。他(ta)的主(zhu)要(yao)研究方(fang)向(xiang)為(wei)人類(lei)语言的大規(gui)模概(gai)率(lv)生成模型。

作者彭昊本科毕业于北京大学，博士毕业于华盛(sheng)頓(dun)大学，目前是艾伦人工智能研究所的Young Investigator，并將(jiang)于2023年8月(yue)加(jia)入伊(yi)利(li)諾(nuo)伊大学厄(e)巴(ba)納(na)-香(xiang)檳(bin)分(fen)校(xiao)計(ji)算(suan)機(ji)科学系，擔(dan)任(ren)助(zhu)理教(jiao)授(shou)。他的主要研究方向包(bao)括(kuo)使(shi)语言 AI 更(geng)有(you)效(xiao)率和(he)更容(rong)易(yi)理解，以及建(jian)立(li)大规模的语言模型。

作者Tushar Khot博士毕业于威(wei)斯(si)康(kang)星(xing)-麥(mai)迪(di)遜(xun)大学，目前是艾伦人工智能研究所的研究科学家(jia)。他的主要研究方向为結(jie)構(gou)化机器(qi)推(tui)理。

一、2020 版(ban)初代 GPT-3 與(yu)大规模预訓(xun)練(lian)

初代GPT-3展(zhan)示(shi)了三(san)个重(zhong)要能力：

语言生成：遵(zun)循(xun)提示詞(ci)（prompt），然後(hou)生成補(bu)全提示词的句(ju)子(zi)。这也(ye)是今(jin)天(tian)人类与语言模型最普(pu)遍(bian)的交(jiao)互(hu)方式(shi)。上(shang)下(xia)文学习 (in-context learning)：遵循给定(ding)任務(wu)的幾(ji)个示例(li)，然后为新的測(ce)试用例生成解決(jue)方案(an)。很重要的一點(dian)是，GPT-3雖(sui)然是个语言模型，但(dan)它(ta)的論(lun)文几乎(hu)沒(mei)有談(tan)到(dao)「语言建模」 (language modeling) —— 作者将他们全部(bu)的写作精(jing)力都(dou)投(tou)入到了對(dui)上下文学习的願(yuan)景(jing)上，这才(cai)是 GPT-3的真(zhen)正(zheng)重点。世(shi)界(jie)知(zhi)識(shi)：包括事(shi)实性(xing)知识 (factual knowledge) 和常(chang)识 (commonsense)。

那(na)么这些能力从何而(er)来呢(ne)？

基(ji)本上，以上三種(zhong)能力都来自于大规模预训练：在有3000億(yi)單(dan)词的语料(liao)上预训练擁(yong)有1750亿參(can)數(shu)的模型（训练语料的60%来自于 2016 - 2019 的 C4 + 22% 来自于 WebText2 + 16% 来自于Books + 3%来自于Wikipedia）。其中(zhong)：

语言生成的能力来自于语言建模的训练目標(biao) (language modeling)。世界知识来自 3000 亿单词的训练语料庫(ku)（不(bu)然還(hai)能是哪兒(er)呢）。模型的 1750 亿参数是为了存(cun)儲(chu)知识，Liang et al. (2022) 的文章进一步證(zheng)明了这一点。他们的结论是，知识密(mi)集(ji)型任务的性能与模型大小(xiao)息(xi)息相关。上下文学习的能力来源及为什(shen)么上下文学习可(ke)以泛(fan)化，仍(reng)然難(nan)以溯源。直(zhi)覺(jiao)上，这种能力可能来自于同(tong)一个任务的数據(ju)点在训练時(shi)按(an)順(shun)序(xu)排(pai)列在同一个 batch 中。然而，很少(shao)有人研究为什么语言模型预训练会促(cu)使上下文学习，以及为什么上下文学习的行(xing)为与微(wei)調(tiao) (fine-tuning) 如此(ci)不同。

令(ling)人好奇(qi)的是，初代的GPT-3有多(duo)强。

其实比較(jiao)难確(que)定初代 GPT-3（在 OpenAI API 中被(bei)稱(cheng)为davinci）到底(di)是「强」还是「弱(ruo)」。

一方面，它合(he)理地回(hui)應(ying)了某(mou)些特(te)定的查(zha)詢(xun)，并在許(xu)多数据集中達(da)到了还不錯(cuo)的性能；

另(ling)一方面，它在许多任务上的表(biao)现还不如 T5 这樣(yang)的小模型（参見(jian)其原始(shi)论文）。

在今天（2022 年 12 月）ChatGPT 的标準(zhun)下，很难说初代的 GPT-3 是「智能的」。Meta 開(kai)源的 OPT 模型试图復(fu)现初代 GPT-3，但它的能力与當(dang)今的标准也形成了尖(jian)銳(rui)的对比。许多测试过 OPT 的人也認(ren)为与现在的text-davinci-002相比，該(gai)模型确实「不咋(za)地」。

盡(jin)管(guan)如此，OPT 可能是初代 GPT-3 的一个足(zu)夠(gou)好的开源的近似(si)模型了（根(gen)据 OPT 论文和斯坦(tan)福(fu)大学的 HELM 評(ping)估(gu)）。

虽然初代的 GPT-3 可能表面上看(kan)起来很弱，但后来的实验证明，初代 GPT-3 有著(zhu)(zhe)非(fei)常强的潛(qian)力。这些潜力后来被代碼(ma)训练、指(zhi)令微调 (instruction tuning) 和基于人类反(fan)饋(kui)的强化学习 (reinforcement learning with human feedback, RLHF) 解鎖(suo)，最終(zhong)体展示出極(ji)为强大的突现能力。

二(er)、从 2020 版 GPT-3 到 2022 版 ChatGPT

从最初的 GPT-3 开始，为了展示 OpenAI 是如何发展到ChatGPT的，我(wo)们看一下 GPT-3.5 的进化樹(shu)：

在 2020 年 7 月，OpenAI 发布了模型索(suo)引(yin)为的 davinci 的初代 GPT-3 论文，从此它就开始不斷(duan)进化。

在 2021 年 7 月，Codex 的论文发布，其中初始的 Codex 是根据（可能是內(nei)部的）120 亿参数的 GPT-3 变体进行微调的。后来这个 120 亿参数的模型演(yan)变成 OpenAI API 中的code-cushman-001。

在 2022 年 3 月，OpenAI 发布了指令微调 (instruction tuning) 的论文，其監(jian)督(du)微调 (supervised instruction tuning) 的部分对应了davinci-instruct-beta和text-davinci-001。

在 2022 年 4 月至(zhi) 7 月的，OpenAI 开始对code-davinci-002模型进行 Beta 测试，也称其为 Codex。然后code-davinci-002、text-davinci-003和ChatGPT 都是从code-davinci-002进行指令微调得到的。詳(xiang)細(xi)信(xin)息請(qing)参閱(yue) OpenAI的模型索引文檔(dang)。

尽管 Codex 聽(ting)着像(xiang)是一个只(zhi)管代码的模型，但code-davinci-002可能是最强大的针对自然语言的GPT-3.5 变体（優(you)于 text-davinci-002和 -003）。code-davinci-002很可能在文本和代码上都經(jing)过训练，然后根据指令进行调整(zheng)（将在下面解釋(shi)）。

然后2022 年 5-6 月发布的text-davinci-002是一个基于code-davinci-002的有监督指令微调 (supervised instruction tuned) 模型。在text-davinci-002上面进行指令微调很可能降(jiang)低(di)了模型的上下文学习能力，但是增(zeng)强了模型的零(ling)样本能力（将在下面解释）。

然后是text-davinci-003和 ChatGPT，它们都在 2022 年 11 月发布，是使用的基于人类反馈的强化学习的版本指令微调 (instruction tuning with reinforcement learning from human feedback) 模型的兩(liang)种不同变体。

text-davinci-003 恢(hui)复了（但仍然比code-davinci-002差(cha)）一些在text-davinci-002 中丟(diu)失(shi)的部分上下文学习能力（大概是因(yin)为它在微调的时候(hou)混(hun)入了语言建模）并进一步改(gai)进了零样本能力（得益(yi)于RLHF）。另一方面，ChatGPT 似乎犧(xi)牲(sheng)了几乎所有的上下文学习的能力来換(huan)取(qu)建模对話(hua)歷(li)史(shi)的能力。

總(zong)的来说，在 2020 - 2021 年期間(jian)，在code-davinci-002之(zhi)前，OpenAI 已(yi)经投入了大量(liang)的精力通(tong)过代码训练和指令微调来增强GPT-3。当他们完(wan)成code-davinci-002时，所有的能力都已经存在了。很可能后續(xu)的指令微调，無(wu)论是通过有监督的版本还是强化学习的版本，都会做以下事情(qing)（稍(shao)后会详细说明）：

指令微调不会为模型注入新的能力 —— 所有的能力都已经存在了。指令微调的作用是解锁 / 激(ji)发这些能力。这主要是因为指令微调的数据量比预训练数据量少几个数量級(ji)（基礎(chu)的能力是通过预训练注入的）。指令微调将 GPT-3.5 的分化到不同的技能树。有些更擅(shan)长上下文学习，如text-davinci-003，有些更擅长对话，如ChatGPT。指令微调通过牺牲性能换取与人类的对齊(qi)（alignment）。OpenAI 的作者在他们的指令微调论文中称其为「对齐稅(shui)」 (alignment tax)。许多论文都报道了code-davinci-002在基准测试中实现了最佳(jia)性能（但模型不一定符合人类期望(wang)）。在code-davinci-002上进行指令微调后，模型可以生成更加符合人类期待(dai)的反馈（或(huo)者说模型与人类对齐），例如：零样本问答(da)、生成安(an)全和公(gong)正的对话回复、拒(ju)絕(jue)超出模型它知识範(fan)圍(wei)的问題(ti)。

三、Code-Davinci-002和 Text-Davinci-002，在代码上训练，在指令上微调

在code-davinci-002和text-davinci-002之前，有两个中间模型，分別(bie)是 davinci-instruct-beta 和 text-davinci-001。两者在很多方面都比上述(shu)的两个-002模型差（例如，text-davinci-001 链式思(si)維(wei)推理能力不强）。

所以我们在本節(jie)中重点介(jie)紹(shao) -002 型號(hao)。

3.1 复雜(za)推理能力的来源和泛化到新任务的能力

我们关注code-davinci-002和text-davinci-002，这两兄(xiong)弟(di)是第(di)一版的 GPT3.5 模型，一个用于代码，另一个用于文本。它们表现出了三种重要能力与初代 GPT-3 不同的能力：

響(xiang)应人类指令：以前，GPT-3 的輸(shu)出主要训练集中常见的句子。现在的模型会针对指令 / 提示词生成更合理的答案（而不是相关但无用的句子）。

泛化到没有见过的任务：当用于调整模型的指令数量超过一定的规模时，模型就可以自動(dong)在从没见过的新指令上也能生成有效的回答。这种能力对于上线部署(shu)至关重要，因为用户总会提新的问题，模型得答得出来才行。

代码生成和代码理解：这个能力很顯(xian)然，因为模型用代码训练过。

利用思维链 (chain-of-thought) 进行复杂推理：初代 GPT3 的模型思维链推理的能力很弱甚(shen)至没有。code-davinci-002 和 text-davinci-002 是两个拥有足够强的思维链推理能力的模型。

思维链推理之所以重要，是因为思维链可能是解锁突现能力和超越(yue)縮(suo)放(fang)法(fa)則(ze) (scaling laws) 的关鍵(jian)。

这些能力从何而来？

与之前的模型相比，两个主要區(qu)别是指令微调和代码训练。具(ju)体来说：

能够响应人类指令的能力是指令微调的直接產(chan)物(wu)。

对没有见过的指令做出反馈的泛化能力是在指令数量超过一定程(cheng)度之后自动出现的，T0、Flan 和 FlanPaLM 论文进一步证明了这一点。

使用思维链进行复杂推理的能力很可能是代码训练的一个神(shen)奇的副(fu)产物。对此，我们有以下的事实作为一些支(zhi)持(chi)：

最初的 GPT-3 没有接受(shou)过代码训练，它不能做思维链。

text-davinci-001 模型，虽然经过了指令微调，但第一版思维链论文报告(gao)说，它的它思维链推理的能力非常弱 —— 所以指令微调可能不是思维链存在的原因，代码训练才是模型能做思维链推理的最可能原因。

PaLM 有 5% 的代码训练数据，可以做思维链。

Codex论文中的代码数据量为 159G ，大約(yue)是初代 GPT-3 5700 亿训练数据的28%。code-davinci-002 及其后续变体可以做思维链推理。

在 HELM 测试中，Liang et al. (2022) 对不同模型进行了大规模评估。他们发现了针对代码训练的模型具有很强的语言推理能力，包括 120亿参数的code-cushman-001.。

我们在 AI2 的工作也表明，当配(pei)備(bei)复杂的思维链时，code-davinci-002 在 GSM8K 等(deng)重要数学基准上是目前表现最好的模型。

直觉来说，面向过程的编程 (procedure-oriented programming) 跟(gen)人类逐步解决任务的过程很类似，面向对象(xiang)编程 (object-oriented programming) 跟人类将复杂任务分解为多个簡(jian)单任务的过程很类似。

以上所有觀(guan)察(cha)结果(guo)都是代码与推理能力 / 思维链之间的相关性，但不一定是因果性。这种相关性很有趣(qu)，但现在还是一个待研究的开放性问题。目前看来，我们没有非常确鑿(zao)的证据证明代码就是思维链和复杂推理的原因。此外(wai)，代码训练另一个可能的副产品(pin)是长距(ju)離(li)依(yi)賴(lai)，正如Peter Liu所指出：「语言中的下个词语预测通常是非常局(ju)部的，而代码通常需(xu)要更长的依赖关系来做一些事情，比如前后括号的匹(pi)配或引用远处的函(han)数定義(yi)」。这裏(li)我想(xiang)进一步补充(chong)的是：由(you)于面向对象编程中的类繼(ji)承(cheng)，代码也可能有助于模型建立编码層(ceng)次(ci)结构的能力。我们将对这一假(jia)設(she)的檢(jian)验留(liu)给未(wei)来的工作。

另外还要注意(yi)一些细节差異(yi)：

text-davinci-002 与 code-davinci-002

Code-davinci-002 是基础模型，text-davinci-002 是指令微调 code-davinci-002 的产物（见 OpenAI 的文档）。它在以下数据上作了微调：（一）人工标注的指令和期待的输出；（二）由人工标注者選(xuan)擇(ze)的模型输出。

当有上下文示例 (in-context example) 的时候， Code-davinci-002 更擅长上下文学习；当没有上下文示例 / 零样本的时候， text-davinci-002 在零样本任务完成方面表现更好。从这个意义上说，text-davinci-002 更符合人类的期待（因为对一个任务写上下文示例可能会比较麻(ma)煩(fan)）。

OpenAI 不太(tai)可能故(gu)意牺牲了上下文学习的能力换取零样本能力 —— 上下文学习能力的降低更多是指令学习的一个副作用，OpenAI 管这叫(jiao)对齐税。

001 模型（code-cushman-001 和 text-davinci-001）v.s. 002 模型（code-davinci-002 和 text-davinci-002）

001 模型主要是为了做純(chun)代码 / 纯文本任务；002 模型则深度融(rong)合了代码训练和指令微调，代码和文本都行。

Code-davinci-002 可能是第一个深度融合了代码训练和指令微调的模型。证据有：code-cushman-001 可以进行推理但在纯文本上表现不佳，text-davinci-001 在纯文本上表现不错但在推理上不大行。code-davinci-002 则可以同时做到这两点。

3.2 这些能力是在预训练之后已经存在还是在之后通过微调注入？

在这个階(jie)段(duan)，我们已经确定了指令微调和代码训练的关键作用。一个重要的问题是如何进一步分析代码训练和指令微调的影(ying)响？

具体来说：上述三种能力是否(fou)已经存在于初代的GPT-3中，只是通过指令和代码训练觸(chu)发 / 解锁？或者这些能力在初代的 GPT-3 中并不存在，是通过指令和代码训练注入？

如果答案已经在初代的 GPT-3 中，那么这些能力也应该在 OPT 中。因此，要复现这些能力，或许可以直接通过指令和代码调整 OPT。

但是，code-davinci-002 也可能不是基于最初的 GPT-3 davinci，而是基于比初代 GPT-3 更大的模型。如果是这种情況(kuang)，可能就没辦(ban)法通过调整 OPT 来复现了。

研究社(she)区需要进一步弄(nong)清(qing)楚(chu) OpenAI 训练了什么样的模型作为 code-davinci-002 的基础模型。

我们有以下的假设和证据：

code-davinci-002的基础模型可能不是初代GPT-3 davinci 模型。

初代的GPT-3在数据集 C4 2016 - 2019 上训练，而 code-davinci-002 训练集则在延(yan)长到2021年才结束(shu)。因此 code-davinci-002 有可能在 C4 的 2019-2021 版本上训练。

初代的 GPT-3 有一个大小为 2048 个词的上下文窗(chuang)口(kou)。code-davinci-002 的上下文窗口则为 8192。GPT 系列使用绝对位(wei)置(zhi)嵌(qian)入 (absolute positional embedding)，直接对绝对位置嵌入进行外推而不经过训练是比较难的，并且(qie)会嚴(yan)重損(sun)害(hai)模型的性能（参考(kao) Press et al., 2022）。如果 code-davinci-002 是基于初代GPT-3，那OpenAI 是如何擴(kuo)展上下文窗口的？

另一方面，无论基础模型是初代的 GPT-3 还是后来训练的模型，遵循指令和零样本泛化的能力都可能已经存在于基础模型中，后来才通过指令微调来解锁（而不是注入）。

这主要是因为 OpenAI 的论文报告的指令数据量大小只有 77K，比预训练数据少了几个数量级。

其他指令微调论文进一步证明了数据集大小对模型性能的对比，例如 Chung et al. (2022) 的工作中， Flan-PaLM 的指令微调僅(jin)为预训练计算的 0.4%。一般(ban)来说，指令数据会显著少于预训练数据。

然而，模型的复杂推理能力可能是在预训练阶段通过代码数据注入。

代码数据集的规模与上述指令微调的情况不同。这里的代码数据量足够大，可以占(zhan)据训练数据的重要部分（例如，PaLM 有 8% 的代码训练数据）

如上所述，在 code-davinci-002 之前的模型 text-davinci-001 大概没有在代码数据上面微调过，所以它的推理 / 思维链能力是非常差的，正如第一版思维链论文中所报告的那样，有时甚至比参数量更小的 code-cushman-001 还差。

区分代码训练和指令微调效果的最好方法可能是比较 code-cushman-001、T5 和 FlanT5。

因为它们具有相似的模型大小（110亿和 120亿），相似的训练数据集 (C4)，它们最大的区别就是有没有在代码上训练过 / 有没有做过指令微调。

目前还没有这样的比较。我们把(ba)这个留给未来的研究。

四(si)、text-davinci-003 和 ChatGPT，基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF) 的威力

在当前阶段（2022 年 12 月）， text-davinci-002、text-davinci-003 和 ChatGPT之间几乎没有严格(ge)的統(tong)计上的比较，主要是因为：

text-davinci-003 和 ChatGPT 在撰写本文时才发布不到一个月。

ChatGPT 不能通过 OpenAI API 被调用，所以想要在标准基准上测试它很麻烦。

所以在这些模型之间的比较更多是基于研究社区的集体经验（统计上不是很严格）。不过，我们相信初步的描(miao)述性比较仍然可以揭(jie)示模型的机制(zhi)。

我们首(shou)先(xian)注意到以下 text-davinci-002，text-davinci-003 和 ChatGPT 之间的比较：

所有三个模型都经过指令微调。

text-davinci-002 是一个经过监督学习指令微调 (supervised instruction tuning) 的模型。

text-davinci-003 和 ChatGPT 是基于人类反馈的强化学习的指令微调 (Instruction tuning with Reinforcement Learning from Human Feedback RLHF)。这是它们之间最显着的区别。

这意味(wei)着大多数新模型的行为都是 RLHF 的产物。

那么讓(rang)我们看看 RLHF 触发的能力：

翔(xiang)实的回应： text-davinci-003 的生成通常比 text-davinci-002长。ChatGPT 的回应则更加冗(rong)长，以至于用户必(bi)須(xu)明确要求(qiu)「用一句话回答我」，才能得到更加简潔(jie)的回答。这是 RLHF 的直接产物。公正的回应： ChatGPT 通常对涉(she)及多个实体利益的事件(jian)（例如政(zheng)治(zhi)事件）给出非常平(ping)衡(heng)的回答。这也是RLHF的产物。拒绝不当问题：这是内容过濾(lv)器和由 RLHF 触发的模型自身(shen)能力的结合，过滤器过滤掉(diao)一部分，然后模型再(zai)拒绝一部分。拒绝其知识范围之外的问题：例如，拒绝在2021 年 6 月之后发生的新事件（因为它没在这之后的数据上训练过）。这是 RLHF 最神奇的部分，因为它使模型能够隱(yin)式地区分哪些问题在其知识范围内，哪些问题不在其知识范围内。

有两件事情值(zhi)得注意：

所有的能力都是模型本来就有的，而不是通过RLHF 注入的。RLHF 的作用是触发 / 解锁突现能力。这个论点主要来自于数据量大小的比较：因为与预训练的数据量相比，RLHF 占用的计算量 / 数据量要少得多。

模型知道它不知道什么不是通过编写规则来实现的，而是通过RLHF解锁的。这是一个非常令人惊訝(ya)的发现，因为 RLHF 的最初目标是让模型生成复合人类期望的回答，这更多是让模型生成安全的句子，而不是让模型知道它不知道的内容。

幕(mu)后发生的事情可能是：

ChatGPT: 通过牺牲上下文学习的能力换取建模对话历史的能力。这是一个基于经验的观测结果，因为 ChatGPT 似乎不像 text-davinci-003 那样受到上下文演示的强烈(lie)影响。

text-davinci-003：恢复了 text-davinci-002 所牺牲的上下文学习能力，提高(gao)零样本的能力。根据instructGPT的论文，这是来自于强化学习调整阶段混入了语言建模的目标（而不是 RLHF 本身）。

五(wu)、总结当前阶段 GPT-3.5 的进化历程

到目前为止(zhi)，我们已经仔(zai)细检查了沿(yan)着进化树出现的所有能力，下表总结了演化路徑(jing)：

我们可以得出结论：

语言生成能力 + 基础世界知识 + 上下文学习都是来自于预训练（davinci）。

存储大量知识的能力来自 1750 亿的参数量。

遵循指令和泛化到新任务的能力来自于扩大指令学习中指令的数量（Davinci-instruct-beta)。

執(zhi)行复杂推理的能力很可能来自于代码训练（code-davinci-002）。

生成中立、客(ke)观的能力、安全和翔实的答案来自与人类的对齐。具体来说：

如果是监督学习版，得到的模型是text-davinci-002。

如果是强化学习版 (RLHF) ，得到的模型是text-davinci-003。

无论是有监督还是 RLHF ，模型在很多任务的性能都无法超过 code-davinci-002 ，这种因为对齐而造(zao)成性能衰(shuai)退(tui)的现象叫做对齐税。

对话能力也来自于 RLHF（ChatGPT），具体来说它牺牲了上下文学习的能力，来换取：

建模对话历史。

增加对话信息量。

拒绝模型知识范围之外的问题。

六(liu)、GPT-3.5 目前不能做什么

虽然GPT-3.5是自然语言处理研究中的重要一步，但它并没有完全包含(han)许多研究人员（包括 AI2）设想的所有理想屬(shu)性。以下是GPT-3.5不具备的某些重要属性：

实时改写模型的信念(nian)：当模型表达对某事的信念时，如果该信念是错誤(wu)的，我们可能很难糾(jiu)正它：

我最近遇(yu)到的一个例子是：ChatGPT 堅(jian)持认为 3599 是一个質(zhi)数，尽管它承认 3599 = 59 * 61。另外，请参阅Reddit上关于遊(you)得最快(kuai)的海(hai)洋(yang)哺(bu)乳(ru)动物的例子。

然而，模型信念的强度似乎存在不同的层次。一个例子是即(ji)使我告訴(su)它达斯·维达（星球(qiu)大戰(zhan)電(dian)影中的人物）贏(ying)得了2020年大选，模型依舊(jiu)会认为美(mei)國(guo)现任总统是拜(bai)登(deng)。但是如果我将选舉(ju)年份(fen)改为 2024 年，它就会认为总统是达斯·维达是 2026 年的总统。

形式推理：GPT-3.5系列不能在数学或一阶邏(luo)辑等形式严格的系统中进行推理：

在自然语言处理的文獻(xian)中，「推理」一词的定义很多时候不太明确。但如果我们从模糊(hu)性的角(jiao)度来看，例如一些问题 (a) 非常模棱(leng)两可，没有推理；(b) 有点儿逻辑在里面，但有些地方也可以模糊；(c) 非常严謹(jin)，不能有任何歧(qi)义。

那么，模型可以很好地进行 (b) 类的帶(dai)模糊性的推理，例子有：

生成如何做豆(dou)腐(fu)腦(nao)的方法。做豆腐脑的时候，中间很多步驟(zhou)模糊一点是可以接受的，比如到底是做鹹(xian)的还是做甜(tian)的。只要整体步骤大致(zhi)正确，做出来的豆腐脑儿就能吃(chi)。

数学定理的证明思路。证明思路是用语言表达的非正式的逐步解法，其中每(mei)一步的严格推导可以不用太具体。证明思路经常被用到数学教学：只要老(lao)師(shi)给一个大致正确的整体步骤，学生就可以大概明白(bai)。然后老师把具体的证明细节作为作业布置给学生，答案略(lve)。

GPT-3.5 不能进行类型 (c) 的推理（推理不能容忍(ren)歧义）。

一个例子是严格的数学证明，要求中间步骤中不能跳(tiao)，不能模糊，不能错。

但这种严格推理到底是应该让语言模型做还是让符号系统做还有待討(tao)论。一个例子是，与其努(nu)力让 GPT 做三位数加法，不如直接调 Python。

从互聯(lian)網(wang)进行检索：GPT-3.5 系列（暫(zan)时）不能直接搜(sou)索互联网。

但是有一篇 WebGPT 论文发表于2021年12月，里面就让 GPT 调用了搜索引擎(qing)。所以检索的能力已经在 OpenAI 内部进行了测试。

这里需要区分的一点是，GPT-3.5 的两个重要但不同的能力是知识和推理。一般来说，如果我们能够将知识部分卸(xie)載(zai)到外部的检索系统，让语言模型只專(zhuan)注于推理，这就很不错了。因为：

模型的内部知识总是在某个时间被切(qie)断。模型始终需要最新的知识来回答最新的问题。

回想一下，我们已经讨论过 1750 亿的参数大量用于存储知识。如果我们可以将知识卸载到模型之外，那么模型参数可能会大大減(jian)少，最终它甚至可以在手(shou)机上運(yun)行（瘋(feng)狂(kuang)的想法，但 ChatGPT 已经足够科幻(huan)了，誰(shui)知道未来会怎样呢)。

七(qi)、结论

在这篇博文中，我们仔细检查了GPT-3.5系列的能力范围，并追溯了它们所有突现能力的来源。

初代GPT-3模型通过预训练獲(huo)得生成能力、世界知识和in-context learning。然后通过instruction tuning的模型分支获得了遵循指令和能泛化到没有见过的任务的能力。经过代码训练的分支模型则获得了代码理解的能力，作为代码训练的副产品，模型同时潜在地获得了复杂推理的能力。

结合这两个分支，code-davinci-002似乎是具有所有强大能力的最强GPT-3.5模型。接下来通过有监督的instruction tuning和 RLHF通过牺牲模型能力换取与人类对齐，即对齐税。RLHF 使模型能够生成更翔实和公正的答案，同时拒绝其知识范围之外的问题。

我们希(xi)望这篇文章能够幫(bang)助提供(gong)一个清晰(xi)的GPT评估图，并引发一些关于语言模型、instruction tuning和code tuning的讨论。最重要的是，我们希望这篇文章可以作为在开源社区内复现GPT-3.5的路线图。

常见问题

这篇文章中的这些说法更像是假设 (hypothesis) 还是结论 (conclusion)？复杂推理的能力来自于代码训练是我们傾(qing)向于相信的假设。对没有见过的任务泛化能力来自大规模指令学习是至少 4 篇论文的结论。 GPT-3.5来自于其他大型基础模型，而不是1750亿参数的GPT-3 是有根据的猜(cai)测。所有这些能力都已经存在了，通过instruction tuning，无论是有监督学习或强化学习的方式来解锁而不是注入这些能力是一个强有力的假设，强到妳(ni)不敢(gan)不信。主要是因为instruction tuning数据量比预训练数据量少了几个数量级。结论 = 许多证据支持这些说法的正确性；假设 = 有正面证据但不够有力；有根据的猜测 = 没有确凿的证据，但某些因素(su)会指向这个方向为什么其他模型（如 OPT 和 BLOOM）没有那么强大？ OPT大概是因为训练过程太不穩(wen)定。

BLOOM的情况则未知。

原文链接：

https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756

返(fan)回搜狐(hu)，查看更多

責(ze)任编辑：