2020广告活动分析：洞悉趋势与机遇

在当今市场竞争日趋激烈的情况下，广告活动已成为企业推广产品和增加品牌知名度的重要手段。2020年，随着新媒体和技术的不断发展，广告活动的形式和方式不断更新迭代。因此，在制定广告活动策略时，了解市场趋势和机遇显得尤为重要。本文将从四个方面探讨2020年广告活动的趋势和机遇。

一、视频广告成为主流

随着短视频平台的兴起，视频广告已经成为企业营销的主流形式。短视频的时效性、趣味性和参与性都很高，可以吸引更多的用户观看和分享。尤其是在移动互联网时代，视频广告更是具有很强的传播力和互动性。除了在短视频平台上投放广告，企业还可以将视频广告嵌入社交媒体和网站中，提高曝光率和流量。值得注意的是，视频广告的创意和质量至关重要，只有通过精心策划和制作，才能赢得用户的喜爱和信任。

二、人工智能技术应用

人工智能技术已经在广告活动中得到广泛应用，它可以帮助企业更好地了解用户的兴趣和需求，精准推送广告。例如，企业可以通过AI算法分析用户的浏览历史、搜索记录和社交媒体行为，为他们提供更加个性化的广告。此外，人工智能技术还可以实现智能投放、智能优化和智能监测等功能，提高广告活动的效率和效果。虽然目前人工智能技术在广告领域的应用还有待完善，但它的潜力和发展前景无疑是非常广阔的。

三、短视频直播营销

短视频直播已成为企业推广产品和服务的新手段。通过短视频直播，企业可以实现线上互动和实时传播，吸引更多用户关注和参与。例如，企业可以在直播中展示产品的特点和使用方法，与用户互动并回答他们的问题。除了提高品牌知名度和用户黏性外，短视频直播还可以带来一定的销售收益。例如，一些美妆品牌和服装品牌在短视频直播中进行促销活动，吸引用户购买。但需要注意的是，短视频直播需要有足够的内容和创意才能吸引用户的观看和参与。

四、社交电商成为新趋势

社交电商是指在社交媒体平台上进行商品销售和推广的新模式。通过社交电商，用户可以在社交媒体上了解商品的信息和口碑，进行购买和分享。对于企业来说，社交电商可以拓展销售渠道，提高商品的曝光率和销售量。例如，一些网红主播通过社交电商平台销售自己代言的商品，受到了很多用户的追捧。但需要注意的是，社交电商需要保证商品的质量和服务质量，避免给用户带来负面影响。

总结归纳

随着新媒体和技术的不断发展，广告活动的形式和方式在不断变化。本文从视频广告、人工智能技术、短视频直播和社交电商四个方面探讨了2020年广告活动的趋势和机遇。视频广告成为营销主流形式，人工智能技术帮助企业更好地了解用户需求，短视频直播实现了线上互动和实时传播，社交电商成为新的商品销售和推广模式，这些趋势都为广告活动带来了机遇和挑战。企业需要根据市场、用户和产品特点，制定符合自身特点的广告策略，才能在市场竞争中获得更好的效果和收益。

问答话题

1. 什么是社交电商？它的优势和不足是什么？社交电商是指在社交媒体平台上进行商品销售和推广的新模式。它的优势在于可以拓展销售渠道、提高商品曝光率和销售量，同时也可以通过口碑和分享带动消费。不足之处在于需要保证商品的质量和服务质量，避免给用户带来负面影响。此外，社交电商也存在着一定的风险，例如信息不对称、售后难题等问题。2. 企业如何在短视频直播中提高营销效果？企业可以在短视频直播中展示产品的特点和使用方法，与用户互动并回答他们的问题。同时，企业也可以通过短视频直播进行促销活动，吸引用户购买。此外，企业还可以邀请网红或专业人士参与短视频直播，提高曝光率和用户关注度。但需要注意的是，短视频直播需要有足够的内容和创意才能吸引用户的观看和参与。3. 人工智能技术在广告活动中有哪些应用？人工智能技术可以帮助企业更好地了解用户的兴趣和需求，精准推送广告。例如，企业可以通过AI算法分析用户的浏览历史、搜索记录和社交媒体行为，为他们提供更加个性化的广告。此外，人工智能技术还可以实现智能投放、智能优化和智能监测等功能，提高广告活动的效率和效果。但需要注意的是，人工智能技术的应用需要遵守相关法律法规，确保用户的信息和隐私安全。

2020广告活动分析：洞悉趋势与机遇随机日志

体现自我个性化DIY制作方法,大容量存放照片制作主题影集，便于欣赏保存,采用大型高清晰度数码印刷机，颜色饱满不失，一本起印

1、“兼容模式”下，60极速浏览器调用Trident内核（IE内核），Trident内核具有网页兼容性好、页面适用性广的特征，对于部分在默认“极速模式”下出现问题的网页（如：使用了Activex控件、页面代码只支持Trident内核、网页中注明使用IE浏览器）的情况下，切换“兼容模式”就可以正常使用网站功能。

2、【新增】支持设置文件列表页面文件名显示最大行数，需要到设置页面设置，默认最大显示行

3、【短视频】优质短视频区，高颜值聚集地，喜欢的右下角一键开启视频！

4、在六代机上，希沃品课支持一碰传屏，在支持NFC的手机上，贴上六代机NFC模块，就能开启传屏加入分组教学，学生端支持分组答题

5、您只需将链接拖放到IDM，然后将下载的文件拖放到InternetDownloadManager即可。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>讓(rang)大(da)模(mo)型(xing)的(de)訓(xun)練(lian)和(he)推(tui)理(li)，比(bi)更(geng)快(kuai)還(hai)更快！谷(gu)歌(ge)2022年(nian)終(zhong)總(zong)結(jie)第(di)四(si)彈(dan)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：LRS

【新智元導(dao)讀(du)】性(xing)能(neng)不(bu)再(zai)是(shi)瓶(ping)頸(jing)，模型運(yun)行(xing)效(xiao)率(lv)是問(wen)題(ti)的關(guan)鍵(jian)！

雖(sui)然(ran)谷歌的Bard翻(fan)車(che)了(le)，但(dan)谷歌的AI實(shi)力(li)仍(reng)然不容(rong)小(xiao)覷(qu)。

自(zi)開(kai)年以(yi)來(lai)，由(you)Jeff Dean領(ling)銜(xian)的Google Research年终总结系(xi)列(lie)「Google Research, 2022 & beyond」壹(yi)直(zhi)在(zai)持(chi)續(xu)更新，最(zui)近(jin)也(ye)是更新到(dao)了第四期(qi)。

本(ben)期以「提(ti)升(sheng)模型效率」為(wei)主(zhu)题，一起(qi)看(kan)看谷歌工(gong)程(cheng)師(shi)們(men) 都(dou)想(xiang)出(chu)了哪(na)些(xie)ideas！

1. 超(chao)詳(xiang)超硬(ying)Jeff Dean萬(wan)字(zi)总结火(huo)熱(re)出爐(lu)！圖(tu)解(jie)谷歌2022年AIGC、LLM、CV三(san)大领域(yu)成(cheng)就(jiu)

2. 谷歌2022年度(du)回(hui)顧(gu)：让AI更負(fu)責(ze)任(ren)，主要(yao)做(zuo)了4點(dian)微(wei)小的工作(zuo)

3. Jeff Dean發(fa)推：谷歌超硬年终总结「第三弹」来了！大力发展(zhan)Jax

运行效率成关键

在過(guo)去(qu)十(shi)年裏(li)，深(shen)度學(xue)習(xi)呈(cheng)現(xian)爆(bao)炸(zha)式(shi)发展，很(hen)大程度上(shang)是由於(yu)新算(suan)法(fa)和體(ti)系结構(gou)的融(rong)合(he)、數(shu)據(ju)量(liang)的顯(xian)著(zhu)增(zeng)加(jia)以及(ji)計(ji)算能力的提高(gao)。

相(xiang)比十年前(qian)，人(ren)工智能和機(ji)器(qi)学习模型變(bian)得(de)更加巨(ju)大、更復(fu)雜(za)，具(ju)有(you)更深且(qie)更复杂的網(wang)絡(luo)结构、更多(duo)的參(can)数、训练時(shi)用(yong)到了更多的数据，共(gong)同(tong)促(cu)進(jin)了机器学习歷(li)史(shi)上一些最具变革(ge)性的成果(guo)。

隨(sui)著(zhe)這(zhe)些模型越(yue)来越多地(di)部(bu)署(shu)在生(sheng)產(chan)和業(ye)務(wu)應(ying)用程序(xu)中(zhong)，模型的推理效率和运行成本已(yi)經(jing)從(cong)一個(ge)次(ci)要因(yin)素(su)变成了一个主要的限(xian)制(zhi)因素。

Google在这方(fang)面(mian)的应對(dui)措(cuo)施(shi)就是繼(ji)续在机器学习效率方面投(tou)入(ru)巨資(zi)，主要解決(jue)以下(xia)四个難(nan)题：

1、高效的模型架(jia)构（Efficient Architecture）

2、数据效率（Data Efficiency）

3、训练效率（Training Efficiency）

4、推理效率（Inference Efficiency）

除(chu)了效率之(zhi)外(wai)，模型还面臨(lin)着圍(wei)繞(rao)真(zhen)实性、安(an)全(quan)性、隱(yin)私(si)性和时效性（freshness）等(deng)諸(zhu)多难题。

这篇(pian)文(wen)章(zhang)將(jiang)重(zhong)点介(jie)紹(shao)一系列Google Research研(yan)究(jiu)公(gong)司(si)为应对上述(shu)挑(tiao)戰(zhan)而(er)开发的新算法。

高效的模型架构

一个最基(ji)本的问题是：是否(fou)有更好(hao)的方法来参数化(hua)模型以提高效率？

2022年，Google Research專(zhuan)註(zhu)于新技(ji)術(shu)，通(tong)过檢(jian)索(suo)上下文增強(qiang)模型，混(hun)合专家(jia)，使(shi)变壓(ya)器(位(wei)于大多数大型机器学习模型的核(he)心(xin))更有效，从而注入外部知(zhi)識(shi)。

上下文增强模型（Context-augmented models）

为了追(zhui)求(qiu)更高的質(zhi)量和效率，神(shen)经模型可(ke)以从大型数据庫(ku)或(huo)可训练的記(ji)憶(yi)库中的外部context中得到增强。

通过利(li)用检索到的上下文，神经网络不需(xu)要在其(qi)內(nei)部参数中记忆大量的世(shi)界(jie)知识，就能夠(gou)獲(huo)得更好的参数效率、可解釋(shi)性和真实性。

在「上下文增强語(yu)言(yan)建(jian)模的解耦(ou)上下文處(chu)理」一文中，研究人員(yuan)探(tan)索了一種(zhong)基于解耦编解碼(ma)器架构将外部上下文合並(bing)到语言模型中的簡(jian)單(dan)架构。

論(lun)文鏈(lian)接(jie)：https://arxiv.org/abs/2210.05758

該(gai)模型能够显著地節(jie)省(sheng)计算量，同时在自回歸(gui)语言建模和开放(fang)领域问题回答(da)任务方面給(gei)出了有競(jing)爭(zheng)力的结果。

預(yu)训练的大语言模型(LLM)通过对大训练集(ji)的自監(jian)督(du)消(xiao)耗(hao)了大量的信(xin)息(xi)，但目(mu)前还不清(qing)楚(chu)这些模型的「世界知识」是如(ru)何(he)與(yu)輸(shu)入的context相互(hu)作用的。

通过知识感(gan)知微調(tiao)(knowledge aware fine-tuning, KAFT) ，研究人员将反(fan)事(shi)实上下文和無(wu)关上下文结合到標(biao)準(zhun)的监督数据集中，增强了 LLM 的可控(kong)性和魯(lu)棒(bang)性。

探索模塊(kuai)化深度网络的问题之一是如何設(she)计具有相应计算模块的概(gai)念(nian)数据库，研究人员提出了一个理论架构，将「记忆事件(jian)」（remember events）以草(cao)图（sketches）的形(xing)式存(cun)儲(chu)在一个外部 LSH 表(biao)中，其中包(bao)括(kuo)一个pointers模块来处理草图。

上下文增强模型的另(ling)一个难题是从大型数据库中快速(su)检索信息的加速器。

研究人员开发了一个基于 TPU 的最近鄰(lin)搜(sou)索算法，该算法与 TPU 的性能模型保(bao)持一致(zhi)，并为预期召(zhao)回提供(gong)分(fen)析(xi)保證(zheng)，从而達(da)到最佳(jia)性能。

搜索算法通常(chang)涉(she)及大量的超参数和设计選(xuan)擇(ze)，这使得它(ta)们很难在新任务上进行優(you)化，所(suo)以研究人员进一步(bu)提出了一种新的約(yue)束(shu)优化算法来自動(dong)调整(zheng)超参数，将期望(wang)的成本或召回作为输入，该算法产生的调整在经驗(yan)上非(fei)常接近速度召回的Pareto frontier，并在标准基准上给出领先(xian)的性能。

混合专家模型

混合专家(MoE, Mixture-of-experts)模型已被(bei)证明(ming)是增加神经网络模型容量而不會(hui)过度增加其计算成本的有效手(shou)段(duan)。MoEs 的基本思(si)想是从多个专家子(zi)网络中构建一个网络，其中每(mei)个输入由一个合適(shi)的专家子网络处理。

因此(ci)，与标准的神经网络相比，MoEs 只(zhi)调用整个模型的一小部分，从而提高了语言模型应用程序(如 GLaM)的效率。

决定(ding)哪些专家应该被激(ji)活(huo)（be active）以参与到某(mou)一特(te)定输入取(qu)决于路(lu)由功(gong)能（routing function），路由的设计非常具有挑战性，因为开发者(zhe)的预期是每个专家模型都是恰(qia)如其分的，不会出现利用不足(zu)和过度的情(qing)況(kuang)。

在最近的一項(xiang)工作中，研究人员提出了专家选择路由(Expert Choice Routing) ，一种新的路由机制，它不是将每个输入token分配(pei)给 top-k 专家，而是反过来将每个专家分配给 top-k token，可以自动调节专家的负載(zai)平(ping)衡(heng)，同时自然地允(yun)許(xu)多个专家处理输入token

论文链接：https://openreview.net/pdf?id=jdJo1HIVinI

高效的Transformers

Transformer是當(dang)下最流(liu)行的序列到序列的模型，从視(shi)覺(jiao)到自然语言的理解，在一系列具有挑战性的任务中已经展现了非常强大的性能。

这類(lei)模型的一个核心組(zu)成部分是注意(yi)力層(ceng)（attention layer），通过计算「查(zha)詢(xun)」（query）和「键」（key）之間(jian)的相似(si)度来构建一个适当的「值(zhi)」（value）加權(quan)组合。虽然性能强，但注意力机制的计算效率卻(que)不高，复杂度通常为输入序列長(chang)度的二(er)次方。

随着Transformer規(gui)模的不斷(duan)擴(kuo)大，其中一个重要问题的研究十分有價(jia)值：是否有任何自然发生的结构或模式的学习模型，可以破(po)解注意力有效的原(yuan)理。

对此，Google Research研究了中间 MLP 层的学习嵌(qian)入，发现它们非常稀(xi)疏(shu)，比如，T5-大模型只有 < 1% 的非零(ling)项，其稀疏性进一步表明，可以在不影(ying)響(xiang)模型性能的情况下降(jiang)低(di)FLOP

论文链接：https://arxiv.org/pdf/2210.06313.pdf

研究人员最近提出了 Treeformer模型，一种依(yi)賴(lai)于决策(ce)樹(shu)的标准注意力计算的替(ti)代(dai)方案(an)，直觀(guan)地說(shuo)，它可以快速识別(bie)与查询相关的一小部分键，并且只在这个集合上執(zhi)行注意力操(cao)作。根(gen)据经验，Treeformer 可以使注意力层的 FLOP 減(jian)少(shao)30倍(bei)。

同时研究人员还引(yin)入了序貫(guan)注意（ sequential attention），一种将注意和貪(tan)婪(lan)算法相结合的可微特征(zheng)选择方法，该技术经过证明，可以直接无縫(feng)遷(qian)移(yi)到大规模模型。

另一种提升Transformer效率的方法是在注意层加速softmax的计算。

在low-rank approximation of the softmax kernel研究基礎(chu)上，研究人员提出了一类新的随机特征，提供了softmax kernel的首(shou)个「positive and bounded」随机特征近似，并且在序列长度上是计算線(xian)性的。

论文链接：https://arxiv.org/abs/2205.15317

并且还提出了首个涵(han)蓋(gai)多个注意力masking的机制，如因果编码和相对位置(zhi)编码。

训练效率

有效的优化方法是现代机器学习应用的基石(shi)，在大规模環(huan)境(jing)中尤(you)为重要。

在这种情况下，即(ji)使是像(xiang)Adam这樣(yang)的一階(jie)自适应方法也往(wang)往需要大量的计算量，而且训练的穩(wen)定性也会变得非常困(kun)难。

此外，这些方法往往与神经网络的体系结构无关，沒(mei)有考(kao)慮(lv)模型架构内的结构信息，导致训练效率低下，这也促使新技术能够更有效地优化现代神经网络模型。

Google Research开发了一些新的基于模型架构的训练技术，例(li)如，用于训练Transofmre网络，包括新的规模不变的Transofmre网络和新的clipping方法，当与原版(ban)随机梯(ti)度下降(SGD)结合时，可以加快训练速度。

论文链接：https://arxiv.org/pdf/2202.00980.pdf

使用这种方法，研究人员首次实现了僅(jin)使用简单的 SGD 就能有效地训练 BERT，而无需自适应（adaptivity）。

此外，研究人员提出了一种新的方法LocoProp，在使用与一阶优化器相同的计算和内存资源(yuan)的情况下，获得类似于二阶优化器的性能。

LocoProp 通过将神经网络分解为一个层的组合，从而获得了神经网络的模块化视图。然後(hou)允许每一层都有自己(ji)的損(sun)失(shi)函(han)数以及输出目标和重量调整器。通过这种设置，经过适当的向(xiang)前向后梯度傳(chuan)遞(di)后，LocoProp 继续对每个层的「局(ju)部损失」执行并行更新。

论文链接：https://proceedings.mlr.press/v151/amid22a.html

事实上，这些更新在理论上和经验上都类似于高阶优化器，在深度自编码器基准測(ce)試(shi)中，LocoProp 获得了与高阶优化器相当的性能，同时速度明显更快。

像 SGD 这样的优化器的一个关键假(jia)设是，每个数据点都是从一个分布(bu)中獨(du)立(li)和完(wan)全相同地采(cai)样的，不过在强化学习等实際(ji)应用环境中，很难滿(man)足该假设，因为模型(或智能体)必(bi)須(xu)从根据自己的预测生成的数据中学习。

研究人员提出了一种新的算法方法，稱(cheng)为帶(dai)有反向经验重放的 SGD，可以在线性动力系統(tong)（linear dynamical system）、非线性动力系统和强化学习的 Q 学习等幾(ji)种情况下找(zhao)到最优解。

论文链接：https://arxiv.org/abs/2103.05896

此外，这种方法的一个改(gai)进版本IER ，经过实验被证明是最先进的，并且是各(ge)种流行的 RL 基准测试上最稳定的经验重播(bo)技术。

数据效率

深度神经网络嚴(yan)重依赖于大型数据集，随之而来的还有存储成本和潛(qian)在的安全/隐私问题，在这些数据集上训练现代深度神经网络也会带来很高的计算成本。

解决这个问题的一个有前景(jing)的方法是数据子集选择，其中学习器的目标是从大量的训练样本中找到信息量最大的子集，以接近(甚(shen)至(zhi)改进)整个训练集的训练。

研究人员分析了一个子集选择框(kuang)架设计工作与任意模型族(zu)在一个实际的batch设置，在这种设置下，学习器可以一次采样一个样本，訪(fang)问上下文和真实标簽(qian)，但为了限制开銷(xiao)，一旦(dan)选择了足够大的一批(pi)样本，只能更新其狀(zhuang)態(tai)，即，进一步训练模型权重。

并基于此开发了一种称为 IWeS 的算法，该算法通过重要抽(chou)样来选择样本，其中分配给每个样本的抽样概率是基于对先前选定的批次训练的模型的熵(shang)。文中提供了一个理论分析，证明了泛(fan)化和抽样率的界限。

论文链接：https://arxiv.org/pdf/2301.12052.pdf

训练大型网络的另一个问题是，它们可能对部署时看到的训练数据和数据之间的分布变化高度敏(min)感，特别是在处理数量有限的训练数据时，这些数据可能不包括所有的部署时间情景。

最近的一项研究假设「極(ji)端(duan)简单性偏(pian)差(cha)」是神经网络这种脆(cui)弱(ruo)性背(bei)后的关键问题，其最新工作使这一假设成为可行，导致了兩(liang)种新的互補(bu)方法DAFT 和 FRR ，结合起来提供了显著更强大的神经网络。特别是，这两种方法使用对抗(kang)微调以及逆(ni)特征预测，提升了学习网络的健(jian)壯(zhuang)性。

论文链接：https://arxiv.org/pdf/2006.07710.pdf

推理效率

增加神经网络的规模已被证明在提高其预测准確(que)性方面有驚(jing)人的效果，然而，在现实世界中利用这些优勢(shi)是具有挑战性的，因为大型模型的推理成本可能过高了，该问题也促使策略(lve)提高服(fu)务效率，而不犧(xi)牲(sheng)准确性。

研究人员提出了实现该目标的不同策略，特别是基于知识蒸(zheng)餾(liu)和自适应计算的策略。

蒸馏

蒸馏是一种简单而有效的模型压縮(suo)方法，极大地扩展了大型神经模型的潜在适用性，并且在廣(guang)告(gao)推薦(jian)等一系列实际应用中被证明是非常有效的。

大多数蒸馏的用例都涉及到将基本模型直接应用到给定的领域，对于何时以及为什(shen)麽(me)应该这样做只有有限的理解。Google的研究着眼(yan)于根据特定的环境对蒸馏进行裁(cai)剪(jian)，并系统性地研究了决定蒸馏成功的因素。

在算法方面，通过仔(zai)細(xi)建模教(jiao)师模型提供的标签中的噪(zao)聲(sheng)，研究人员开发了一个原則(ze)性的方法来重新加权的训练例子，和一个稳健的方法来抽样的数据子集有教师标签。

论文链接：https://arxiv.org/abs/2210.06711

在「教师指(zhi)导训练」的过程中，研究人员提出了一个新的蒸馏框架: 不是被动地使用教师来标注一个固(gu)定的数据集，而是主动地使用教师来指导信息样本的选择来进行标注，这使得蒸馏过程在有限的数据或长尾(wei)设置中更有效。

论文链接：https://arxiv.org/abs/2208.06825

同时还研究了从交(jiao)叉(cha)编码器(dual-encoder, 例如 BERT)到因子雙(shuang)编码器（dual-encoder）的新方法，这也是对（query, document）对的相关性进行評(ping)分的重要设置。

论文链接：https://proceedings.mlr.press/v162/menon22a/menon22a.pdf

文中研究了交叉编码器和双重编码器之间性能差距(ju)的原因，指出这可能是泛化的结果，而非双编码器的容量限制。

精(jing)心构造(zao)的蒸馏损耗函数可以緩(huan)解这种情况，缩小交叉编码器和双编码器之间的性能差距。

随后，在 EmbedDistil进一步研究了通过匹(pi)配来自教师模型的嵌入来进一步改进双编码器精馏。该策略还可用于从大到小的双编码器模型中提取信息，继承(cheng)和凍(dong)结教师的文檔(dang)嵌入被证明是非常有效的。

论文链接：https://arxiv.org/abs/2301.12005

在理论方面提供了一个新的视角(jiao)，通过监督复杂性的蒸馏，衡量学生如何能够预测教师的标签。

论文链接：https://arxiv.org/abs/2301.12245

利用神经正(zheng)切(qie)核(NTK)理论得出了一些概念性的结论，比如，能力差距可能会影响蒸馏，因为这样的教师的标签可能出现类似于純(chun)粹(cui)的随机标签的学生。

论文链接：https://arxiv.org/abs/2301.12923

同时进一步证明，蒸馏导致学生欠(qian)擬(ni)合的点也是对于教师模型比較(jiao)难的问题，从直觉上講(jiang)，这可能有助(zhu)于学生将其有限的能力集中在那(na)些可以合理建模的样本上。

自适应计算

虽然蒸馏是降低推理成本的有效方法，但它在所有样本中的作用是一致的（uniformly），直观地说，一些「简单」的样本可能本质上需要比相对更「难」样本更少的计算。

自适应计算的目标是设计能够进行这种依赖于样本的计算的机制。

Confident Adaptive Language Modeling(CALM)为 T5等基于Transformer的文本生成器引入了受(shou)控的早(zao)期退(tui)出功能。

论文链接：https://arxiv.org/abs/2207.07061

在这种形式的自适应计算中，模型动态修(xiu)改每个解码步驟(zhou)使用的Transformer层数，其中early-exit gate使用带有决策閾(yu)值的置信度量，该置信度量经过校(xiao)准以满足统计性能保证。

这样，模型只需要为最具挑战性的预测计算完整的解码器层堆(dui)棧(zhan)，更简单的预测只需要计算几个解码器层。在实踐(jian)中，该模型平均(jun)使用约三分之一的层进行预测，在保持同等水(shui)平的生成质量的同时，产生2-3倍的加速。

一个常用的自适应计算机制包括两个或多个基本模型的級(ji)聯(lian)，其关键问题是决定是简单地使用当前模型的预测，还是将预测推遲(chi)到下遊(you)模型，学习何时推迟需要设计一个合适的损失函数，它可以利用适当的信號(hao)作为推迟决策的监督。

Google Research系统性地研究了现有的损失函数，证明由于标签平滑(hua)的隐式应用，它们可能不适合训练样本，文中还展示(shi)了可以通过延(yan)迟规则的事后训练来缓解这种情况，这种训练不需要以任何方式修改模型内部。

论文链接：https://openreview.net/pdf?id=_jg6Sf6tuF7

对于检索应用程序，标准的语義(yi)搜索技术对大型模型生成的每个嵌入使用固定的表示，也就是说，不管(guan)下游任务及其相关的计算环境或约束，表示的大小和能力大多是固定的。

Matryoshka 表示学习引入了根据部署环境调整表示的靈(ling)活性，强制表示在它的坐(zuo)标中有一个自然的排(pai)序，这样对于资源受限的环境，只使用表示的最高的几个坐标；而对于更豐(feng)富(fu)和精度关键的设置，可以使用表示的更多坐标。

论文链接：https://openreview.net/pdf?id=9njZa1fm35

当结合标准近似最近邻搜索技术，如掃(sao)描(miao)神经网络，MRL 能够提供多达16倍的低计算相同的召回率和准确度量。

总结

大型机器学习模型在多个领域都展现出具有变革性的结果，但训练和推理的效率正在成为使这些模型在现实世界中切实可行的关键需求。

通过开发新的基础技术，Google Research已经在使大型机器学习模型高效方面进行了大量投资，这也需要持续性的努(nu)力，未(wei)来将继续探索核心挑战，使机器学习模型更加健壮和高效。

参考资料(liao)：

https://ai.googleblog.com/2023/02/google-research-2022-beyond-algorithms.html返(fan)回搜狐(hu)，查看更多

责任编辑：