天鹅的美丽，鹅的可爱——赞美鹅的广告语

概述：天鹅作为一种美丽的动物，一直被人们所喜爱。它们的白色羽毛、长脖子、优美的姿态，给人们留下了深刻的印象。此外，鹅也是一种非常可爱、温顺的动物，很容易赢得人们的好感。在这篇长篇博客中，我们将围绕天鹅的美丽、鹅的可爱，为大家带来一些赞美鹅的广告语。第一段

鹅的美丽

天鹅是一种非常美丽的水鸟，它们拥有细长的脖子、优美的姿态，白色的羽毛闪闪发光。在太阳的照射下，天鹅的羽毛会呈现出五颜六色的光彩，令人赞叹不已。而且，天鹅还是一种非常优雅的动物，它们在水中的动作非常流畅，给人们带来了视觉上的享受。对于那些喜欢摄影的人来说，天鹅更是一个非常好的拍摄对象，它们的每一个动作都可以被记录下来，成为一张美丽的照片。第二段

鹅的可爱

鹅是一种非常可爱的动物，它们的脸上总是挂着温和的笑容，让人们不由自主地喜欢上它们。而且，鹅还是一种非常温顺的动物，不会攻击人类，很容易赢得人们的信任。在很多地方，鹅被用来作为宠物，陪伴人们度过美好的时光。一些更为神奇的地方，鹅还被用来作为治疗动物，帮助一些患有心理疾病的人们恢复健康。可以说，鹅是一种充满爱心和温暖的动物。第三段

赞美鹅的广告语

1. 天鹅的美丽，让你感受自然之美。2. 鹅的可爱，伴你度过温馨时光。3. 爱上鹅，就是爱上温暖与爱的力量。4. 鹅的温顺，让你感受到真正的友谊。. 走进鹅的世界，感受动物的感情与真诚。6. 爱鹅，爱生命，珍惜这个美丽的世界。结论：总之，天鹅的美丽和鹅的可爱，都让人们深深地喜欢上它们。赞美鹅的广告语也充分展现了这一点。我们应该珍惜自然，保护动物，让这个世界变得更加美好。

天鹅的美丽，鹅的可爱——赞美鹅的广告语特色

1、海岛捕鱼九游版免费下载

2、【帮派对战威震诸族】修仙路途危机四伏跨服竞技展现你的绝世凶威。

3、工会就等你来建立啦!每一段时间都会开启公会争霸，战斗也可以畅快无比，获胜还有不少福利哦。

4、模仿制造键盘的玩法十分的有趣，你也能够来试一试制造键盘;

5、升职也有福利，让你更容易赚，而且福利稳定。

天鹅的美丽，鹅的可爱——赞美鹅的广告语亮点

1、城战国战跨服战，兄弟集结战不停。

2、多样玩法，趣味十足;

3、木筏生存单机版手机下载

4、在多个桌面下工作娱乐。

5、更新快，实时更新最新章节;无需安装，随时想看就看;

haidaobuyujiuyoubanmianfeixiazai【bangpaiduizhanweizhenzhuzu】xiuxianlutuweijisifukuafujingjizhanxiannidejueshixiongwei。gonghuijiudengnilaijianlila!meiyiduanshijiandouhuikaiqigonghuizhengba，zhandouyekeyichangkuaiwubi，huoshenghaiyoubushaofulio。mofangzhizaojianpandewanfashifendeyouqu，niyenenggoulaishiyishizhizaojianpan;shengzhiyeyoufuli，rangnigengrongyizhuan，erqiefuliwending。讓(rang)大(da)模(mo)型(xing)的(de)訓(xun)練(lian)和(he)推(tui)理(li)，比(bi)更(geng)快(kuai)還(hai)更快！谷(gu)歌(ge)2022年(nian)終(zhong)總(zong)結(jie)第(di)四(si)彈(dan)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：LRS

【新智元導(dao)讀(du)】性(xing)能(neng)不(bu)再(zai)是(shi)瓶(ping)頸(jing)，模型運(yun)行(xing)效(xiao)率(lv)是問(wen)題(ti)的關(guan)鍵(jian)！

雖(sui)然(ran)谷歌的Bard翻(fan)車(che)了(le)，但(dan)谷歌的AI實(shi)力(li)仍(reng)然不容(rong)小(xiao)覷(qu)。

自(zi)開(kai)年以(yi)來(lai)，由(you)Jeff Dean領(ling)銜(xian)的Google Research年终总结系(xi)列(lie)「Google Research, 2022 & beyond」壹(yi)直(zhi)在(zai)持(chi)續(xu)更新，最(zui)近(jin)也(ye)是更新到(dao)了第四期(qi)。

本(ben)期以「提(ti)升(sheng)模型效率」為(wei)主(zhu)题，一起(qi)看(kan)看谷歌工(gong)程(cheng)師(shi)們(men) 都(dou)想(xiang)出(chu)了哪(na)些(xie)ideas！

1. 超(chao)詳(xiang)超硬(ying)Jeff Dean萬(wan)字(zi)总结火(huo)熱(re)出爐(lu)！圖(tu)解(jie)谷歌2022年AIGC、LLM、CV三(san)大领域(yu)成(cheng)就(jiu)

2. 谷歌2022年度(du)回(hui)顧(gu)：让AI更負(fu)責(ze)任(ren)，主要(yao)做(zuo)了4點(dian)微(wei)小的工作(zuo)

3. Jeff Dean發(fa)推：谷歌超硬年终总结「第三弹」来了！大力发展(zhan)Jax

运行效率成关键

在過(guo)去(qu)十(shi)年裏(li)，深(shen)度學(xue)習(xi)呈(cheng)現(xian)爆(bao)炸(zha)式(shi)发展，很(hen)大程度上(shang)是由於(yu)新算(suan)法(fa)和體(ti)系结構(gou)的融(rong)合(he)、數(shu)據(ju)量(liang)的顯(xian)著(zhu)增(zeng)加(jia)以及(ji)計(ji)算能力的提高(gao)。

相(xiang)比十年前(qian)，人(ren)工智能和機(ji)器(qi)学习模型變(bian)得(de)更加巨(ju)大、更復(fu)雜(za)，具(ju)有(you)更深且(qie)更复杂的網(wang)絡(luo)结构、更多(duo)的參(can)数、训练時(shi)用(yong)到了更多的数据，共(gong)同(tong)促(cu)進(jin)了机器学习歷(li)史(shi)上一些最具变革(ge)性的成果(guo)。

隨(sui)著(zhe)這(zhe)些模型越(yue)来越多地(di)部(bu)署(shu)在生(sheng)產(chan)和業(ye)務(wu)應(ying)用程序(xu)中(zhong)，模型的推理效率和运行成本已(yi)經(jing)從(cong)一個(ge)次(ci)要因(yin)素(su)变成了一个主要的限(xian)制(zhi)因素。

Google在这方(fang)面(mian)的应對(dui)措(cuo)施(shi)就是繼(ji)续在机器学习效率方面投(tou)入(ru)巨資(zi)，主要解決(jue)以下(xia)四个難(nan)题：

1、高效的模型架(jia)构（Efficient Architecture）

2、数据效率（Data Efficiency）

3、训练效率（Training Efficiency）

4、推理效率（Inference Efficiency）

除(chu)了效率之(zhi)外(wai)，模型还面臨(lin)着圍(wei)繞(rao)真(zhen)实性、安(an)全(quan)性、隱(yin)私(si)性和时效性（freshness）等(deng)諸(zhu)多难题。

这篇(pian)文(wen)章(zhang)將(jiang)重(zhong)点介(jie)紹(shao)一系列Google Research研(yan)究(jiu)公(gong)司(si)为应对上述(shu)挑(tiao)戰(zhan)而(er)开发的新算法。

高效的模型架构

一个最基(ji)本的问题是：是否(fou)有更好(hao)的方法来参数化(hua)模型以提高效率？

2022年，Google Research專(zhuan)註(zhu)于新技(ji)術(shu)，通(tong)过檢(jian)索(suo)上下文增強(qiang)模型，混(hun)合专家(jia)，使(shi)变壓(ya)器(位(wei)于大多数大型机器学习模型的核(he)心(xin))更有效，从而注入外部知(zhi)識(shi)。

上下文增强模型（Context-augmented models）

为了追(zhui)求(qiu)更高的質(zhi)量和效率，神(shen)经模型可(ke)以从大型数据庫(ku)或(huo)可训练的記(ji)憶(yi)库中的外部context中得到增强。

通过利(li)用检索到的上下文，神经网络不需(xu)要在其(qi)內(nei)部参数中记忆大量的世(shi)界(jie)知识，就能夠(gou)獲(huo)得更好的参数效率、可解釋(shi)性和真实性。

在「上下文增强語(yu)言(yan)建(jian)模的解耦(ou)上下文處(chu)理」一文中，研究人員(yuan)探(tan)索了一種(zhong)基于解耦编解碼(ma)器架构将外部上下文合並(bing)到语言模型中的簡(jian)單(dan)架构。

論(lun)文鏈(lian)接(jie)：https://arxiv.org/abs/2210.05758

該(gai)模型能够显著地節(jie)省(sheng)计算量，同时在自回歸(gui)语言建模和开放(fang)领域问题回答(da)任务方面給(gei)出了有競(jing)爭(zheng)力的结果。

預(yu)训练的大语言模型(LLM)通过对大训练集(ji)的自監(jian)督(du)消(xiao)耗(hao)了大量的信(xin)息(xi)，但目(mu)前还不清(qing)楚(chu)这些模型的「世界知识」是如(ru)何(he)與(yu)輸(shu)入的context相互(hu)作用的。

通过知识感(gan)知微調(tiao)(knowledge aware fine-tuning, KAFT) ，研究人员将反(fan)事(shi)实上下文和無(wu)关上下文结合到標(biao)準(zhun)的监督数据集中，增强了 LLM 的可控(kong)性和魯(lu)棒(bang)性。

探索模塊(kuai)化深度网络的问题之一是如何設(she)计具有相应计算模块的概(gai)念(nian)数据库，研究人员提出了一个理论架构，将「记忆事件(jian)」（remember events）以草(cao)图（sketches）的形(xing)式存(cun)儲(chu)在一个外部 LSH 表(biao)中，其中包(bao)括(kuo)一个pointers模块来处理草图。

上下文增强模型的另(ling)一个难题是从大型数据库中快速(su)检索信息的加速器。

研究人员开发了一个基于 TPU 的最近鄰(lin)搜(sou)索算法，该算法与 TPU 的性能模型保(bao)持一致(zhi)，并为预期召(zhao)回提供(gong)分(fen)析(xi)保證(zheng)，从而達(da)到最佳(jia)性能。

搜索算法通常(chang)涉(she)及大量的超参数和设计選(xuan)擇(ze)，这使得它(ta)们很难在新任务上进行優(you)化，所(suo)以研究人员进一步(bu)提出了一种新的約(yue)束(shu)优化算法来自動(dong)调整(zheng)超参数，将期望(wang)的成本或召回作为输入，该算法产生的调整在经驗(yan)上非(fei)常接近速度召回的Pareto frontier，并在标准基准上给出领先(xian)的性能。

混合专家模型

混合专家(MoE, Mixture-of-experts)模型已被(bei)证明(ming)是增加神经网络模型容量而不會(hui)过度增加其计算成本的有效手(shou)段(duan)。MoEs 的基本思(si)想是从多个专家子(zi)网络中构建一个网络，其中每(mei)个输入由一个合適(shi)的专家子网络处理。

因此(ci)，与标准的神经网络相比，MoEs 只(zhi)调用整个模型的一小部分，从而提高了语言模型应用程序(如 GLaM)的效率。

决定(ding)哪些专家应该被激(ji)活(huo)（be active）以参与到某(mou)一特(te)定输入取(qu)决于路(lu)由功(gong)能（routing function），路由的设计非常具有挑战性，因为开发者(zhe)的预期是每个专家模型都是恰(qia)如其分的，不会出现利用不足(zu)和过度的情(qing)況(kuang)。

在最近的一項(xiang)工作中，研究人员提出了专家选择路由(Expert Choice Routing) ，一种新的路由机制，它不是将每个输入token分配(pei)给 top-k 专家，而是反过来将每个专家分配给 top-k token，可以自动调节专家的负載(zai)平(ping)衡(heng)，同时自然地允(yun)許(xu)多个专家处理输入token

论文链接：https://openreview.net/pdf?id=jdJo1HIVinI

高效的Transformers

Transformer是當(dang)下最流(liu)行的序列到序列的模型，从視(shi)覺(jiao)到自然语言的理解，在一系列具有挑战性的任务中已经展现了非常强大的性能。

这類(lei)模型的一个核心組(zu)成部分是注意(yi)力層(ceng)（attention layer），通过计算「查(zha)詢(xun)」（query）和「键」（key）之間(jian)的相似(si)度来构建一个适当的「值(zhi)」（value）加權(quan)组合。虽然性能强，但注意力机制的计算效率卻(que)不高，复杂度通常为输入序列長(chang)度的二(er)次方。

随着Transformer規(gui)模的不斷(duan)擴(kuo)大，其中一个重要问题的研究十分有價(jia)值：是否有任何自然发生的结构或模式的学习模型，可以破(po)解注意力有效的原(yuan)理。

对此，Google Research研究了中间 MLP 层的学习嵌(qian)入，发现它们非常稀(xi)疏(shu)，比如，T5-大模型只有 < 1% 的非零(ling)项，其稀疏性进一步表明，可以在不影(ying)響(xiang)模型性能的情况下降(jiang)低(di)FLOP

论文链接：https://arxiv.org/pdf/2210.06313.pdf

研究人员最近提出了 Treeformer模型，一种依(yi)賴(lai)于决策(ce)樹(shu)的标准注意力计算的替(ti)代(dai)方案(an)，直觀(guan)地說(shuo)，它可以快速识別(bie)与查询相关的一小部分键，并且只在这个集合上執(zhi)行注意力操(cao)作。根(gen)据经验，Treeformer 可以使注意力层的 FLOP 減(jian)少(shao)30倍(bei)。

同时研究人员还引(yin)入了序貫(guan)注意（ sequential attention），一种将注意和貪(tan)婪(lan)算法相结合的可微特征(zheng)选择方法，该技术经过证明，可以直接无縫(feng)遷(qian)移(yi)到大规模模型。

另一种提升Transformer效率的方法是在注意层加速softmax的计算。

在low-rank approximation of the softmax kernel研究基礎(chu)上，研究人员提出了一类新的随机特征，提供了softmax kernel的首(shou)个「positive and bounded」随机特征近似，并且在序列长度上是计算線(xian)性的。

论文链接：https://arxiv.org/abs/2205.15317

并且还提出了首个涵(han)蓋(gai)多个注意力masking的机制，如因果编码和相对位置(zhi)编码。

训练效率

有效的优化方法是现代机器学习应用的基石(shi)，在大规模環(huan)境(jing)中尤(you)为重要。

在这种情况下，即(ji)使是像(xiang)Adam这樣(yang)的一階(jie)自适应方法也往(wang)往需要大量的计算量，而且训练的穩(wen)定性也会变得非常困(kun)难。

此外，这些方法往往与神经网络的体系结构无关，沒(mei)有考(kao)慮(lv)模型架构内的结构信息，导致训练效率低下，这也促使新技术能够更有效地优化现代神经网络模型。

Google Research开发了一些新的基于模型架构的训练技术，例(li)如，用于训练Transofmre网络，包括新的规模不变的Transofmre网络和新的clipping方法，当与原版(ban)随机梯(ti)度下降(SGD)结合时，可以加快训练速度。

论文链接：https://arxiv.org/pdf/2202.00980.pdf

使用这种方法，研究人员首次实现了僅(jin)使用简单的 SGD 就能有效地训练 BERT，而无需自适应（adaptivity）。

此外，研究人员提出了一种新的方法LocoProp，在使用与一阶优化器相同的计算和内存资源(yuan)的情况下，获得类似于二阶优化器的性能。

LocoProp 通过将神经网络分解为一个层的组合，从而获得了神经网络的模块化视图。然後(hou)允许每一层都有自己(ji)的損(sun)失(shi)函(han)数以及输出目标和重量调整器。通过这种设置，经过适当的向(xiang)前向后梯度傳(chuan)遞(di)后，LocoProp 继续对每个层的「局(ju)部损失」执行并行更新。

论文链接：https://proceedings.mlr.press/v151/amid22a.html

事实上，这些更新在理论上和经验上都类似于高阶优化器，在深度自编码器基准測(ce)試(shi)中，LocoProp 获得了与高阶优化器相当的性能，同时速度明显更快。

像 SGD 这样的优化器的一个关键假(jia)设是，每个数据点都是从一个分布(bu)中獨(du)立(li)和完(wan)全相同地采(cai)样的，不过在强化学习等实際(ji)应用环境中，很难滿(man)足该假设，因为模型(或智能体)必(bi)須(xu)从根据自己的预测生成的数据中学习。

研究人员提出了一种新的算法方法，稱(cheng)为帶(dai)有反向经验重放的 SGD，可以在线性动力系統(tong)（linear dynamical system）、非线性动力系统和强化学习的 Q 学习等幾(ji)种情况下找(zhao)到最优解。

论文链接：https://arxiv.org/abs/2103.05896

此外，这种方法的一个改(gai)进版本IER ，经过实验被证明是最先进的，并且是各(ge)种流行的 RL 基准测试上最稳定的经验重播(bo)技术。

数据效率

深度神经网络嚴(yan)重依赖于大型数据集，随之而来的还有存储成本和潛(qian)在的安全/隐私问题，在这些数据集上训练现代深度神经网络也会带来很高的计算成本。

解决这个问题的一个有前景(jing)的方法是数据子集选择，其中学习器的目标是从大量的训练样本中找到信息量最大的子集，以接近(甚(shen)至(zhi)改进)整个训练集的训练。

研究人员分析了一个子集选择框(kuang)架设计工作与任意模型族(zu)在一个实际的batch设置，在这种设置下，学习器可以一次采样一个样本，訪(fang)问上下文和真实标簽(qian)，但为了限制开銷(xiao)，一旦(dan)选择了足够大的一批(pi)样本，只能更新其狀(zhuang)態(tai)，即，进一步训练模型权重。

并基于此开发了一种称为 IWeS 的算法，该算法通过重要抽(chou)样来选择样本，其中分配给每个样本的抽样概率是基于对先前选定的批次训练的模型的熵(shang)。文中提供了一个理论分析，证明了泛(fan)化和抽样率的界限。

论文链接：https://arxiv.org/pdf/2301.12052.pdf

训练大型网络的另一个问题是，它们可能对部署时看到的训练数据和数据之间的分布变化高度敏(min)感，特别是在处理数量有限的训练数据时，这些数据可能不包括所有的部署时间情景。

最近的一项研究假设「極(ji)端(duan)简单性偏(pian)差(cha)」是神经网络这种脆(cui)弱(ruo)性背(bei)后的关键问题，其最新工作使这一假设成为可行，导致了兩(liang)种新的互補(bu)方法DAFT 和 FRR ，结合起来提供了显著更强大的神经网络。特别是，这两种方法使用对抗(kang)微调以及逆(ni)特征预测，提升了学习网络的健(jian)壯(zhuang)性。

论文链接：https://arxiv.org/pdf/2006.07710.pdf

推理效率

增加神经网络的规模已被证明在提高其预测准確(que)性方面有驚(jing)人的效果，然而，在现实世界中利用这些优勢(shi)是具有挑战性的，因为大型模型的推理成本可能过高了，该问题也促使策略(lve)提高服(fu)务效率，而不犧(xi)牲(sheng)准确性。

研究人员提出了实现该目标的不同策略，特别是基于知识蒸(zheng)餾(liu)和自适应计算的策略。

蒸馏

蒸馏是一种简单而有效的模型压縮(suo)方法，极大地扩展了大型神经模型的潜在适用性，并且在廣(guang)告(gao)推薦(jian)等一系列实际应用中被证明是非常有效的。

大多数蒸馏的用例都涉及到将基本模型直接应用到给定的领域，对于何时以及为什(shen)麽(me)应该这样做只有有限的理解。Google的研究着眼(yan)于根据特定的环境对蒸馏进行裁(cai)剪(jian)，并系统性地研究了决定蒸馏成功的因素。

在算法方面，通过仔(zai)細(xi)建模教(jiao)师模型提供的标签中的噪(zao)聲(sheng)，研究人员开发了一个原則(ze)性的方法来重新加权的训练例子，和一个稳健的方法来抽样的数据子集有教师标签。

论文链接：https://arxiv.org/abs/2210.06711

在「教师指(zhi)导训练」的过程中，研究人员提出了一个新的蒸馏框架: 不是被动地使用教师来标注一个固(gu)定的数据集，而是主动地使用教师来指导信息样本的选择来进行标注，这使得蒸馏过程在有限的数据或长尾(wei)设置中更有效。

论文链接：https://arxiv.org/abs/2208.06825

同时还研究了从交(jiao)叉(cha)编码器(dual-encoder, 例如 BERT)到因子雙(shuang)编码器（dual-encoder）的新方法，这也是对（query, document）对的相关性进行評(ping)分的重要设置。

论文链接：https://proceedings.mlr.press/v162/menon22a/menon22a.pdf

文中研究了交叉编码器和双重编码器之间性能差距(ju)的原因，指出这可能是泛化的结果，而非双编码器的容量限制。

精(jing)心构造(zao)的蒸馏损耗函数可以緩(huan)解这种情况，缩小交叉编码器和双编码器之间的性能差距。

随后，在 EmbedDistil进一步研究了通过匹(pi)配来自教师模型的嵌入来进一步改进双编码器精馏。该策略还可用于从大到小的双编码器模型中提取信息，继承(cheng)和凍(dong)结教师的文檔(dang)嵌入被证明是非常有效的。

论文链接：https://arxiv.org/abs/2301.12005

在理论方面提供了一个新的视角(jiao)，通过监督复杂性的蒸馏，衡量学生如何能够预测教师的标签。

论文链接：https://arxiv.org/abs/2301.12245

利用神经正(zheng)切(qie)核(NTK)理论得出了一些概念性的结论，比如，能力差距可能会影响蒸馏，因为这样的教师的标签可能出现类似于純(chun)粹(cui)的随机标签的学生。

论文链接：https://arxiv.org/abs/2301.12923

同时进一步证明，蒸馏导致学生欠(qian)擬(ni)合的点也是对于教师模型比較(jiao)难的问题，从直觉上講(jiang)，这可能有助(zhu)于学生将其有限的能力集中在那(na)些可以合理建模的样本上。

自适应计算

虽然蒸馏是降低推理成本的有效方法，但它在所有样本中的作用是一致的（uniformly），直观地说，一些「简单」的样本可能本质上需要比相对更「难」样本更少的计算。

自适应计算的目标是设计能够进行这种依赖于样本的计算的机制。

Confident Adaptive Language Modeling(CALM)为 T5等基于Transformer的文本生成器引入了受(shou)控的早(zao)期退(tui)出功能。

论文链接：https://arxiv.org/abs/2207.07061

在这种形式的自适应计算中，模型动态修(xiu)改每个解码步驟(zhou)使用的Transformer层数，其中early-exit gate使用带有决策閾(yu)值的置信度量，该置信度量经过校(xiao)准以满足统计性能保证。

这样，模型只需要为最具挑战性的预测计算完整的解码器层堆(dui)棧(zhan)，更简单的预测只需要计算几个解码器层。在实踐(jian)中，该模型平均(jun)使用约三分之一的层进行预测，在保持同等水(shui)平的生成质量的同时，产生2-3倍的加速。

一个常用的自适应计算机制包括两个或多个基本模型的級(ji)聯(lian)，其关键问题是决定是简单地使用当前模型的预测，还是将预测推遲(chi)到下遊(you)模型，学习何时推迟需要设计一个合适的损失函数，它可以利用适当的信號(hao)作为推迟决策的监督。

Google Research系统性地研究了现有的损失函数，证明由于标签平滑(hua)的隐式应用，它们可能不适合训练样本，文中还展示(shi)了可以通过延(yan)迟规则的事后训练来缓解这种情况，这种训练不需要以任何方式修改模型内部。

论文链接：https://openreview.net/pdf?id=_jg6Sf6tuF7

对于检索应用程序，标准的语義(yi)搜索技术对大型模型生成的每个嵌入使用固定的表示，也就是说，不管(guan)下游任务及其相关的计算环境或约束，表示的大小和能力大多是固定的。

Matryoshka 表示学习引入了根据部署环境调整表示的靈(ling)活性，强制表示在它的坐(zuo)标中有一个自然的排(pai)序，这样对于资源受限的环境，只使用表示的最高的几个坐标；而对于更豐(feng)富(fu)和精度关键的设置，可以使用表示的更多坐标。

论文链接：https://openreview.net/pdf?id=9njZa1fm35

当结合标准近似最近邻搜索技术，如掃(sao)描(miao)神经网络，MRL 能够提供多达16倍的低计算相同的召回率和准确度量。

总结

大型机器学习模型在多个领域都展现出具有变革性的结果，但训练和推理的效率正在成为使这些模型在现实世界中切实可行的关键需求。

通过开发新的基础技术，Google Research已经在使大型机器学习模型高效方面进行了大量投资，这也需要持续性的努(nu)力，未(wei)来将继续探索核心挑战，使机器学习模型更加健壮和高效。

参考资料(liao)：

https://ai.googleblog.com/2023/02/google-research-2022-beyond-algorithms.html返(fan)回搜狐(hu)，查看更多

责任编辑：