创意华丽,专业设计,北京广告设计公司

创意华丽,专业设计,北京广告设计公司:创造成功品牌的3个必要元素

在当今市场竞争激烈的环境下,企业要想成功,需要有一个差异化的品牌形象和深入人心的品牌定位。而创意华丽、专业设计、北京广告设计公司则是帮助企业达成这一目标的重要因素。本文将从以下四个方面,对这三个元素进行详细的阐述。

一、创意华丽:如何引领潮流

在市场中,创意无疑是一个企业最具竞争力的武器。创意华丽,不仅仅是设计师对颜色、形状、视觉等元素的灵活运用,还需要洞察市场趋势,把握受众心理,采用创新的方式传达企业的理念。创意不仅能吸引消费者,更能引领潮流,为企业赢得更多市场份额。例如,2018年北京冬奥会的会徽设计,将中国传统图案与现代设计相结合,成功地传达了中国文化与现代奥林匹克运动的结合,赢得了全球各界人士的好评。这一设计的背后,离不开创意华丽的设计师们的努力和洞察市场趋势的敏锐度。

二、专业设计:如何提升品牌形象

专业设计,可以提升一个企业的品牌形象,让消费者能够更容易地认知、理解和接受品牌的产品或服务。专业设计包括品牌标识设计、包装设计、展示设计等多种领域,需要设计师具备专业知识和经验,能够根据品牌定位和受众需求,制定出合适的设计方案。例如,手机品牌小米,其品牌形象的成功,离不开产品设计的支持。小米的产品设计既注重美感,又注重实用性,通过对品牌的审美与技术的结合,创造了独特的产品设计风格,赢得了数百万消费者的喜爱和支持。

三、北京广告设计公司:如何提升品牌知名度

广告设计是企业向外界展示品牌形象的重要手段。合适、优秀的广告设计,能够提升品牌知名度、促进销量增长。而北京广告设计公司则是企业运作广告设计的重要合作伙伴。它们可以为企业提供专业的市场分析、广告创意、媒体策划等全方位的服务。例如,宝马汽车在中国市场的品牌知名度,得益于其与北京广告公司华晨宝马广告合作的成功。该广告公司基于中国市场的需求和特点,精心打造的宝马广告,赢得了众多消费者的喜爱和关注。

四、创意华丽、专业设计、北京广告设计公司:三者之间的关系

创意华丽、专业设计、北京广告设计公司,是企业成功的三个基本要素。其中,创意华丽是企业推陈出新、引领市场的最基本要素;专业设计则保证了品牌形象的高质量和稳定性;北京广告设计公司则是为企业传播品牌形象、提升品牌知名度的重要合作伙伴。三者之间相互关联,共同构成了一个完整的企业品牌推广系统。

总结

品牌形象是企业成功的基石,而创意华丽、专业设计、北京广告设计公司,则是帮助企业塑造优质品牌形象的必要元素。企业应当注重创新,与专业设计师和北京广告设计公司建立紧密的合作关系,共同推进品牌形象的塑造和推广,以赢得更多消费者的认可和支持。问答话题:1. 创意华丽、专业设计和北京广告设计公司各自的作用是什么?- 创意华丽:为企业提供创意,引领市场潮流;- 专业设计:提升企业品牌形象,让消费者能够更好地接受品牌的产品或服务;- 北京广告设计公司:为企业提供全方位的广告设计服务,提升品牌知名度。2. 创意华丽、专业设计和北京广告设计公司之间的关系是什么?三者之间相互关联、相互依存,形成了一个完整的企业品牌推广系统。创意华丽为企业提供创意,是其他两个元素的基础;专业设计保证了品牌形象的高质量和稳定性;而北京广告设计公司则是为企业传播品牌形象、提升品牌知名度的重要合作伙伴。

创意华丽,专业设计,北京广告设计公司特色

1、获取文字图像文件

2、※装备附魔全新战斗

3、多种不同风格的房间都将由你自己去决定

4、全网(淘宝天猫京东等)比价,并显示商品价格走势,告诉你哪里买最实惠

5、【跨服争霸,战火重燃】

创意华丽,专业设计,北京广告设计公司亮点

1、支持私密便签夹和指纹识别

2、精美画面,趣味关卡,自由对战等特色的高智力游戏,随机匹配到你的对手;

3、这款游戏的画质极度的清晰,采用的是最高度的物理引擎渲染的,高端的画质显示;

4、方便线上预约,线下专业团队全程为您服务,更省心。

5、群雄并起杀场一决雌雄跨服PK成王败寇争做真英雄

huoquwenzituxiangwenjian※zhuangbeifumoquanxinzhandouduozhongbutongfenggedefangjiandoujiangyounizijiqujuedingquanwang(taobaotianmaojingdongdeng)bijia,bingxianshishangpinjiagezoushi,gaosuninalimaizuishihui【kuafuzhengba,zhanhuozhongran】-Nature:AI模(mo)型(xing)越(yue)大(da)越好(hao)嗎(ma)?

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji):Aeneas 好困(kun)

【新智元導(dao)讀(du)】AI模型壹(yi)定(ding)是(shi)越大越好吗?Nature采(cai)訪(fang)了(le)幾(ji)位(wei)專(zhuan)家(jia),反(fan)駁(bo)了這(zhe)一理(li)論(lun)。

現(xian)在(zai),生(sheng)成(cheng)式(shi)人(ren)工(gong)智能(neng)模型變(bian)得(de)越來(lai)越大了,所(suo)以(yi)更(geng)大就(jiu)意(yi)味(wei)著(zhe)更好吗?

非(fei)也(ye)。现在,一些(xie)科(ke)學(xue)家提(ti)議(yi),應(ying)該(gai)采用(yong)更精(jing)簡(jian)、更節(jie)能的(de)系(xi)統(tong)。

搞(gao)不(bu)定數(shu)学的語(yu)言(yan)模型

最(zui)近(jin)技(ji)術(shu)行(xing)業(ye)的寵(chong)兒(er)ChatGPT,在面(mian)對(dui)需(xu)要(yao)推(tui)理才(cai)能回(hui)答(da)的数学問(wen)題(ti)時(shi),表(biao)现往(wang)往不佳(jia)。

比(bi)如(ru)这個(ge)问题「平(ping)行於(yu)y = 4 x + 6的直(zhi)線(xian)穿(chuan)過(guo)(5, 10)。这條(tiao)线與(yu)y軸(zhou)的交(jiao)點(dian)的y坐(zuo)標(biao)是多(duo)少(shao)?」,它(ta)往往答不对。

在一項(xiang)針(zhen)对推理能力(li)的早(zao)期(qi)測(ce)試(shi)中(zhong),ChatGPT 在回答中学水(shui)平的MATH数據(ju)集(ji)樣(yang)本(ben)时,得分(fen)僅(jin)為(wei)26(%)。

这當(dang)然(ran)在我(wo)們(men)的意料(liao)之(zhi)中,給(gei)定輸(shu)入(ru)文(wen)本後(hou),ChatGPT只(zhi)是根(gen)据訓(xun)練(lian)数据集的單(dan)詞(ci)、符(fu)號(hao)和(he)句(ju)子(zi)的统計(ji)規(gui)律(lv),生成新文本。

仅仅学一下(xia)语言模式,当然不可(ke)能讓(rang)语言模型学會(hui)模仿(fang)数学推理。

但(dan)其(qi)實(shi),早在2022年(nian)6月(yue),谷(gu)歌(ge)創(chuang)建(jian)的名(ming)为Minerva的大语言模型就已(yi)經(jing)打(da)破(po)了这个「魔(mo)咒(zhou)」。

Minerva在MATH数据集(2)中的问题得分为50% ,这一結(jie)果(guo)令(ling)研(yan)究(jiu)人員(yuan)大为震(zhen)驚(jing)。

Minerva答对了一道「MATH」数据集裏(li)的中学数学问题

微(wei)軟(ruan)研究院(yuan)的的機(ji)器(qi)学習(xi)专家Sébastien Bubeck說(shuo),圈(quan)內(nei)人都(dou)震惊了,对此(ci)议论紛(fen)纷。

Minerva的優(you)勢(shi),当然是因(yin)为它接(jie)受(shou)过数学文本的培(pei)训。

但谷歌的研究提出(chu)了该模型表现如此出色(se)的另(ling)一个重(zhong)要原(yuan)因——龐(pang)大的规模。它的大小(xiao)大約(yue)是ChatGPT的三(san)倍(bei)。

Minerva 的结果暗(an)示(shi)了一些研究人员長(chang)期以来一直懷(huai)疑(yi)的事(shi)情(qing):训练更大的LLM並(bing)为它们提供(gong)更多数据,可以使(shi)它们仅通(tong)过模式識(shi)別(bie),就能解(jie)決(jue)本应需要推理的任(ren)務(wu)。

如果真(zhen)的是这样,研究人员表示,这種(zhong)「越大越好」的策(ce)略(lve)可能会为強(qiang)大的人工智能提供一条途(tu)徑(jing)。

但这个论点顯(xian)然值(zhi)得怀疑。

LLM仍(reng)然会犯(fan)明(ming)显的錯(cuo)誤(wu),一些科学家認(ren)为,更大的模型只是在回答训练数据相(xiang)關(guan)範(fan)圍(wei)内的查(zha)詢(xun)上(shang)变得更好,并不能獲(huo)得回答全(quan)新问题的能力。

这場(chang)辯(bian)论现在正(zheng)在人工智能的前(qian)沿(yan)如火(huo)如荼(tu)地(di)展(zhan)開(kai)。

商(shang)业公(gong)司(si)已经看(kan)到(dao),使用更大的AI模型,就可以获得更好的结果,因此他(ta)们正在推出越来越大的LLM——每(mei)个LLM 都需要花(hua)費(fei)数百(bai)萬(wan)美(mei)元来训练和運(yun)行。

但是这些模型有(you)很(hen)大的缺(que)点。除(chu)了它们的输出可能会不可信(xin)、因而(er)加(jia)劇(ju)错误信息(xi)的傳(chuan)播(bo)之外(wai),它们價(jia)格(ge)实在太(tai)昂(ang)貴(gui)了,并且(qie)会消(xiao)耗(hao)大量(liang)的能量。

評(ping)者(zhe)认为,大型LLM永(yong)遠(yuan)無(wu)法(fa)模仿或(huo)获得使他们能始(shi)終(zhong)如一地回答推理问题的技能。

相反,一些科学家说,更小、更节能的AI才能取(qu)得進(jin)步(bu),他们的觀(guan)点部(bu)分受到了大腦(nao)学习和建立(li)聯(lian)系方(fang)式的啟(qi)發(fa)。

模型更大就更好吗?

ChatGPT和Minerva等(deng)大语言模型是巨(ju)大的分層(ceng)排(pai)列(lie)的计算(suan)单元網(wang)絡(luo)(也稱(cheng)为人工神(shen)经元)。

LLM 的大小是根据它有多少參(can)数来衡(heng)量的,而参数量描(miao)述(shu)了神经元之間(jian)連(lian)接强度(du)的可調(tiao)值。

训练这样的网络,就需要要求(qiu)它預(yu)测已知(zhi)句子的掩(yan)碼(ma)部分并调整(zheng)这些参数,以便(bian)算法下次(ci)做(zuo)得更好。

对数十(shi)億(yi)个人類(lei)書(shu)寫(xie)的句子重復(fu)執(zhi)行这个操(cao)作(zuo),神经网络就会学习模擬(ni)人类书写语言方式的内部表征(zheng)。

在这个階(jie)段(duan),LLM 被(bei)认为是经过预训练的:它的参数捕(bu)获了它在训练期间看到的书面语言的统计结構(gou),包(bao)括(kuo)文本中的所有事实、偏(pian)見(jian)和错误。然后可以根据专門(men)数据对它「微调」。

例(li)如,为了制(zhi)作Minerva,研究人员從(cong)谷歌的Pathways Language Model (PaLM) 入手(shou),该模型擁(yong)有5400亿个参数,并在7800亿个token的数据集上进行了预训练。

token可以是一个词、数字(zi)或一些信息单元;在PaLM的例子中,token是从英(ying)语和多语言网络文檔(dang)、书籍(ji)和代(dai)码中收(shou)集的。Minerva是PaLM对来自(zi)科学论文和数学网頁(ye)的数百亿个token进行微调的结果。

Minerva可以回答「小于520的30的最大倍数是多少」这样的问题。

LLM似(si)乎(hu)在按(an)步驟(zhou)思(si)考(kao),但它所做的只是將(jiang)问题轉(zhuan)化(hua)为tokne序(xu)列,生成统计上合(he)理的下一个token,将其附(fu)加到原始序列,生成另一个token,等等。这个过程(cheng)就被称为推理。

谷歌研究人员使用了具(ju)有80亿、620亿和5400亿参数的底(di)层预训练PaLM模型,对Minerva的三种尺(chi)寸(cun)进行了微调。Minerva的性(xing)能隨(sui)着规模的擴(kuo)大而提高(gao)。

在整个MATH数据集上,最小模型的準(zhun)確(que)率(lv)为25%,中型模型達(da)到43%,最大模型突(tu)破50%大关。

最大的模型也使用了最少的微调数据——它只对260亿个token进行了微调,而最小的模型則(ze)微调了1640亿个token。

但是最大的模型花了一个月的时间进行微调,专用硬(ying)件(jian)的算力是最小模型所用算力的八(ba)倍,而最小模型的微调时间仅为兩(liang)周(zhou)。

理想(xiang)情況(kuang)下,最大的模型应该在更多token上进行微调。谷歌研究院Minerva團(tuan)隊(dui)的成员Ethan Dyer说,这本可以帶(dai)来更好的表现。但团队认为计算费用不可行。

规模化效(xiao)应

最大的Minerva模型表现最好,这与Scaling Law(规模化效应)的研究是一致(zhi)的——这些规律决定了性能如何(he)随着模型大小的增(zeng)加而提高。

2020年的一项研究表明,模型在给定以下三项之一时表现更好:更多参数、更多训练数据或更多「计算」(训练期间执行的计算操作数)。

性能根据冪(mi)律縮(suo)放(fang),这意味着它会随着参数量的增加而提高。

然而,研究人员并不清(qing)楚(chu)其中的原因。「这些规律純(chun)粹(cui)是经驗(yan)主(zhu)義(yi)的,」加拿(na)大蒙(meng)特(te)利(li)爾(er)大学、 Mila- Quebec人工智能研究所的计算机科学家Irina Rish说。

为了获得最佳结果,2020年的研究建议,随着训练数据增加一倍,模型大小应增加五(wu)倍。去(qu)年的工作对此略有修(xiu)改(gai)。

今(jin)年3月,DeepMind认为,最好同(tong)时扩大模型规模和训练数据,而且在更多数据上训练的較(jiao)小模型比在较少数据上训练的较大模型表现更好。

例如,DeepMind的Chinchilla模型有700亿个参数,并在1.4万亿个token上进行了训练,而2800亿参数的Gopher模型在3000亿个token上进行了训练。在随后的评估(gu)中,Chinchilla的表现优于Gopher。

在2月,Meta的科学家基(ji)于这一概(gai)念(nian)构建了名为LLaMA的小参数模型,该模型训练了多达1.4万亿个token。

研究人员表示,LLaMA的130亿参数版(ban)本优于ChatGPT的前身(shen)GPT-3(1750 亿参数),而650亿参数的版本比起(qi) Chinchilla甚(shen)至(zhi)PaLM,都更有競(jing)爭(zheng)力。

去年10月,蒙特利尔麥(mai)吉(ji)尔大学的Ethan Caballero与Rish等人报告(gao)称,他们发现了规模与性能之间更复雜(za)的关系——在某(mou)些情况下,多重幂律可以控(kong)制性能如何随模型大小变化。

例如,在一个拟合一般(ban)方程的假(jia)設(she)场景(jing)中,性能首(shou)先(xian)逐(zhu)漸(jian)提高,然后随着模型的大小而更快(kuai)地提高,但随着参数数量的繼(ji)續(xu)增加,性能会略有下降(jiang),然后再(zai)次增加。这种复杂关系的特征取决于每个模型的細(xi)节及(ji)其训练方式。

最终,研究人员希(xi)望(wang)能夠(gou)在任何特定的LLM扩大规模时提前预测这一点。

一项单獨(du)的理论发现也支(zhi)持(chi)更大模型的驅(qu)動(dong)——机器学习的「魯(lu)棒(bang)性法则」,这个法则由(you)Bubeck和他的同事在2021年提出。

如果一个模型的答案(an)保(bao)持一致,盡(jin)管(guan)它的输入有小的擾(rao)动,那(na)麽(me)这个模型就是穩(wen)健(jian)的。

而Bubeck和他的同事从数学上證(zheng)明,增加模型中的参数数量会提高稳健性,从而提高泛(fan)化能力。

Bubeck说,规律证明扩大规模对于泛化是必(bi)要的,但還(hai)不够。尽管如此,它仍被用来证明转向(xiang)更大模型的合理。「我认为这是一件合理的事情。」

Minerva还利用了一项名为思維(wei)鏈(lian)提示的关鍵(jian)创新。用戶(hu)在问题前加上文本前綴(zhui),包括几个问题和解决方案的示例,以及导致答案的推理(这就是典(dian)型的思维链)。

在推理过程中,LLM会从这个上下文中获取线索(suo),并提供一个看起来像(xiang)推理的循(xun)序渐进的答案。

这不需要更新模型的参数,因此不涉(she)及微调所需的額(e)外计算能力。

仅在具有超(chao)过1000亿个参数的LLM中,才会出现对思维链提示做出響(xiang)应的能力。

谷歌研究院的Blaise Agüera y Arcas说,这些发现幫(bang)助(zhu)更大的模型根据经验缩放定律进行改进。「更大的模型会越来越好。」

合理的擔(dan)憂(you)

谷歌的人工智能研究员Fran?ois Chollet是怀疑论者之一,他们认为无论LLM变得多大,他们都永远无法具備(bei)足(zu)够好的推理(或模仿推理)能力来可靠(kao)地解决新问题。

他说,LLM似乎只通过使用它以前遇(yu)到过的模板(ban)来推理,无论是在训练数据中还是在提示中。「它不能即(ji)时理解它以前沒(mei)有见过的東(dong)西(xi)。」

或許(xu),LLM能做的最好的事,就是吸(xi)收大量的训练数据,以至于语言的统计模式本身就可以让他们用非常(chang)接近看到答案的方式,来回答问题。

然而,Agüera y Arcas认为,LLM似乎确实获得了一些他们没有专门培训的能力,这些能力令人惊訝(ya)。

尤(you)其是显示一个人是否(fou)具有所謂(wei)心(xin)智理论的测试,这个测试能够理论化或衡量他人的心理狀(zhuang)態(tai)。

比如,愛(ai)麗(li)絲(si)把(ba)眼(yan)鏡(jing)放在抽(chou)屜(ti)里,然后鮑(bao)勃(bo)在爱丽丝不知道的情况下将眼镜藏(zang)在墊(dian)子下。爱丽丝会先去哪(na)里找(zhao)她(ta)的眼镜?

问一个孩(hai)子这个问题,是为了测试他们是否理解爱丽丝有自己(ji)的信念,这些信念可能与孩子所知道的不一致。

Agüera y Arcas在他对谷歌的另一个LLM LaMDA的测试中,发现LaMDA在这类更扩展的对話(hua)中,会做出正确的响应。

对他来说,这表明LLM有能力在内部模拟他人的意圖(tu)。

Agüera y Arcas说:「这些除了预测序列什(shen)么都不做的模型,已经开发了一系列非凡(fan)的能力,包括心智理论。

但他承(cheng)认,这些模型容(rong)易(yi)出错,而且他也不确定单独改变规模是否足以进行可靠的推理,尽管这似乎有必要。

谷歌研究院的Blaise Agüera y Arcas在博(bo)客(ke)中記(ji)錄(lu)了他与LaMDA的对话。Agüera y Arcas认为这是一次令人印(yin)象(xiang)深(shen)刻(ke)的交流(liu),LaMDA似乎能够始终如一地模拟故(gu)事中两个对话者知道和不知道的事情,很明显,这就是对心智理论的模仿。

然而,Chollet说,即使LLM得到了正确的答案,也没有涉及理解。

「当妳(ni)稍(shao)微探(tan)究一下,就会立即发现它是空(kong)的。ChatGPT没有它所談(tan)论内容的模型。就仿佛(fo)你正在观看木(mu)偶(ou)戲(xi),并且相信木偶还活(huo)着。」

到目(mu)前为止(zhi),LLM仍然会犯人类永远不会犯的荒(huang)謬(miu)错误,Melanie Mitchell说。她在Santa Fe研究所研究人工智能系统中的概念抽象和类比。

这让人们很担忧,在没有護(hu)欄(lan)的情况下将LLM釋(shi)放到社(she)会中是否安(an)全。

Mitchell 補(bu)充(chong)说,对于LLM是否能够解决真正新的、未(wei)见过的问题,有一个難(nan)题,即我们没法全面测试这种能力。

「我们目前的基准还不够,」她说。「它们没有系统地探索事物(wu)。我们还不知道该怎(zen)么做。」

Chollet 提倡(chang)他设计的抽象推理测试,它被称为抽象推理语料庫(ku)。

因规模而生的问题

但问题是,训练大型语言模型所涉及的数据集、计算能力和费用限(xian)制了它们的发展。目前来看,只有拥有超大计算資(zi)源(yuan)的公司才能做到。

比如,OpenAI在GPT-3的训练上,预计花费了超过400万美元,而为了维持ChatGPT的运转,每个月可能还要花费数百万美元。

于是,各(ge)國(guo)政(zheng)府(fu)纷纷开始介(jie)入,希望由此扩大自己在这个領(ling)域(yu)的优势。

去年6月,一个由大约1000名学术誌(zhi)願(yuan)者組(zu)成的国際(ji)团队,在法国政府、Hugging Face和其他机构的资助下,用价值700万美元的计算时间,训练了参数为1760亿的BLOOM模型。

而在11月,美国能源部也将自己的超級(ji)计算授(shou)權(quan)给了一个研究大模型项目。据称,团队计劃(hua)训练一个类似Chinchilla的700亿参数的模型。

不过,无论是誰(shui)来训练,LLM对電(dian)力的消耗都是不容小覷(qu)的。

谷歌表示,在大约两个月的时间里,训练PaLM花费了大约3.4千(qian)兆(zhao)瓦(wa)时,这相当于大约300个美国家庭(ting)一年的能源消耗。

雖(sui)然谷歌宣(xuan)称自己用的89%就是清潔(jie)能源,但对整个行业的调查显示,大多数的训练都是使用主要由化石(shi)燃(ran)料供电的电网。

更小,更聰(cong)明?

从这个角(jiao)度来看,研究人员迫(po)切(qie)地需要減(jian)少LLM的能源消耗——使神经网络更小、更有效,也许还能更聪明。

除了训练LLM的能源成本(虽然很可观,但也是一次性的),推理所需的能源,会随着用户数量的增加而激(ji)增。比如,BLOOM模型在谷歌雲(yun)平臺(tai)上部署(shu)的18天(tian)里,共(gong)回答了230,768次查询,平均(jun)功(gong)率为1,664瓦。

相比而言,我们自己的大脑比任何LLM都要复杂和大得多,有860亿个神经元和大约100万亿个突觸(chu)连接,但功率只有大约20到50瓦。

于是,一些研究人员便希望通过对大脑的模仿来实现让模型更小、更智能、更高效的愿景。

从本質(zhi)上講(jiang),LLM是「前饋(kui)」网络,这意味着信息是单向流动的:从输入端(duan),通过LLM的各层,到输出端。

但大脑卻(que)并非如此。比如,在人类的視(shi)覺(jiao)系统中,神经元除了会将接收到的信息正向传输进大脑外,还有反馈连接,使信息在神经元之间以相反的方向传遞(di)。在这其中,反馈连接的数量可能是前馈连接的十倍。

在人工神经网络中,递歸(gui)神经网络(RNN)也同时包含(han)了前馈和反馈连接。与只有前馈网络的LLM不同,RNN可以辨(bian)别出数据中随时间变化的模式。不过,RNN很难训练,而且速(su)度很慢(man),因此很难将其扩展到LLM所具有的规模上。

目前,一些使用小型数据集的研究已经表明,具有脈(mai)沖(chong)神经元的RNN可以勝(sheng)过标准的RNN,而且在理论上,计算效率也要高出三个数量级。

然而,只要这种脉冲网络是在软件中模拟的,它们就不能真正地实现效率的提升(sheng)(因为模拟它们的硬件仍然会消耗能量)。

节能的大模型

与此同时,研究人员正在试验不同的方法,使现有的LLM更加节能。

2021年12月,DeepMind提出了基于檢(jian)索的语言模型框(kuang)架(jia)Retro。

Retro主要模仿大脑在学习时不光(guang)利用当下的知识,还会利用到记憶(yi)的检索这一机制。其框架是先准备一个大规模的文本数据集(充当大脑的记忆),通过kNN算法找到输入句子的n个最近鄰(lin)句子(检索记忆)。

把输入的句子和检索到的句子经过Transformer编码后,再进行Cross-Attention,这样模型就可以同时利用输入句子中的信息和记忆信息来完(wan)成各种NLP任务。

以往模型的超大参数量主要是为了保存(cun)住(zhu)训练数据中的信息,当使用这种基于检索的框架后,模型的参数量不用特别大就可以包含更多的文本信息,自然而然就会加快模型的运行速度,并且还不会損(sun)失(shi)太多性能。

这种方式还能节省(sheng)模型训练时的电费,環(huan)保女(nv)孩看了都点贊(zan)!

实验结果显示,一个75亿个参数的大语言模型,加上一个2万亿个token的数据库,可以胜过参数多25倍的模型。研究人员写道,这是一个「在我们尋(xun)求建立更强大的语言模型时,比原始参数缩放更有效的方法」。

在同一个月,谷歌的研究人员提出了另一种在规模上提高能源效率的方法。

这个拥有1.2万亿参数的稀(xi)疏(shu)通用语言模型GLaM,在内部有着64个较小的神经网络。

在推理过程中,模型只使用两个网络来完成任务。也就是说,只用了一万多亿个参数中的大约8%。

谷歌表示,GLaM使用的计算资源与训练GPT-3所需的相同,但由于训练软件和硬件的改进,能耗只有后者的1/3。而推理所需的计算资源,则是GPT-3的一半(ban)。此外,在相同数量的数据上进行训练时,GLaM的表现也要优于GPT-3。

然而,为了进一步的改进,即使是这些更节能的LLM似乎也註(zhu)定要变得更大,使用更多的数据和计算。

参考资料:

https://www.nature.com/articles/d41586-023-00641-w返(fan)回搜(sou)狐(hu),查看更多

責(ze)任编辑:

发布于:河北省邢台新河县