内蒙古100个广告词

内蒙古的旅游胜地

内蒙古是中国五个自治区之一,是中国最大的省份之一,是一个自然风光旖旎的地方。内蒙古拥有非常多的自然风光,包括美丽的草原、壮丽的戈壁、神秘的湖泊、雄伟的山脉等等。如果你想要体验大自然的魅力,内蒙古绝对是一个非常不错的选择。

内蒙古草原

内蒙古草原是内蒙古最著名的景点之一。这里的草原风景非常的美丽,有着广袤的天空和碧绿的草地,让人心旷神怡。草原上还有着各种各样的牛羊马群,让人感受到了大自然的独特魅力。如果你想要感受蒙古族的民俗风情,可以去内蒙古的草原上体验她们的生活方式,这将会是一段非常难忘的旅行。

蒙古包

内蒙古的蒙古包也是内蒙古最著名的景点之一。蒙古包通常是蒙古族人的居所,这里的蒙古包有着非常独特的民族特色,让人过目难忘。如果你想要感受蒙古族的文化,可以去蒙古包里品尝他们的特色美食,同时也可以了解到蒙古族的习俗和历史。

内蒙古的美食文化

内蒙古的美食文化也是内蒙古吸引游客的另外一个重要原因。内蒙古的美食以牛羊肉、奶制品、小麦食品为主,其中最著名的当属烤全羊了。烤全羊是内蒙古最著名的特色美食之一,这种食品既有着浓郁的蒙古族文化,又有着独特的口味。如果你想要品尝这道美食,可以去内蒙古的草原上,在这里你可以品尝到地道的烤全羊,同时也可以了解到蒙古族的食品文化。

烤全羊

除了烤全羊之外,内蒙古还有着其他非常有特色的美食。比如说,手抓肉是内蒙古的另外一道招牌美食,这道菜以鲜嫩多汁的猪肉为原材料,配以各种香料和调料,做出来的菜肴非常诱人。如果你想要体验内蒙古的美食文化,可以去内蒙古的各个餐厅,品尝地道的内蒙古美食,你一定会爱上这里的特色美食。

手抓肉

内蒙古的特色工艺品

内蒙古还有着非常多的特色工艺品,这些工艺品往往有着浓郁的蒙古族文化色彩,让人过目难忘。比如说,蒙古族刺绣是内蒙古的一种非常有特色的工艺品,这种工艺品以传统的蒙古族图案为主,刺绣出来的画面非常的美丽、精致。如果你想要购买这种工艺品,可以去内蒙古的各个乡村,这里有着非常多的刺绣店,你可以挑选自己喜欢的作品。

刺绣

除了刺绣之外,内蒙古还有着其他非常有特色的工艺品。比如说,马头琴是内蒙古的一种非常有特色的乐器,这种乐器的音色非常的美妙,让人沉醉其中。如果你想要购买这种工艺品,可以去内蒙古的各个乡村,这里也有着非常多的马头琴店,你可以挑选自己喜欢的作品。

马头琴

结论

内蒙古是一个非常美丽、充满特色的地方。这里有着广袤的草原、特色的美食、精美的工艺品,让人无法忘怀。如果你想要体验大自然的魅力、感受蒙古族的文化、品尝地道的内蒙古美食、购买精美的工艺品,内蒙古将会是你最好的选择。

内蒙古100个广告词随机日志

支持MacOSbash,zsh,powershellcore

1、方法四:把需要上传的文件拖动至悬浮窗,选择在云端的保存目录后,即可上传文件。

2、谷歌地图电脑版优化了三维模型的导入及缩放显示范围;

3、“大事件看凤凰”:在这里你能看到最快、最全、最深的新闻解读;为你揭秘外交辞令背后的大国角逐;呈现最完整的新闻现场、最及时的事件进展。大事来临,凤凰新闻将会第一时间推送新闻动态;

4、二、什么是Macrium代理许可证(MAL)?

5、savename=你要设置文件名备份路由

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>清(qing)北(bei)微(wei)軟(ruan)深(shen)挖(wa)GPT,把(ba)上(shang)下(xia)文(wen)學(xue)習(xi)整(zheng)明(ming)白(bai)了(le)!和(he)微調(tiao)基(ji)本(ben)壹(yi)致(zhi),只(zhi)是(shi)參(can)數(shu)沒(mei)變(bian)而(er)已(yi)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji):LRS

【新智元導(dao)讀(du)】ICL的(de)工(gong)作(zuo)原(yuan)理(li)整明白了!

大(da)型(xing)預(yu)訓(xun)練(lian)語(yu)言(yan)模(mo)型其(qi)中(zhong)一個(ge)重(zhong)要(yao)的特(te)點(dian)就(jiu)是上下文学习(In-Context Learning,ICL)能(neng)力(li),即(ji)通(tong)過(guo)一些(xie)示(shi)範(fan)性(xing)的輸(shu)入(ru)-標(biao)簽(qian)對(dui),就可(ke)以(yi)在(zai)不(bu)更(geng)新参数的情(qing)況(kuang)下对新输入的标签進(jin)行(xing)预測(ce)。

性能雖(sui)然(ran)上去(qu)了,但(dan)大模型的ICL能力到(dao)底(di)從(cong)何(he)而來(lai)仍(reng)然是一个開(kai)放(fang)的問(wen)題(ti)。

為(wei)了更好(hao)地(di)理解(jie)ICL的工作原理,清華(hua)大学、北京(jing)大学和微软的研(yan)究(jiu)人(ren)員(yuan)共(gong)同(tong)發(fa)表(biao)了一篇(pian)論(lun)文,將(jiang)语言模型解釋(shi)为元優(you)化(hua)器(qi)(meta-optimizer),並(bing)将ICL理解为一種(zhong)隱(yin)性的(implicit)微调。

论文鏈(lian)接(jie):https://arxiv.org/abs/2212.10559

从理论上講(jiang),這(zhe)篇文章(zhang)弄(nong)清楚(chu)了Transformer註(zhu)意(yi)力中存(cun)在一个基於(yu)梯(ti)度(du)下降(jiang)优化的对偶(ou)形(xing)式(shi)(dual form),并在此(ci)基礎(chu)上,对ICL的理解如(ru)下。GPT首(shou)先(xian)根(gen)據(ju)示范實(shi)例(li)產(chan)生(sheng)元梯度,然後(hou)将这些元梯度應(ying)用(yong)于原始(shi)的GPT,建(jian)立(li)ICL模型。

在实驗(yan)中,研究人员綜(zong)合(he)比(bi)較(jiao)了ICL和基于真(zhen)实任(ren)務(wu)的顯(xian)式微调的行为,以提(ti)供(gong)支(zhi)持(chi)該(gai)理解的經(jing)验證(zheng)据。

結(jie)果(guo)证明,ICL在预测層(ceng)面(mian)、表征(zheng)层面和注意行为层面的表現(xian)與(yu)显式微调類(lei)似(si)。

此外(wai),受(shou)到元优化理解的啟(qi)发,通过与基于動(dong)量(liang)的梯度下降算(suan)法(fa)的类比,文中還(hai)設(she)計(ji)了一个基于动量的注意力,比普(pu)通的注意力有(you)更好的表现,从另(ling)一个方(fang)面再(zai)次(ci)支持了该理解的正(zheng)確(que)性,也(ye)展(zhan)现了利(li)用该理解对模型做(zuo)进一步(bu)设计的潛(qian)力。

ICL的原理

研究人员首先对Transformer中的線(xian)性注意力機(ji)制(zhi)进行了定(ding)性分(fen)析(xi),以找(zhao)出(chu)它(ta)与基于梯度下降的优化之(zhi)間(jian)的对偶形式。然后将ICL与显式微调进行比较,并在这兩(liang)种优化形式之间建立聯(lian)系(xi)。

Transformer注意力就是元优化

设X是整个query的输入表征,X'是示例的表征,q是查(zha)詢(xun)向(xiang)量,則(ze)在ICL设置(zhi)下,模型中一个head的注意力结果如下:

可以看(kan)到,去除(chu)縮(suo)放因(yin)子(zi)根號(hao)d和softmax后,标準(zhun)的注意力机制可以近(jin)似为:

将Wzsl设为Zero-Shot Learning(ZSL)的初(chu)始参数后,Transformer注意力可以轉(zhuan)为下面的对偶形式:

可以看到,ICL可以被(bei)解释为一个元优化(meta-optimization)的过程(cheng):

1. 将基于Transformer的预训练语言模型作为一个元优化器;

2. 通过正向计算,根据示范樣(yang)例计算元梯度;

3. 通过注意力机制,将元梯度应用于原始语言模型上,建立一个ICL模型。

ICL和微调对比

为了比较ICL的元优化和显式优化,研究人员设计了一个具(ju)體(ti)的微调设置作为比较的基线:考(kao)慮(lv)到ICL只直(zhi)接作用于注意力的key和value,所(suo)以微调也只更新key和value投(tou)影(ying)的参数。

同样在非(fei)嚴(yan)謹(jin)形式下的线性注意力中,微调后的head注意力结果可以被表述(shu)为:

为了与ICL进行更公(gong)平(ping)的比较,实验中进一步将微调设置限(xian)制如下:

1. 将训练例子指(zhi)定为ICL的示范样例;

2. 只对每(mei)个例子进行一步训练,其順(shun)序(xu)与ICL的示范顺序相(xiang)同;

3. 用ICL所用的模板(ban)对每个训练样例进行格(ge)式化,并使(shi)用因果语言建模目(mu)标进行微调。

比较后可以发现,ICL与微调有許(xu)多(duo)共同的屬(shu)性,主(zhu)要包(bao)括(kuo)四(si)个方面。

都(dou)是梯度下降

可以发现ICL和微调都对Wzsl进行了更新,即梯度下降,唯(wei)一的區(qu)別(bie)是,ICL通过正向计算产生元梯度,而finetuning通过反(fan)向傳(chuan)播(bo)獲(huo)得(de)真正的梯度。

相同的训练信(xin)息(xi)

ICL的元梯度是根据示范样例获得的,微调的梯度也是从相同的训练样本中得到的,也就是說(shuo),ICL和微调共享(xiang)相同的训练信息来源(yuan)。

训练样例的因果顺序相同

ICL和微调共享训练样例的因果顺序,ICL用的是decoder-only Transformers,因此示例中的后續(xu)token不會(hui)影響(xiang)到前(qian)面的token;而对于微调,由(you)于训练示例的顺序相同,并且(qie)只训练一个epoch,所以也可以保(bao)证后面的样本对前面的样本没有影响。

都作用于注意力

与zero-shot学习相比,ICL和微调的直接影响都僅(jin)限于注意力中key和value的计算。对于ICL来说,模型参数是不变的,它将示例信息编碼(ma)为額(e)外的key和value以改(gai)变注意力行为;对于微调中引(yin)入的限制,训练信息也只能作用到注意力key和value的投影矩(ju)陣(zhen)中。

基于ICL和微调之间的这些共同特性,研究人员認(ren)为将ICL理解为一种隐性微调是合理的。

实验部(bu)分

任务和数据集(ji)

研究人员選(xuan)擇(ze)了橫(heng)跨(kua)三(san)个分类任务的六(liu)个数据集来对比ICL和微调,包括SST2、SST-5、MR和Subj四个用于情感(gan)分类的数据集;AGNews是一个話(hua)题分类数据集;CB用于自(zi)然语言推(tui)理。

实验设置

模型部分使用了两个类似于GPT的预训练语言模型,由fairseq发布(bu),其参数量分别为1.3B和2.7B.

对于每个任务,使用相同的模板来对ZSL、ICL和微调的样本进行格式化。

结果

准确率(lv)

与ZSL相比,ICL和微调都取(qu)得了相當(dang)大的改进,这意味(wei)著(zhe)它們(men)的优化,对这些下遊(you)任务都有幫(bang)助(zhu)。此外,ICL在少(shao)数情况下比微调更好。

Rec2FTP(Recall to Finetuning Predictions)

GPT模型在六个数据集上的得分结果显示,平均(jun)而言,ICL可以正确预测 87.64%的例子,而微调可以糾(jiu)正ZSL。在预测层面,ICL可以覆(fu)蓋(gai)大部分正确的的行为进行微调。

SimAOU(Similarity of Attention Output Updates)

从结果中可以发现,ICL更新与微调更新的相似度遠(yuan)高(gao)于隨(sui)机更新,也意味着在表示层面上,ICL傾(qing)向于以与微调变化相同的方向改变注意力结果。

SimAM(Similarity of Attention Map)

作为SimAM的基线指标,ZSL SimAM计算了ICL注意力權(quan)重和ZSL注意力权重之间的相似度。通过比较这两个指标,可以觀(guan)察(cha)到,与ZSL相比,ICL更倾向于产生与微调相似的注意力权重。

同样,在注意力行为层面,实验结果证明了ICL的行为与微调相似。

参考資(zi)料(liao):

https://arxiv.org/abs/2212.10559v2返(fan)回(hui)搜(sou)狐(hu),查看更多

責(ze)任编辑:

发布于:湖北荆州洪湖市