深圳广告人年会，创意盛宴！

深圳广告人年会，创意盛宴

深圳广告人年会是年度最重要的盛会之一，它吸引了来自各行各业的广告从业者，为他们提供了一个交流学习的机会。在这个创意盛宴上，你将会看到最新的广告技术、品牌策略和市场趋势。

一年一度的深圳广告人年会将于2022年1月在深圳会展中心举办。这个盛大的活动将汇集来自全国各地的广告公司、品牌和广告从业者。这是一个展示最新广告趋势与创意的机会，可以让你掌握更多的知识和技能。

大师分享

深圳广告人年会为从业者提供了一个学习和分享的平台。在此期间，你可以与一些行业的大师亲密接触，了解他们的专业知识和经验。此外，还将举办一系列主题演讲和研讨会，就包括社交媒体和移动应用的趋势、品牌管理、数字营销、技术和创意等。从这些大师的分享中，你可以得到关于如何创意与创新的宝贵建议。

洽谈会和互动环节

除了大师分享，深圳广告人年会还将提供互动环节和洽谈会。在这个互动环节中，你将有机会结识更多广告从业者，他们来自不同的领域。这种机会让你可以建立自己的业务关系并交换经验。洽谈会为广告人提供了一个展示自己公司和业务的机会，这是一个商机的聚集地。这也是一个很好的机会，可以展示你的专业能力和创新思维，并与一些重要的客户洽谈业务。

结论

在本次深圳广告人年会上，你将会有很多的机会可以展示自己的技能和思维方式。在这个创意盛宴中，你可以与行业的大师和广告从业者分享，学习并建立更多的业务关系。此外，你还可以参加在洽谈会上展示自己公司和业务的机会。深圳广告人年会是你提升自己职业水平的机会，也是你了解最新市场趋势和品牌策略的机会。

深圳广告人年会，创意盛宴！特色

1、线上订货，线下独家物流配送，考虑到部分药品保存的特殊性，保证药品的效果。

2、万人联网在线超越经典

3、各种简历模板让你随意在线切换，拥有超级专业的智能排版功能。

4、这里有无网络查询，提供最少换乘和最短线路两个查询结果，了解贵阳市轨道交通最新公告

5、安全和隐私保障仅提供抓取红包功能，不涉及用户隐私的支付和钱包功能

深圳广告人年会，创意盛宴！亮点

1、所有设备，一网打尽：支持所有具备DLNAAirPlay协议的设备;

2、武器众多威力很强，精准的射击一击爆头与队友合作轻松的取胜比较的过瘾。

3、超级耐用的消除游戏，无需连接互联网，您可以随时随地加入。

4、客栈模式：体力不支时记得回村好好休息，请不要忘记你是全村的希望

5、逃脱者手游下载

xianshangdinghuo，xianxiadujiawuliupeisong，kaolvdaobufenyaopinbaocundeteshuxing，baozhengyaopindexiaoguo。wanrenlianwangzaixianchaoyuejingdiangezhongjianlimobanrangnisuiyizaixianqiehuan，yongyouchaojizhuanyedezhinengpaibangongneng。zheliyouwuwangluozhaxun，tigongzuishaohuanchenghezuiduanxianlulianggezhaxunjieguo，lejieguiyangshiguidaojiaotongzuixingonggaoanquanheyinsibaozhangjintigongzhuaquhongbaogongneng，bushejiyonghuyinsidezhifuheqianbaogongneng強(qiang)化(hua)學(xue)習(xi)也(ye)有(you)基(ji)礎(chu)模(mo)型(xing)了(le)！DeepMind重(zhong)磅(bang)發(fa)布(bu)AdA，堪(kan)比(bi)人(ren)類(lei)的(de)新(xin)環(huan)境(jing)適(shi)應(ying)能(neng)力(li)

新智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：LRS

【新智元導(dao)讀(du)】强化学习也要(yao)進(jin)入(ru)預(yu)訓(xun)練(lian)時(shi)代(dai)了！

基础模型（foundation models）在(zai)監(jian)督(du)和(he)自(zi)监督学习問(wen)題(ti)上(shang)展(zhan)現(xian)出(chu)强大(da)的領(ling)域(yu)适应性(xing)（adaption）和可(ke)擴(kuo)展性（scalability），但(dan)强化学习领域仍(reng)然(ran)沒(mei)有基础模型。

最(zui)近(jin)DeepMind的Adaptive Agents團(tuan)隊(dui)提(ti)出了壹(yi)種(zhong)人-时間(jian)尺(chi)度(du)（human-timescale）自适应智能體(ti)AdA（Adaptive Agent），證(zheng)明(ming)經(jing)過(guo)大規(gui)模训练後(hou)的RL智能体也能具(ju)有通(tong)用(yong)上下(xia)文(wen)的学习能力，該(gai)算(suan)法(fa)可以(yi)像(xiang)人一樣(yang)快(kuai)速(su)适应開(kai)放(fang)式(shi)的具身(shen)3D问题。

論(lun)文鏈(lian)接(jie)：https://arxiv.org/abs/2301.07608

在一個(ge)巨(ju)大的動(dong)態(tai)空(kong)间环境中(zhong)，自适应智能体展现出即(ji)时的假(jia)設(she)驅(qu)动的探(tan)索(suo)，能夠(gou)有效(xiao)地(di)利(li)用獲(huo)得(de)的知(zhi)識(shi)，而(er)且(qie)可以接受(shou)第(di)一人稱(cheng)演(yan)示(shi)作(zuo)為(wei)提示（prompt）。

研(yan)究(jiu)人員(yuan)認(ren)为其(qi)适应性主(zhu)要來(lai)源(yuan)於(yu)三(san)个因(yin)素(su)：

1. 在一个巨大的、平(ping)滑(hua)的和多(duo)样化的任(ren)務(wu)分(fen)布中进行(xing)元强化学习；

2. 一个參(can)數(shu)化的、基于註(zhu)意(yi)力的大规模記(ji)憶(yi)結(jie)構(gou)的策(ce)略(lve)；

3. 一个有效的自动curriculum，在代理(li)能力的前(qian)沿(yan)對(dui)任务进行優(you)先(xian)排(pai)序(xu)。

實(shi)驗(yan)部(bu)分展示了與(yu)網(wang)絡(luo)规模、记忆長(chang)度和训练任务分布的豐(feng)富(fu)程(cheng)度有關(guan)的特(te)征(zheng)性扩展规律(lv)；研究人员认为该结果(guo)为日(ri)益(yi)普(pu)遍(bian)和适应性强的RL智能体奠(dian)定(ding)了基础，智能体在开放领域环境仍然表(biao)现良(liang)好(hao)。

RL基础模型

人类往(wang)往能够在幾(ji)分鐘(zhong)內(nei)适应一个新的环境，這(zhe)是(shi)体现人类智能的一个关鍵(jian)特性，同(tong)时也是通往通用人工(gong)智能道路(lu)上的一个重要節(jie)點(dian)。

不(bu)管(guan)是何(he)种層(ceng)次(ci)的有界(jie)理性（bounded retionality），都(dou)存(cun)在一个任务空间，在这个空间中，智能体無(wu)法以zero-shot的方(fang)式泛(fan)化其策略；但如(ru)果智能体能够非(fei)常(chang)快速地從(cong)反(fan)饋(kui)中学习，那(na)麽(me)就(jiu)可能取(qu)得性能提升(sheng)。

为了在现实世(shi)界中以及(ji)在与人类的互(hu)动中发揮(hui)作用，人工智能体应该能够在「几次互动」中进行快速且靈(ling)活(huo)的适应，並(bing)且应该在可用数據(ju)量(liang)提升时繼(ji)續(xu)适应。

具体来說(shuo)，研究人员希(xi)望(wang)训练出的智能体在測(ce)試(shi)时，只(zhi)需(xu)要在一个未(wei)見(jian)过的环境中給(gei)定几个episode的数据，就能完(wan)成(cheng)一个需要试錯(cuo)探索的任务，并能隨(sui)后將(jiang)其解(jie)決(jue)方案(an)完善(shan)为最佳(jia)的行为。

元强化学习（Meta-RL）已(yi)经被(bei)证明对快速的語(yu)境适应是有效的，然而，不过元RL在獎(jiang)勵(li)稀(xi)疏(shu)、任务空间巨大且多样化的环境中作用有限(xian)。

这項(xiang)工作为训练RL基础模型鋪(pu)平了道路；也就是说，一个已经在龐(pang)大的任务分布上进行了预训练的智能体，在测试时，它(ta)能以few-shot的方式适应廣(guang)泛的下遊(you)任务。

自适应智能体（AdA）能够在具有稀疏奖励的巨大开放式任务空间中进行人类时间尺度适应，不需要任何提示、微(wei)調(tiao)或(huo)訪(fang)问離(li)線(xian)数据集(ji)。

相(xiang)反，AdA表现出假设驱动的探索行为，利用即时获得的信(xin)息(xi)来完善其策略，能够有效地获取知识，在第一人称像素觀(guan)察(cha)的部分可观察的三維(wei)环境中，在几分钟内适应奖励稀疏的任务。

自适应智能体Ada

研究人员提出了一种基于记忆的元RL通用和可扩展的方法以生(sheng)成自适应智能体（AdA）

首(shou)先在XLand 2.0中训练和测试AdA，该环境支(zhi)持(chi)按(an)程序生成不同的三维世界和多人游戲(xi)，具有丰富的动态性，需要智能体擁(yong)有足(zu)够的适应性。

该训练方法结合(he)了三个关键部分：1）指(zhi)导智能体学习的課(ke)程（curriculum）；2）基于模型的RL算法来训练具有大规模注意力记忆的代理；以及，3）蒸(zheng)餾(liu)以实现扩展。

1. 开放端(duan)任务空间：XLand 2.0

XLand 2.0相比XLand 1.0扩展了生產(chan)规則(ze)的系(xi)統(tong)，其中每(mei)條(tiao)规则都表達(da)了一个額(e)外(wai)的环境动态，从而具有更(geng)丰富、更多样化的不同过渡(du)功(gong)能。

XLand 2.0是一个巨大的、平滑的、多样化的适应问题的任务空间，不同的任务有不同的适应性要求(qiu)，如实验、工具用法或分工等(deng)。

例(li)如，在一个需要实验的任务中，玩(wan)家(jia)可能需要识別(bie)哪(na)些(xie)物(wu)体可以有用地结合，避(bi)免(mian)死(si)胡(hu)同，然后优化他(ta)們(men)结合物体的方式，就像一个玩具版(ban)的实验化学。

每个任务可以进行一次或多次试验，试验之(zhi)间的环境會(hui)被重置(zhi)，但智能体记忆不会被重置。

上圖(tu)中突(tu)出顯(xian)示的是兩(liang)个示例任务，即「Wrong Pair Disappears」和「Pass Over Wall Repeatedly」，展示了目(mu)標(biao)、初(chu)始(shi)物体、生产规则以及智能体需要如何与它们互动以解决任务。

2. 元强化学习

根(gen)据黑(hei)箱(xiang)元RL问题的设置，研究人员将任务空间定義(yi)为一組(zu)部分可观察的馬(ma)爾(er)科(ke)夫(fu)决策过程（POMDPs）。

对于一个给定的任务，试验的定义为从初始狀(zhuang)态到(dao)終(zhong)端状态的任意轉(zhuan)換(huan)序列(lie)。

在XLand中，當(dang)且僅(jin)当某(mou)个时间段(duan)??∈[10s, 40s]已经过去(qu)时，任务才(cai)会终止(zhi)，每个任务都有具体规定。环境以每秒(miao)30幀(zhen)的速度變(bian)化，智能体每4帧观察一次，因此(ci)任务长度以时间为單(dan)位(wei)，範(fan)圍(wei)为[75, 300]。

一个episode由(you)一个给定任务的试验序列组成。在试验邊(bian)界，任务被重置到一个初始状态。

在领域内，初始状态是確(que)定的，除(chu)了智能体的旋(xuan)转，它是统一随機(ji)抽(chou)样的。

在黑箱元RL训练中，智能体利用与广泛分布的任务互动的经验来更新其神(shen)经网络的参数，该网络在给定的状态观察中智能体的行动政(zheng)策分布提供(gong)参数。

如果一个智能体拥有动态的内部状态（记忆），那么元RL训练通过利用重復(fu)试验的结构，賦(fu)予(yu)该记忆以隱(yin)性的在线学习算法。

在测试时，这种在线学习算法使(shi)智能体能够适应其策略，而无需进一步(bu)更新神经网络權(quan)重，也就是说，智能体的记忆不是在试验边界被重置，而是在episode边界被重置。

3. 自动课程学习（Auto-curriculum learning）

鑒(jian)于预采(cai)样任务池(chi)的广度和多样性，智能体很(hen)難(nan)用均(jun)勻(yun)采样进行有效地学习：大多数随机采样的任务可能会太(tai)难（或太容(rong)易(yi)），无法对智能体的学习进度有所(suo)幫(bang)助(zhu)。

相反，研究人员使用自动化的方法在智能体能力的前沿選(xuan)擇(ze)相对「有趣(qu) 」（interesting）的任务，类似(si)于人类认知发展中的「近側(ce)发展區(qu)间」（zone of proximal development）。

具体方法为对现有技(ji)術(shu)中的no-op filtering和prioritised level replay（PLR）进行扩展，能够極(ji)大提升智能体的性能和采样效率(lv)，最终成为了一个新興(xing)的课程，能够随著(zhe)时间的推(tui)移(yi)选择越(yue)来越复雜(za)的任务。

4. RL智能体

学习算法

RL算法选择Mueslie，輸(shu)入为一个歷(li)史(shi)相关的编碼(ma)（history-dependent encoding），输出为RNN或Transformer，AdA学习一个序列模型（LSTM）对后续多步预测價(jia)值(zhi)、行动分布和奖励。

记忆架(jia)构

在每个时间步，将像素观察、目标、手(shou)、试验和时间信息、生成规则、之前的行动和奖励嵌(qian)入化并合并为一个向(xiang)量。

这些观察嵌入順(shun)序输入到Transformer-XL中，其输出嵌入输入到MLP价值頭(tou)、MLP策略头和Muesli LSTM模型步、

不止few-shot

通过对Transformer-XL架构做(zuo)了一个簡(jian)单的修(xiu)改(gai)，就可以在不增(zeng)加(jia)計(ji)算成本(ben)的情(qing)況(kuang)下增加有效的记忆长度。

由于在視(shi)覺(jiao)RL环境中的观察往往与时间高(gao)度相关，所以研究人员提出对序列进行子(zi)采样。为了确保(bao)在子采样点之间的观察仍然可以被关注到，使用一个RNN对整(zheng)个軌(gui)跡(ji)进行编码，可以總(zong)结每一步的最近历史。

结果表明，额外的RNN编码并不影(ying)響(xiang)模型中Transformer-XL变体的性能，但能够保持更遠(yuan)的记忆。

5. 蒸馏

对于训练的前40億(yi)步，研究人员使用一个额外的蒸馏損(sun)失(shi)用预训练教(jiao)師(shi)模型的策略来指导AdA的学习，整个过程也称之为kickstarting

教师模型通过强化学习从头开始进行预训练，使用与AdA相同的训练程序和超(chao)参数，但教师模型没有初始蒸馏，并且具有較(jiao)小(xiao)的模型规模：教师模型只有2300萬(wan)Transformer参数，而多智能体AdA拥有2.65亿参数。

在蒸馏过程中，AdA根据自己(ji)的策略行动，教师模型根据AdA观察到的轨迹提供目标Logits；使用蒸馏可以攤(tan)銷(xiao)昂(ang)貴(gui)的初始训练期(qi)，并使智能体能够消(xiao)除在训练的初始階(jie)段学到的有害(hai)表征。

然后将蒸馏损失与Muesli结合起(qi)来，最小化模型预测的所有行动概(gai)率与教师策略在相应时间段预测的行动概率之间的KL-散(san)度。

研究人员還(hai)发现了一个有用的小操(cao)作，可以在蒸馏期间添(tian)加一个额外的L2正(zheng)则化项。

参考(kao)資(zi)料(liao)：

https://arxiv.org/abs/2301.07608返(fan)回(hui)搜(sou)狐(hu)，查(zha)看(kan)更多

責(ze)任编辑：