公司人员参加广告展会，报名现在开始！

ZAKER新闻

公司人员参加广告展会，报名现在开始！

参考网络资源

在如今互联网发达的时代，我们不难通过网络资源获取到各种各样的信息。在参加广告展会的过程中，我们可以借助网络资源做到更好的准备。

寻找行业相关信息

参加广告展会需要对行业有一定的了解，这可以通过网络平台来获取。例如百度百科、维基百科等网站，经过筛选可以获取到与行业相关的信息。在获取到信息的过程中，最好选择权威的网站，避免出现不准确的情况。

此外，通过社交媒体平台，如微信公众号、LinkedIn等推广、交流，对于扩大个人或公司的人脉、宣传也有着很重要的作用。

查看之前展会的情况

在准备参加广告展会前，了解之前展会的信息也是必不可少的。可以通过之前展会的官方网站或者社交媒体上的资料，对于本届展会的规模、参展者的类型、主题等有一定的预期和了解。对于展位的选择，也可以根据往届展会的情况做出更好的决策。

公司人员参加广告展会的意义

参加广告展会对公司和个人来说都有重要的意义，不同的受众群体也可以从中获取不同的收益。

公司的价值

参加广告展会对于公司来说，是一个展示自身品牌形象的机会。通过展位的设计和陈列，客户能够更好的了解到公司的产品、服务和文化，同时也能够拓宽公司的人脉资源、合作机会，提高公司的市场竞争力。

个人的价值

对于公司员工来说，参加广告展会也是一个个人发展的机会。在展会期间，员工可以通过与客户的交流，提高自己的沟通能力、交际能力等。同时，也可以加深对行业和公司的了解，提高专业素养，为个人的职业发展打下基础。

广告展会参加的准备工作

参加广告展会需要在很多方面做好充分准备，这包括展位设计、产品展示等方面。

展位设计

展位设计是参加广告展会的第一步，需要考虑的因素较多。首先需要根据公司品牌形象选择合适的风格和元素，然后考虑展位的布局、颜色、灯光等方面。同时需要充分考虑展位的实际场地和预期客户的需求，为他们提供一个良好的沟通和展示环境。

产品展示

展示产品是参加广告展会的重要部分，需要注意的因素包括产品的陈列方式、展示效果、文字描述等方面。陈列方式可以根据产品的特点选择，展示效果和文字描述等需要打磨，让产品更加吸引客户的注意力。

参加广告展会后的收获

参加广告展会后，需要对于收获做一个总结和反馈。这对于后续的工作和参加其他展会也有很大的帮助。

汇总数据

参加广告展会后，需要对于招揽的客户、展示的产品、与其他参展商的交流等数据进行汇总和总结。这样有助于分析本次展会的效果和未来的改进方向。

跟进客户

在参加广告展会后，需要跟进招揽的客户，及时回复他们的咨询和需求。这有助于建立长期的客户关系，为公司今后的发展打下基础。

总结归纳

参加广告展会是一个展示品牌形象、开展业务、拓宽人脉等多方面收益的机会。在参加之前，我们需要做好充分准备，包括寻找行业相关信息、查看之前展会的情况等方面。在参加之后，需要对于收获做一个总结和反馈，包括汇总数据、跟进客户等方面。通过这些工作，可以提高公司和员工的竞争力，为今后的发展做好准备。

问答话题

1. 参加广告展会需要做哪些准备工作？

参加广告展会需要做好展位设计、产品展示等方面的准备工作。展位设计需要考虑布局、颜色、灯光等方面，产品展示需要注意产品的陈列方式、展示效果、文字描述等方面。

2. 参加广告展会的收获有哪些？

参加广告展会的收获包括品牌形象的展示、人脉资源的拓宽、业务合作的机会等方面。对于公司员工来说，还包括提高沟通能力、交际能力等个人能力的提升。

3. 如何对参加广告展会后的收获做总结和反馈？

对参加广告展会后的收获，需要对于招揽的客户、展示的产品、与其他参展商的交流等数据进行汇总和总结。同时，还需要跟进招揽的客户，及时回复他们的咨询和需求。

公司人员参加广告展会，报名现在开始！特色

1、稳定的录制声音，音质清晰，流畅不卡顿；

2、华丽技能，畅爽快感

3、逼真音效身临其境

4、各类pvp奖励大幅提高奖励，让您领取欲罢不能;

5、水果忍者高清免费版下载

公司人员参加广告展会，报名现在开始！亮点

1、【海量福利，战个过瘾】

2、能够将查看到的新闻内容直接转发分享给其他朋友查看，没有使用软件的人也能便捷查看动态；

3、各种精致细腻恢弘霸气的场景设定，给你无与伦比的震撼体验!

4、百变随从强力助战

5、自拍贴纸相机的软件介绍就到此为止，本站还有更多精彩又丰富的软件下载，欢迎小伙伴们来尽情畅游！

wendingdeluzhishengyin，yinzhiqingxi，liuchangbukadun；hualijineng，changshuangkuaiganbizhenyinxiaoshenlinqijinggeleipvpjianglidafutigaojiangli，rangninlingquyubabuneng;shuiguorenzhegaoqingmianfeibanxiazaiHinton最(zui)新(xin)研(yan)究(jiu)：神(shen)經(jing)網(wang)絡(luo)的(de)未(wei)來(lai)是(shi)前(qian)向(xiang)-前向算(suan)法(fa)｜NeurIPS 2022特(te)邀(yao)演(yan)講(jiang)

新智(zhi)元(yuan)報(bao)道(dao)

作(zuo)者(zhe)：AI科(ke)技(ji)評(ping)論(lun)（李(li)梅(mei)、黃(huang)楠(nan)）

編(bian)輯(ji)：好(hao)困(kun)

【新智元導(dao)讀(du)】在(zai)未来萬(wan)億(yi)參(can)數(shu)网络只(zhi)消(xiao)耗(hao)幾(ji)瓦(wa)特的新型(xing)硬(ying)件(jian)上(shang)，FF 是最優(you)算法。

過(guo)去(qu)十(shi)年(nian)，深(shen)度(du)學(xue)習(xi)取(qu)得(de)了(le)驚(jing)人(ren)的勝(sheng)利(li)，用(yong)大(da)量(liang)参数和(he)数據(ju)做(zuo)隨(sui)機(ji)梯(ti)度下(xia)降(jiang)的方(fang)法已(yi)经被(bei)證(zheng)明(ming)是有(you)效(xiao)的。而(er)梯度下降使(shi)用的通(tong)常(chang)是反(fan)向傳(chuan)播(bo)算法，所(suo)以(yi)壹(yi)直(zhi)以来，大腦(nao)是否(fou)遵(zun)循(xun)反向传播、是否有其(qi)它(ta)方式(shi)獲(huo)得調(tiao)整(zheng)連(lian)接(jie)權(quan)重(zhong)所需(xu)的梯度等(deng)問(wen)題(ti)都(dou)備(bei)受(shou)關(guan)註(zhu)。

圖(tu)靈(ling)獎(jiang)得主(zhu)、深度学习先(xian)驅(qu) Geoffrey Hinton 作為(wei)反向传播的提(ti)出(chu)者之(zhi)一，在近(jin)年来已经多(duo)次(ci)提出，反向传播並(bing)不(bu)能(neng)解(jie)釋(shi)大脑的運(yun)作方式。相(xiang)反，他(ta)正(zheng)在提出一種(zhong)新的神经网络学习方法——前向-前向算法（Forward?Forward Algorithm，FF）。

在最近的 NeurIPS 2022 大會(hui)上，Hinton 發(fa)表(biao)了题目(mu)为《The Forward-Forward Algorithm for Training Deep Neural Networks》的特邀演讲，论述(shu)了前向算法相比(bi)於(yu)反向算法的优越(yue)性(xing)。论文(wen)的初(chu)稿(gao)《The Forward-Forward Algorithm: Some Preliminary Investigations》已经放(fang)在了其多倫(lun)多大学的主頁(ye)上：

论文地(di)址(zhi)：https://www.cs.toronto.edu/~hinton/FFA13.pdf

與(yu)反向传播算法使用一個(ge)前向传遞(di)+一个反向传递不同(tong)，FF 算法包(bao)含(han)兩(liang)个前向传递，其中(zhong)一个使用正（即(ji)真(zhen)實(shi)）数据，另(ling)一个使用网络本(ben)身(shen)生(sheng)成(cheng)的負(fu)数据。

Hinton 認(ren)为，FF 算法的优點(dian)在于：它能更(geng)好地解释大脑的皮(pi)層(ceng)学习，并且(qie)能以極(ji)低(di)的功(gong)耗模(mo)擬(ni)硬件。

Hinton提倡(chang)應(ying)放棄(qi)軟(ruan)硬件分(fen)離(li)的計(ji)算机形(xing)態(tai)，未来的计算机应被設(she)计为「非(fei)永(yong)生的」（mortal），從(cong)而大大節(jie)省(sheng)计算資(zi)源(yuan)，而FF 算法正是能在這(zhe)种硬件中高(gao)效运行(xing)的最佳(jia)学习方法。

这或(huo)許(xu)正是未来解決(jue)万亿参数級(ji)別(bie)的大模型算力(li)掣(che)肘(zhou)的一个理(li)想(xiang)途(tu)徑(jing)。

FF 算法比反向算法：更能解释大脑、更节能

在 FF 算法中，每(mei)一层都有自(zi)己(ji)的目標(biao)函(han)数，即對(dui)正数据具(ju)有高优度，对负数据具有低优度。层中活(huo)動(dong)平(ping)方和可(ke)用作优度，此(ci)外(wai)還(hai)包括(kuo)了諸(zhu)多其他的可能性，例(li)如(ru)減(jian)去活动平方和等。

如果(guo)可以及(ji)時(shi)分离正负传递，則(ze)负传递可以离線(xian)完(wan)成，正传递的学习也(ye)会更加(jia)簡(jian)單(dan)，并且允(yun)许視(shi)頻(pin)通过网络進(jin)行传輸(shu)，而無(wu)需存(cun)儲(chu)活动或終(zhong)止(zhi)传播导数。

Hinton 认为，FF 算法在两个方面(mian)优于反向传播：

一，FF 是解释大脑皮层学习的更优模型；

二(er)，FF 更加低耗能，它使用极低功耗模拟硬件而不必(bi)求(qiu)助(zhu)于強(qiang)化(hua)学习。

沒(mei)有切(qie)实证据可以证明，皮层传播錯(cuo)誤(wu)导数或存储神经活动是用于後(hou)續(xu)的反向传播。从一个皮层區(qu)域(yu)到(dao)视覺(jiao)通路(lu)中較(jiao)早(zao)的区域自上而下的连接，并不能反映(ying)出在视觉系(xi)統(tong)中使用反向传播时所預(yu)期(qi)的自下而上连接。相反，它們(men)形成了循環(huan)，其中神经活动经过两个区域、大約(yue)六(liu)个皮层，然(ran)后回(hui)到它開(kai)始(shi)的地方。

作为学习序(xu)列(lie)的方式之一，通过时間(jian)的反向传播可信(xin)度并不高。为了在不频繁(fan)暫(zan)停(ting)的情(qing)況(kuang)下處(chu)理感(gan)觉输入(ru)流(liu)，大脑需要(yao)通过感觉来处理的不同階(jie)段(duan)传输数据，并且还需要一个可以即时学习的过程(cheng)。管(guan)道后期表征(zheng)可能会在后续时间裏(li)提供(gong)影(ying)響(xiang)管道早期阶段表征的自上而下的信息(xi)，但(dan)感知(zhi)系统需要实时进行推(tui)理和学习，而非停止进行反向传播。

这當(dang)中，反向传播的另一个嚴(yan)重限(xian)制(zhi)在于，它需要完全(quan)了解前向传播執(zhi)行的计算才(cai)能推出正確(que)的导数。如果我(wo)们在前向传播中插(cha)入一个黑(hei)盒(he)，除(chu)非学习黑盒的可微(wei)分模型，否则反向传播无法执行。

而黑盒不会对 FF 算法的学习过程造(zao)成影响，因(yin)为不需要通过它进行反向传播。

当没有完美(mei)的正向传播模型时，我们可以从多种强化学习方式中入手(shou)。其中的一个想法是，对权重或神经活动进行随机擾(rao)动，并將(jiang)这些(xie)扰动与由(you)此產(chan)生的收(shou)益(yi)函数變(bian)化相关聯(lian)。但由于强化学习中存在高方差(cha)问题：当其他变量同时受到扰动时，很(hen)難(nan)看(kan)到扰动单个变量的效果。为此，要平均(jun)掉(diao)由所有其他扰动引(yin)起(qi)的噪(zao)聲(sheng)，学习率(lv)需要与被扰动的变量数量成反比，这就(jiu)意(yi)味(wei)著(zhe)强化学习的擴(kuo)展(zhan)性很差，无法与包含数百(bai)万或数十亿大型网络的反向传播競(jing)爭(zheng)参数。

而 Hinton 的觀(guan)点是，包含未知非线性的神经网络不需要求助于强化学习。

FF 算法在速(su)度上可与反向传播相媲(pi)美，其优点是可以在前向计算精(jing)确細(xi)节未知的情况下进行使用，还可以在神经网络对順(shun)序数据进行管道处理时进行学习，无需存储神经活动或终止传播误差导数。

不过，在功率受限的应用中，FF 算法还未能取代(dai)反向传播，比如对于在超(chao)大数据集(ji)上訓(xun)練(lian)的超大模型，也还是以反向传播为主。

前向-前向算法

前向-前向算法是一种貪(tan)婪(lan)的多层学习程序，其灵感来自玻(bo)爾(er)茲(zi)曼(man)机和噪声对比估(gu)计。

用两个前向传播代替(ti)反向传播的前向+后向传播，两个前向传播在不同数据和相反目标上，以完全相同的方式彼(bi)此操(cao)作。其中，正向通道对真实数据进行操作，并调整权重以增(zeng)加每个隱(yin)藏(zang)层的好感度，反向通道调整「负数据」权重以减少(shao)每个隐藏层的好感度。

本文探(tan)討(tao)了两种不同的度量标準(zhun)——神经活动的平方之和，以及负活动的平方之和。

假(jia)设某(mou)层的优度函数是該(gai)层中经过整流的线性神经元活动的平方和，学习目的是使其优度遠(yuan)高于真实数据的某个閾(yu)值(zhi)、并远低于负数据的阈值。也即是說(shuo)，在输入向量正确分類(lei)为正数据或负数据时，输入向量为正（即真实）的概(gai)率，可通过将邏(luo)辑函数 σ 应用于优度减去某个阈值 θ：

其中，是层歸(gui)一化前隐藏单元 j 的活动。负数据可由神经网络自上而下连接进行预測(ce)，也可由外部(bu)提供。

使用逐(zhu)层优化函数学习多层表示(shi)

很容(rong)易(yi)看出，可以通过使隐藏单元的活动平方和，对正数据高而对负数据低来学习单个隐藏层。但当第(di)一个隐藏层活动被用作第二个隐藏层的输入时，僅(jin)需適(shi)用第一个隐藏层的活动矢(shi)量長(chang)度，即可区分正负数据，无需学习新的特征。

为防(fang)止这种情况，FF 在将隐藏向量长度作为下一层的输入前，会对其进行归一化，刪(shan)除所有用于确定(ding)第一个隐藏层中的信息，从而迫(po)使下个隐藏层使用第一个隐藏层中神经元的相对活动信息，该相对活动不受层規(gui)範(fan)化的影响。

也即是说，第一个隐藏层的活动向量具备一个长度和一个方向，长度用于定義(yi)该层的良(liang)性，只有方向被传递到下一层。

有关 FF 算法的实驗(yan)

反向传播基(ji)线

文中大部分实验使用了手寫(xie)数字(zi)的 MNIST 数据集：50000 个用于训练，10000 个用于搜(sou)索(suo)良好超参数期间的验证，10000 張(zhang)用于计算测試(shi)错误率。经设计后具有几个隐藏层的卷(juan)積(ji)神经网络可得约 0.6% 的测试误差。

在任(ren)務(wu)「排(pai)列不变」版(ban)本中，神经网络没有得到有关像(xiang)素(su)空(kong)间布(bu)局(ju)的信息，若(ruo)训练开始前，所有训练和测试图像都受相同像素随机变異(yi)影响，那(na)麽(me)神经网络的表現(xian)也会同樣(yang)良好。

对于这个任务「排列不变」版本，帶(dai)有几个全连接隐层的整流线性单元（ReLU）的前饋(kui)神经网络测试误差大约在 1.4%，其中大约需要20个 epochs 来训练。使用各(ge)种正则器(qi)如 dropout（降低训练速度）或标簽(qian)平滑(hua)（加快(kuai)训练速度），可将测试误差降至(zhi) 1.1% 左(zuo)右(you)。此外，还可通过将标签的監(jian)督(du)学习与无监督学习相結(jie)合(he)来进一步(bu)降低测试误差。

在不使用復(fu)雜(za)的正则化器的情况下，任务「排列不变」版本的测试误差为 1.4%，这表明了其学习过程与反向传播一样有效。

图1：用作负数据的混(hun)合图像

无监督 FF 算法

FF 有两个主要问题需要回答(da)：如果有良好的负数据来源，它是否会学习有效的多层表示来捕(bu)获数据结構(gou)？负数据从何(he)而来？

先使用手工(gong)负数据来回答第一个问题。将对比学习用于监督学习任务的常見(jian)方法是，在不使用任何有关标签信息的情况下，将输入向量轉(zhuan)化为表示向量，学习将这些表示向量简单线性变換(huan)为使用的 logits 向量，在 softmax 中用来确定标签的概率分布。盡(jin)管具有明顯(xian)的非线性，但这仍(reng)被稱(cheng)为线性分类器，当中 logits 向量的线性变换学习是有监督的，因不涉(she)及学习任何隐藏层，无需导数的反向传播。FF 可通过使用真实数据向量作为正例、并使用損(sun)壞(huai)的数据向量作为负例来执行该表征学习。

为使 FF 專(zhuan)注表征形狀(zhuang)图像的长期相关性，我们需要創(chuang)建(jian)具有不同长期相关性、但非常相似(si)的短(duan)期相关性的负数据，这可以通过创建一个包含相当大的 1 和 0 区域的掩(yan)碼(ma)来完成。之后通过将一个数字图像与掩码相加，为负数据创建混合图像和一个不同的数字图像来乘(cheng)以掩码的反面（图 1）。

通过随机位(wei)图开始创建蒙(meng)版，在水(shui)平和垂(chui)直方向上使用[1/4, 1/2, 1/4]形式的过濾(lv)器重复模糊(hu)图像，经反复模糊的图像阈值设为 0.5。在使用四(si)个隐藏层（每个隐藏层包含 2000 个 ReLU）训练 100 个 epochs 后，若使用最后三(san)个隐藏层的归一化活动向量作为 softmax 输入，可得到测试误差为1.37%。

此外，不使用完全连接层、而使用局部接受域（没有权重共(gong)享(xiang)）可以提高性能，训练60个epochs的测试误差为1.16%，该架(jia)构使用的「对等归一化」可防止任何隐藏单元极度活躍(yue)或永久(jiu)关閉(bi)。

监督学习 FF 算法

在不使用任何标签信息的情况下学习隐藏表征，对最终可能夠(gou)执行各种任务的大模型来说非常明智：无监督学习提取了一大堆(dui)特征供各任务使用。但如果只对单任务感興(xing)趣(qu)，并想使用一个小(xiao)模型，那么监督学习会更适合。

监督学习中使用 FF 的一种方法是在输入中包含标签，正数据由具有正确标签的图像組(zu)成，而负数据由具有错误标签的图像组成，标签是二者间的唯(wei)一区别，FF 会忽(hu)略(lve)图像中与标签不相关的所有特征。

MNIST 图像中包含有黑色(se)邊(bian)框(kuang)，可减輕(qing)卷积神经网络的工作壓(ya)力。当使用标签的 N 个表征中的一个来替换前 10 个像素时，第一个隐藏层学习內(nei)容也会轻易显现。一个有 4 隐藏层的网络中，每个隐藏层包含 2000 个 ReLU，层与层之间的完全连接在 60 个 epochs 后，经 MNIST 其测试误差为 1.36%，反向传播要達(da)到该测试性能需要大约 20 个 epochs。将 FF 学习率加倍(bei)并训练 40 个 epochs，可得到稍(shao)差的测试误差，为 1.46% 。

使用 FF 训练后，通过从包含测试数字和由 10 个 0.1 條(tiao)目组成的中性标签的输入开始，由网络进行一次前向传递来对测试数字进行分类，之后，除第一个隐藏层外，其他所有隐藏活动用作在训练期间学习的 softmax 输入，这是一种快速次优的图像分类方法。最好的方式是使用特定标签作为输入的一部分来运行网络，并积累(lei)除第一个隐藏层以外的所有层的优点，在分别对每个标签执行此操作后，選(xuan)擇(ze)具有最高累积优度的标签。在训练过程中，来自中性标签的前向传递被用于挑(tiao)选硬负标签，这使得训练需要约? 的 epochs 。

通过每个方向将图像抖(dou)动最多的两个像素用于增加训练数据，从而为每个图像获得 25 种不同的偏(pian)移(yi)，当中使用了像素空间布局的知識(shi)，使其不再(zai)是排列不变的。这种用增强数据训练同个网络 500 个 epochs，测试误差可达到 0.64%，类似于用反向传播训练的卷积神经网络。如图 2，我们也在第一个隐藏层中得到了有趣的局部域。

图 2：在抖动 MNIST 上训练的网络第一个隐藏层中 100 个神经元的局部域，类标签显示在每张图像前 10 个像素中

使用 FF 模拟自上而下的感知效应

目前，所有图像分类案(an)例都使用了一次学习一层的前馈神经网络，这意味着在后面层中学到的東(dong)西(xi)不会影响前面层的学习。这与反向传播相比似乎(hu)是个主要弱(ruo)点，克(ke)服(fu)这种明显限制的关鍵(jian)是，将靜(jing)态图像视为相当无聊(liao)的视频，由多层递归神经网络处理。

FF 对正数据和负数据都在时间上向前运行，但每层活动向量由上一层和下一层在前一个 time-steps 的归一化活动向量确定（图 3）。对这种方法是否有效进行初步檢(jian)查(zha)，可以使用由静态MNIST图像组成的「视频」输入，该图像在每个时间幀(zhen)中简单重复，底(di)层是像素图像，頂(ding)层是数字类的 N 个表征之一，有两个或三个中间层，每层有 2000 个神经元。

在初步实验中，循环网络运行了 10 个 time-steps，每个 time-steps 的偶(ou)数层根(gen)据奇(qi)数层的标准化活动进行更新，奇数层根据新的标准化活动更新，其交(jiao)替更新旨(zhi)在避(bi)免(mian)雙(shuang)相振(zhen)蕩(dang)，但目前似乎并不需要：在有一点阻(zu)尼(ni)的情况下，基于前一个 time-steps 归一化状态，所有隐藏层的同步更新学习效果略好，这对不规则架构而言(yan)是有益的。因此，该处实验使用了同步更新，新的预归一化状态被设置(zhi)为上个预归一化状态的 0.3 ，加上了计算新状态的 0.7。

图 3：用于处理视频的循环网络

如图 3，网络在 MNIST 上训练 60 个 epochs，对每个图像的隐藏层通过一次自下而上传递进行初始化。

此后，网络运行 8 次带有阻尼的同步疊(die)(die)代，通过对 10 个标签中的每个标签运行 8 次迭代，并选择在第 3 到 5 次迭代中平均优度最高的标签来评估网络的测试数据性能，测试误差为 1.31%。负数据通过网络一次前向传递以获得所有类别的概率，根据概率按(an)比例在不正确的类别间进行选择生成，从而提高训练效率。

使用空间上下文的预测

循环网络中，其目标是令(ling)正数据的上层输入和下层的输入间保(bao)持(chi)良好的一致(zhi)性，而负数据的一致性不好。具有空间局部连通性的网络中具备一个理想的屬(shu)性：自上而下的输入将由图像更大的区域决定，并且有更多处理阶段的结果，因此它可以被视为对图像的上下文预测，也即是基于图像局部域自下而上的输入所应产出的结果。

如果输入随时间变化，自上而下的输入会基于较舊(jiu)的输入数据，因此必須(xu)学习预测自下而上输入的表征。当我们反转目标函数的符(fu)號(hao)，并針(zhen)对正数据进行低平方活动，自上而下的输入应学会抵(di)消正数据的自下而上输入，这样看来与预测编码十分相似。层规范化意味着即使取消工作得很好，大量信息也会被发送(song)到下一层，如果所有预测误差都很小，则会被归一化放大。

使用上下文预测作为局部特征并提取教(jiao)学信号学习的想法长期存在，但难点在于，如何在使用空间上下文、而非单側(ce)时间上下文的神经网络中工作。使用自上而下和自下而上输入的共识作为自上而下和自下而上权重的教学信号，这种方法明显会导致崩(beng)潰(kui)，而使用其他图像的上下文预测来创建负数对的问题也没有完全解决。其中，使用负数据而不是任何负内部表征似乎是关键。

CIFAR-10 数据集测试

Hinton 接着在 CIFAR?10 数据集上测试了 FF 算法的性能，证明了 FF 训练出的网络在性能上能够媲美反向传播。

该数据集有 50,000 张 32x32 的训练图像，每个像素具有三个顏(yan)色通道，因此，每个图像都有 3072 个維(wei)度。由于这些图像的背(bei)景(jing)复杂且高度可变，并且在训练数据很有限的情况下无法很好地建模，除非隐藏层非常小，否则包含两到三个隐藏层的全连接网络在使用反向传播进行训练时会严重过拟合，因此，目前几乎所有研究的结果都是针对卷积网络的。

反向传播和 FF 都是用权重衰(shuai)减来减少过拟合，Hinton 对两种方法训练的网络性能进行了比较。对于 FF 训练的网络，测试方法是使用单个前向传播，或者讓(rang)网络对图像和 10 个标签中的每一个运行 10 次迭代，并在第 4 到 6 次迭代中累积标签的能量（即当基于优度的错误最低时）。

结果，雖(sui)然 FF 的测试性能比反向传播差，但只稍微差了一点。同时，二者间的差距(ju)不会随着隐藏层的增加而增加。不过，反向传播可以更快地减少训练误差。

另外，在序列学习上，Hinton 也通过预测序列中下一个字符的任务证明了用 FF 训练的网络比反向传播更好。用 FF 训练的网络可以生成自己的负数据，更符合生物(wu)学。

FF 算法与玻尔兹曼机、GAN、SimCLR 的关系

Hinton 进一步将 FF 算法与其他已有的对比学习方法做了对比。他的结论是：

FF 是对玻尔兹曼机和简单的局部优度函数的结合；

FF 不需要反向传播来学习判(pan)别模型和生成模型，因此是 GAN 的一个特例；

在真实的神经网络中，与 SimCLR 这类自监督对比方法相比，FF 能够更好地衡(heng)量两种不同表示之间的一致性。

FF 吸(xi)收了玻尔兹曼机的对比学习

在 20 世(shi)紀(ji) 80 年代初期，深度神经网络有两种最被看好的学习方法，一个是反向传播，另一个便(bian)是做无监督对比学习的玻尔兹曼机（Boltzmann Machines）。

玻尔兹曼机是一个随机二元神经元网络，具有成对连接，在两个方向上具有相同的权重。当它在没有外部输入的情况下自由运行时，玻尔兹曼机通过将其设置为开啟(qi)状态来重复更新每个二元神经元，其概率等于它从其他活动神经元接收到的總(zong)输入的逻辑。这个简单的更新过程最终从平衡分布中采(cai)样，其中每个全局配(pei)置（将二进制状态分配給(gei)所有神经元）具有与其负能量成比例的对数概率。负能量只是该配置中所有神经元对之间权重的总和。

玻尔兹曼机中的神经元子(zi)集是「可见的」，二进制数据向量通过将它们夾(jia)在可见神经元上呈(cheng)现给网络，然后让它重复更新其余(yu)隐藏神经元的状态。玻尔兹曼机器学习的目的是使网络运行时可见神经元上二元向量的分布与数据分布自由匹(pi)配。

最令人惊訝(ya)的是，自由运行的玻尔兹曼机在熱(re)平衡时，可见神经元上显示的数据分布和模型分布之间的 Kullback-Liebler 散(san)度具有一个非常简单的导数（对于任何权重）：

其中尖(jian)括号表示对热平衡时随机波(bo)动的期望(wang)以及第一項(xiang)的数据。

这个结果令人兴奮(fen)的地方在于，它给出了网络深处权重的导数，而无需显式传播误差导数。它在清(qing)醒(xing)和睡(shui)眠(mian)两个不同阶段传播神经活动。

但是，要在数学上使得学习规则最够简潔(jie)，代價(jia)会非常高。它需要一个深度玻尔兹曼机来接近其平衡分布，那么它就无法作为一种切合实際(ji)的机器学习技術(shu)，作为一种皮层学习模型也不可信：因为大型网络在感知过程中没有时间接近其平衡分布。而且，没有证据表明皮层连接的詳(xiang)细对称性，也没有明显的方法来学习序列。此外，如果权重的许多正更新后跟(gen)随着大量负更新，且负阶段对应于快速眼(yan)动睡眠，那玻尔兹曼机器学习程序就会失(shi)敗(bai)。

但尽管存在以上缺(que)点，玻尔兹曼机仍是一种很聰(cong)明的学习方法，因为它用两个工作原(yuan)理相同但在可见神经元上具有不同边界(jie)条件的迭代设置（即限制在数据上 vs. 不予(yu)限制），取代了反向传播的前向和后向传递。

玻尔兹曼机可以看作是两种思(si)想的结合：

通过最小化真实数据上的自由能（free energy）和最大化负数据上的自由能来学习网络本身产生的数据。

使用 Hopfield 能量作为能量函数，并使用重复随机更新从能量函数定义的玻尔兹曼分布中采样全局配置。

第一种关于对比学习的思路可以与许多其他能量函数一起使用。例如，使用前馈神经网络的输出来定义能量，然后通过该网络使用反向传播来计算能量对权重和可见状态的导数。然后通过跟蹤(zong)能量对可见状态的导数来生成负数据。另外，负数据不必通过从能量函数定义的玻尔兹曼分布中采样数据向量来产生，不从均衡分布中采样，也能提高具有单个隐藏层的玻尔兹曼机的学习效率。

在 Hinton 看来，等式 2 的数学简洁性以及随机更新过程对所有可能的隐藏配置做貝(bei)葉(ye)斯(si)积分，这个过程实在非常优雅(ya)，所以，用只需要传播神经活动的两个解决方案来代替反向传播的前向+反向传播这种想法，仍然与馬(ma)尔可夫(fu)鏈(lian)蒙特卡(ka)羅(luo)（Markov Chain Monte Carlo）的复杂性糾(jiu)纏(chan)在一起。

简单的局部优度函数比二元随机神经元网络的自由能更易于处理， FF 则对玻尔兹曼机的对比学习与这种函数做了结合。

FF 是 GAN 的特例

GAN（生成对抗(kang)网络）使用多层神经网络生成数据，并使用多层判别网络来训练其生成模型，使其相对于生成模型输出给出导数，且该导数是真实数据而非生成数据的概率

GAN 很难训练，因为判别模型和生成模型相互(hu)对抗。GAN 能生成非常漂(piao)亮(liang)的图像，但会遭(zao)受模式崩溃的困扰：可能会存在大片(pian)从不生成示例的图像空间区域。而且它使用反向传播来适应每个网络，因此我们很难看出如何在皮質(zhi)中实现它们。

FF 可以看作是 GAN 的一个特例，其中判别网络的每个隐藏层对输入的正负都会自己做贪心(xin)决策(ce)，因此不需要反向传播来学习判别模型和生成模型，因为它不是学习自己的隐藏表示，而是重用判别模型学习的表示。

生成模型唯一需要学习的是如何将这些隐藏的表示转换为生成的数据，如果使用线性变换来计算 softmax 的对数，则不需要反向传播。对两个模型使用相同的隐藏表示的一个优点，是它消除了当一个模型相对于另一个模型学习太(tai)快时出现的问题，还避免了模式崩溃。

FF 比 SimCLR 更容易衡量一致性

像 SimCLR 这类自监督对比方法，是通过优化一个目标函数来学习，该函数能够支(zhi)持对同一图像的两种不同剪(jian)裁(cai)的表示之间的一致性，以及来自两幅(fu)不同图像的剪裁的表示之间的不一致性。

这类方法通常使用许多层来提取剪裁的表示，并通过反向传播目标函数的导数来训练这些层。如果两种剪裁总是以完全相同的方式重叠，它们就不起作用，因为这样它们就可以简单地报告(gao)共享像素的强度并获得完美的一致性。

但在真实的神经网络中，测量两个不同表示之间的一致性并非易事(shi)，且没辦(ban)法使用相同的权重同时提取两种剪裁的表示。

而 FF 使用不同的方式来衡量一致性，这对于真实的神经网络来说似乎更容易。

许多不同的信息来源为同一组神经元提供输入。如果来源就激(ji)活哪(na)些神经元达成一致，将产生正幹(gan)扰，从而导致高平方活动，如果它们有分歧(qi)，则平方活动将降低。通过使用正干扰来测量一致性比比较两个不同的表示向量要灵活得多，因为不需要将输入任意分成两个单獨(du)的源。

SimCLR 这类方法的一个主要弱点是大量计算用于推导两个图像裁剪的表示，但目标函数仅对表示提供适度的约束(shu)，这限制了有关域的信息的速率可以注入权重。为了使剪裁的表示更接近其正确的配对而非替代品(pin)，只需要 20 比特信息。FF 的问题更严重，因为它只需要 1 比特来区分正例和负例。

解决这种约束貧(pin)乏(fa)的方法是将每一层分成许多小塊(kuai)，并强制每个块分别使用其预归一化活动向量的长度来决定正例和负例。然后，滿(man)足(zu)约束所需的信息随块数线性縮(suo)放，这比在类似 SimCLR 的方法中使用更大的对比度集实现的对数缩放要好得多。

堆棧(zhan)对比学习存在的问题

学习多层表示的一种无监督方法，是首(shou)先学习一个隐藏层，该隐藏层捕获数据中的某些结构，然后将该层中的活动向量视为数据、并再次应用相同的无监督学习算法。这就是使用受限玻尔兹曼机 (RBM)或堆栈自编码器（stacked autoencoder）学习多层表示的方式。

但它有一个致命(ming)的缺陷(xian)。假设我们通过随机权重矩(ju)陣(zhen)映射(she)一些随机噪声图像。生成的活动向量将具有由权重矩阵创建的相关结构，与数据无关。当将无监督学习应用于这些活动向量时，它会发现其中的一些结构，但这不会告訴(su)系统任何关于外部世界的信息。

最初的玻尔兹曼机器学习算法旨在通过对比由两种不同外部边界条件引起的统计数据来避免此缺陷。这抵消了所有只是网络其他部分的结果的结构。在对比正负数据时，无需限制布线，也不要求剪裁之间具有随机空间关系以防止网络作弊(bi)。这样便很容易获得大量相互连接的神经元组，每个神经元组都有自己的目标即区分正数据和负数据。

在未来非永生计算机上，FF 是最佳学习算法

Mortal Computation 是 Hinton 近期的重要观点之一（注：该术語(yu)尚(shang)未有公(gong)认的中文翻(fan)譯(yi)，暂译为「非永生计算」）。

他指(zhi)出，目前的通用数字计算机被设计为忠(zhong)实地遵循指令，人们认为让通用计算机执行特定任务的唯一方法，就是编写一个程序，以极其详细的方式准确指定要做的事。

主流的想法仍然是堅(jian)持软件应该与硬件分离，以便相同的程序或相同的权重集可以在硬件的不同物理副(fu)本上运行。这就会使得程序或权重中包含的知识变得「不朽(xiu)」：即硬件死(si)亡(wang)时，知识不会随之消亡。

但这已经不再成立(li)，研究界还未充(chong)分理解深度学习对计算机构建方式的长期影响。

软件与硬件的分离是计算机科学的基礎(chu)之一，它的确带来了很多好处，如可以研究程序的特性而不必关心電(dian)氣(qi)工程，而且它使得编写一次程序、并将其复制到数百万臺(tai)计算机成为可能。但 Hinton 指出：

如果我们願(yuan)意放弃这种「不朽」，就可以大大节省执行计算所需的能量以及制造执行计算的硬件的成本。

这样一来，执行相同任务的不同硬件实例在连接性和非线性上就有可能发生较大的变化，并从学习过程中发现有效利用每个特定实例的未知属性的参数值硬件。这些参数值仅对特定的硬件实例有用，因此它们执行的计算是并非不朽，而是会随硬件一起消亡。

将参数值复制到工作方式不同的不同硬件本身的确没有任何意义，但我们可以用一种更生物学的方法可以将一个硬件学到的东西转移到另一个硬件。对于图像中对象(xiang)分类这样的任务，我们真正感兴趣的是将像素强度与类标签相关联的函数，而不是在特定硬件中实现该函数的参数值。

函数本身可以通过使用蒸(zheng)餾(liu)转移到不同的硬件：训练新硬件不仅给出与旧硬件相同的答案，而且输出相同的概率对于不正确的答案。这些概率更豐(feng)富(fu)地表明了旧模型如何概括，而不仅仅是它认为最有可能的标签。因此，通过训练新模型来匹配错误答案的概率，我们正在训练它以与旧模型相同的方式进行概括。这样的神经网络训练实际上优化了泛(fan)化性，这个例子十分罕(han)见。

如果想让一个万亿参数神经网络只消耗几瓦特，非永生计算可能是唯一的选择。它的可行性取决于，我们能否找(zhao)到一种可以在精确细节未知的硬件中高效运行的学习过程，在 Hinton 看来，FF 算法就是一个很有前途的方案，只是它在扩展到大型神经网络时的表现还有待(dai)观察(cha)。

论文最后，Hinton 指出了以下懸(xuan)而未决的问题：

FF 能否生成足够好的图像或视频生成模型来创建无监督学习所需要的负数据？

如果负向传递在睡眠期间完成，正向和负向传递能否可以在时间上非常廣(guang)泛地区分开来？

如果负相位被消除了一段时间，其效果是否与严重睡眠剝(bo)奪(duo)的破(po)坏性影响相似？

使用什(shen)么哪种 goodness 函数最好？本文在大多数实验中使用活动平方和，但最小化正数据的活动平方和和最大化负数据的活动平方和似乎效果稍好一些。

最好使用哪种激活函数？目前只研究了 ReLU。使激活成为 t 分布下密(mi)度的负对数是一种可能性。

对于空间数据，FF 是否可以从图像不同区域的大量局部优化函数中获益？如果可行，就能加快学习速度。

对于顺序数据，是否可以使用快速权重来模拟简化的转换器?

一组试图最大化其平方活动的特征检测器和一组试图最小化其平方活动的约束違(wei)反检测器，能否支持 FF？

本文经授(shou)权转載(zai)自微信公眾(zhong)号「AI科技评论」（ID：aitechtalk）返(fan)回搜狐(hu)，查看更多

責(ze)任编辑：