常州哪些商场内led广告大屏

常州商场广告大屏——打造城市现代化视觉体验

如今,随着城市发展,广告大屏已成为城市现代化的重要标志之一。常州商场内的LED广告大屏便是其中之一,它不仅能够为商场增添现代感和时尚感,还能够为商场带来更多的商机和客流量。

常州商场内LED广告大屏不仅数量众多,而且规模宏大,每个广告大屏都可以上万人次的流量,真正实现了商场广告的“无死角”覆盖。此外,广告大屏的显示效果也非常突出,可以为商家带来更多的视觉冲击力和品牌曝光率。

常州商场LED广告大屏

广告大屏也是商场内的重要信息发布渠道之一。商场可以在广告大屏上发布各种公告、商品信息等,为顾客提供更多的便利和服务。同时,商家也可以在广告大屏上投放广告,吸引更多的目光和客流量。

总之,常州商场内的LED广告大屏不仅是商场现代化的标志,也是商家宣传的有效手段,它的出现将为商场带来更多的商机和客流量,为城市的现代化建设做出贡献。

LED广告大屏的优势

与传统广告媒体相比,LED广告大屏具有许多优势。首先,LED广告大屏的图像分辨率高,可以清晰地显示各种信息,从而吸引更多的目光。其次,LED广告大屏的亮度高,可以在各种光线环境下都有良好的显示效果。此外,LED广告大屏的寿命长,耐用性强,可以持续使用多年。最后,LED广告大屏可以实现远程控制和更新,方便快捷,降低了维护成本。

LED广告大屏的优势

以上优势使LED广告大屏成为商家宣传和信息发布的首选媒体,也成为城市现代化建设的重要标志之一。随着技术的不断进步,相信LED广告大屏的应用范围和市场需求还会不断扩大。

常州商场LED广告大屏的未来发展

随着市场的竞争日益激烈,常州商场LED广告大屏的未来发展将面临许多挑战和机遇。为了保持竞争优势,商场需要不断提升广告大屏的显示效果和信息发布能力,以满足顾客和商家的需求。

LED广告大屏的应用

与此同时,商场也需要不断创新,开发更多的商业模式和服务,以吸引更多的客流量和商家入驻。只有在不断创新和优化的过程中,才能够保持竞争力,并在激烈的市场竞争中脱颖而出。

总之,常州商场内的LED广告大屏是商场现代化建设的重要标志,也是商家品牌宣传和信息发布的重要媒体。随着市场的发展和需求的变化,相信广告大屏也将不断创新和优化,为商家和顾客带来更多的便利和服务。

结论

常州商场内的LED广告大屏是商场现代化建设的重要标志之一,它不仅能够为商场增添现代感和时尚感,还能够为商家带来更多的商机和客流量。与传统广告媒体相比,LED广告大屏具有许多优势,包括高清晰度、高亮度、耐用性强等。未来,商场需要不断创新和优化广告大屏,以适应市场的需求和变化,实现更好的商业效益和社会效益。

常州哪些商场内led广告大屏特色

1、游戏拥有四十多个任务,二十多个情节,全部情节用动画展示哦。

2、数量庞大有挑战的精英敌人

3、【万人激战,引领传说】

4、诸神的征伐擎天柱版本手游下载

5、唯美至极的玩法体验

常州哪些商场内led广告大屏亮点

1、永恒仙境手机下载

2、打造超强阵容

3、看电影和电视不需要注册,也没有广告。你可以看到高清视频只要你搜索他们

4、监狱生活充满了例行公事,确保你参加点名,为你的工作打卡,并保持警惕!

5、真实的模拟饮料的颜色,如果晃荡手机,还有摇晃的真实体验。

youxiyongyousishiduogerenwu,ershiduogeqingjie,quanbuqingjieyongdonghuazhanshio。shuliangpangdayoutiaozhandejingyingdiren【wanrenjizhan,yinlingchuanshuo】zhushendezhengfaqingtianzhubanbenshouyouxiazaiweimeizhijidewanfatiyan上(shang)海(hai)交(jiao)大(da)副(fu)教(jiao)授(shou)五(wu)年(nian)參(can)禪(chan):神(shen)經(jing)網(wang)絡(luo)的(de)簡(jian)單(dan)偏(pian)好(hao)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

作(zuo)者(zhe):許(xu)誌(zhi)欽(qin)

編(bian)輯(ji):QQ

【新智元導(dao)讀(du)】上海交通(tong)大學(xue)副教授對(dui)深(shen)度(du)学習(xi)的壹(yi)些(xie)思(si)考(kao)。

我(wo)是(shi)2017年11月(yue)開(kai)始(shi)接(jie)觸(chu)深度学习,至(zhi)今(jin)剛(gang)好五年。2019年10月入(ru)職(zhi)上海交大,至今三(san)年,刚好第(di)一階(jie)段(duan)考核(he)。2022年8月19號(hao),我在(zai)第一屆(jie)中(zhong)國(guo)機(ji)器(qi)学习與(yu)科(ke)学應(ying)用(yong)大會(hui)做(zuo)大会报告(gao),總(zong)結(jie)這(zhe)五年的研(yan)究(jiu)以(yi)及(ji)展(zhan)望(wang)未(wei)來(lai)的方(fang)向(xiang)。本(ben)文(wen)是該(gai)报告裏(li)關(guan)於(yu)理(li)論(lun)方面(mian)的研究总结(做了(le)一點(dian)擴(kuo)展)。报告視(shi)頻(pin)鏈(lian)接可(ke)以見(jian)(亦(yi)可点擊(ji)閱(yue)读原(yuan)文查(zha)看(kan)):https://www.bilibili.com/video/BV1eB4y1z7tL/

我理解(jie)的深度学习

我原本是研究計(ji)算(suan)神经科学的,研究的內(nei)容(rong),宏(hong)觀(guan)来講(jiang)是從(cong)數(shu)学的角(jiao)度理解大腦(nao)工(gong)作的原理,具(ju)體(ti)来說(shuo),我的研究是處(chu)理高(gao)維(wei)的神经元网络產(chan)生(sheng)的脈(mai)沖(chong)数據(ju),嘗(chang)試(shi)去(qu)理解这些信(xin)号是如(ru)何(he)处理輸(shu)入的信号。但(dan)大脑過(guo)于復(fu)雜(za),维度也(ye)过于高,我們(men)普(pu)通大脑有(you)一千(qian)億(yi)左(zuo)右(you)個(ge)神经元,每(mei)个神经元還(hai)和(he)成(cheng)千上萬(wan)个其(qi)它(ta)神经元有信号傳(chuan)遞(di),我对处理这類(lei)数据並(bing)沒(mei)有太(tai)多(duo)信心(xin),那(na)阶段也刚好读到(dao)一篇(pian)文章(zhang),大意(yi)是把(ba)現(xian)阶段计算神经科学的研究方法(fa)用来研究计算机的芯(xin)片(pian),结论是这些方法并不(bu)能(neng)幫(bang)助(zhu)我们理解芯片的工作原理。另(ling)一个讓(rang)我覺(jiao)得(de)非(fei)常(chang)難(nan)受(shou)的地(di)方是我们不僅(jin)对大脑了解很(hen)少(shao),还非常难以獲(huo)得大脑的数据。

于是,我们當(dang)時(shi)思考,能否(fou)尋(xun)找(zhao)一个简单的网络模(mo)型(xing),能夠(gou)實(shi)现复杂的功(gong)能,同(tong)时我们对它的理解也很少的例(li)子(zi),我们通过研究它来啟(qi)發(fa)我们对大脑的研究。当时是2017年底(di),深度学习已(yi)经非常流(liu)行(xing),特(te)別(bie)是我的同学已经接触深度学习一段时間(jian),所(suo)以我们迅(xun)速(su)了解到深度学习。其结構(gou)和訓(xun)練(lian)看起(qi)来足(zu)够简单,但能力(li)不凡(fan),而(er)且(qie)与其相(xiang)关的理论正(zheng)处在萌(meng)芽(ya)阶段。

因(yin)此(ci),我進(jin)入深度学习的第一个想(xiang)法是把它当作研究大脑的简单模型。顯(xian)然(ran),在这種(zhong)「类脑研究」的定(ding)位(wei)下(xia),我们关心的是深度学习的基(ji)礎(chu)研究。这里,我想區(qu)分(fen)深度学习的「理论」和「基础研究」。我認(ren)為(wei)「理论」給(gei)人(ren)一种全(quan)是公(gong)式(shi)和證(zheng)明(ming)的感(gan)觉。而「基础研究」的範(fan)圍(wei)聽(ting)起来会更(geng)廣(guang)闊(kuo)一些,它不仅可以包(bao)括(kuo)「理论」,还可以是一些重(zhong)要(yao)的现象(xiang),直(zhi)观的解釋(shi),定律(lv),经驗(yan)原則(ze)等(deng)等。这种区分只(zhi)是一种感性(xing)的区分,实際(ji)上,我们在談(tan)论它们的时候(hou),并不真(zhen)正做这麽(me)細(xi)致(zhi)的区分。盡(jin)管(guan)是以深度学习为模型,来研究大脑为何会有如此复杂的学习能力,但大脑和深度学习还是有明显的差(cha)異(yi)。而我从知(zhi)識(shi)儲(chu)備(bei)、能力和时间上来看,都(dou)很难同时在这兩(liang)个目(mu)前(qian)看起来距(ju)離(li)仍(reng)然很大的領(ling)域(yu)同时深入。

于是我選(xuan)擇(ze)全面轉(zhuan)向深度学习,研究的問(wen)題(ti)是,深度学习作为一个算法,它有什(shen)么樣(yang)的特征(zheng)。「没有免(mian)費(fei)的午(wu)餐(can)」的定理告訴(su)我们,当考慮(lv)所有可能的数据集(ji)的平(ping)均(jun)性能时,所有算法都是等價(jia)的,也就(jiu)是没有哪(na)一种算法是万能的。我们需(xu)要厘(li)清(qing)深度学习这类算法適(shi)用于什么数据,以及不适用于什么数据。

事(shi)实上,深度学习理论并不是处于萌芽阶段,从上世(shi)紀(ji)中葉(ye),它刚开始发展的时候,相关的理论就已经开始了,也有过一些重要的结果(guo),但整(zheng)体上来说,它仍然处于初(chu)級(ji)阶段。对我而言(yan),这更是一个非常困(kun)难的问题。

于是,我转而把深度学习当作一种「玩(wan)具」,通过調(tiao)整各(ge)类超(chao)参数和不同的任(ren)務(wu),观察(cha)它会产生哪些「自(zi)然现象」。設(she)定的目標(biao)也不再(zai)高大上,而是有趣(qu)即(ji)可,发现有趣的现象,然後(hou)解释它,也许还可以用它来指(zhi)导实际应用。在上面这些认识下,我们从深度神经网络训练中的一些有趣的现象开始。于我个人,我是从頭(tou)开始学习寫(xie)python和tensorflow,更具体是,从网上找了幾(ji)份(fen)代(dai)碼(ma),邊(bian)抄(chao)边理解。

神经网络真的很复杂嗎(ma)?

在传統(tong)的学习理论中,模型的参数量(liang)是指示(shi)模型复杂程(cheng)度很重要的一个指标。当模型的复杂度增(zeng)加(jia)时,模型擬(ni)合(he)训练数据的能力会增強(qiang),但也会帶(dai)来在測(ce)试集上过拟合的问题。馮(feng)·諾(nuo)依(yi)曼(man)曾(zeng)经说过一句(ju)著(zhu)名(ming)的話(hua),给我四(si)个参数,我能拟合一头大象,五个参数可以让大象的鼻(bi)子動(dong)起来。

因此,传统建(jian)模相关的研究人員(yuan)在使(shi)用神经网络时,经常会计算模型参数量,以及为了避(bi)免过拟合,刻(ke)意用参数少的网络。然而,今天(tian)神经网络能够大获成功,一个重要的原因正是使用了超大規(gui)模的网络。网络的参数数量往(wang)往遠(yuan)大于样本的数量,但卻(que)不像(xiang)传统学习理论所預(yu)言的那样过拟合。这便(bian)是这些年受到極(ji)大关註(zhu)的泛(fan)化(hua)迷(mi)團(tuan)。实际上,在1995年,Leo Breiman在一篇文章中就已经指出(chu)了这个问题。在神经网络非常流行和重要的今天,这个迷团愈(yu)加重要。我们可以问:带有大量参数的神经网络真的很复杂吗?答(da)案(an)是肯(ken)定的!上世纪八(ba)十(shi)年代末(mo)的理论工作证明当两層(ceng)神经网络(激(ji)活(huo)函(han)数非多項(xiang)式函数)足够寬(kuan)时,它可以以任意精(jing)度逼(bi)近(jin)任意連(lian)續(xu)函数,这也就是著名的「万有逼近」定理。实际上,我们应该问一个更加有意義(yi)的问题:在实际训练中,神经网络真的很复杂吗?逼近论证明的解在实际训练中几乎(hu)不可能遇(yu)到。实际的训练,需要设定初始值(zhi)、優(you)化算法、网络结构等超参数。对我们实际要有指导作用,我们就不能脫(tuo)离这些因素(su)来考虑泛化的问题,因为泛化本身(shen)就是依賴(lai)实际数据的问题。

两种简单偏好的现象

在学习与训练神经网络的过程中,我们很容易(yi)发现,神经网络的训练有一定的规律。在我们的研究中,有两种现象很有趣,在研究和解释它们的过程中,我们发现它们同样是很有意义的。我先(xian)简单介(jie)紹(shao),然后再詳(xiang)细分别介绍。第一,我们发现神经网络在拟合数据的过程中经常会先学习低(di)频,而后慢(man)慢学习高频。我们把这个现象命(ming)名为频率(lv)原则(Frequency Principle, F-Principle)[1, 2],也有其它工作把它稱(cheng)为Spectral bias。第二(er),我们发现在训练过程,有很多神经元的输入權(quan)重(向量)的方向会保(bao)持(chi)一致。我们称之(zhi)为凝(ning)聚(ju)现象。这些输入权重一样的神经元对输入的处理是一样的,那它们就可以简化成一个神经元,也就是一个大网络可以简化成小(xiao)网络[3, 4]。这两种现象都体现神经网络在训练过程中有一种隱(yin)式的简单偏好,低频偏好或(huo)者有效(xiao)小网络偏好。低频偏好是非常普遍(bian)的,但小网络偏好是要在非線(xian)性的训练过程中才(cai)会出现的特征。

频率原则

我早(zao)期(qi)在匯(hui)报频率原则相关的工作的时候,做计算数学的老(lao)師(shi)同学非常有興(xing)趣,因为在传统的叠(die)代格(ge)式中,例如Jacobi迭代,低频是收(shou)斂(lian)得非常慢的。多重网格方法非常有效地解決(jue)了这个问题。我们在实验中,也验证了神经网络和Jacobi迭代在解PDE时完(wan)全不一样的频率收敛順(shun)序(xu)(如下圖(tu))[2, 5]。

频率原则有多广泛呢(ne)?频率原则最(zui)开始是在一维函数的拟合中发现的。我在调参的过程中发现神经网络似(si)乎总是先抓(zhua)住(zhu)目标函数的輪(lun)廓(kuo)信息(xi),然后再是细節(jie)。频率是一种非常适合用来刻畫(hua)轮廓和细节的量。于是,我们在频率空(kong)间看神经网络的学习过程,发现非常明显地从低频到高频的顺序。

实域空间拟合(紅(hong)色(se)为目标函数,藍(lan)色为DNN)

频域空间拟合(红色为目标函数,蓝色为DNN)

对于两维的函数,以图像为例,用神经网络学习从两维位置(zhi)到灰(hui)度值的映(ying)射(she)。神经网络在训练过程会慢慢記(ji)住更多细节。

对于更高维的例子,傅(fu)里叶變(bian)換(huan)是困难的,这也是不容易在高维的图像分类任务中发现频率原则的一个原因。我们的貢(gong)獻(xian)还有一点就是用一个例子论证針(zhen)对简单的低维问题的研究可以启发深度学习的基础研究。高维问题的频率需要多说两句。本質(zhi)上,高频指的是输出对输入的变化非常敏(min)感。比(bi)如在图片分类任务中,当一張(zhang)图片被(bei)修(xiu)改(gai)一点点,输出就发生变化。显然,这说的正是对抗(kang)样本。

关于高维中验证频率原则,我们采(cai)用了降(jiang)维和濾(lv)波(bo)的辦(ban)法。一系(xi)列(lie)的实验都验证了频率原则是一个广泛存(cun)在的现象。为什么会有频率原则呢?事实上,在自然界(jie)中大部(bu)分信号都有一个特征,强度隨(sui)频率增加而衰(shuai)減(jian)。一般(ban)我们见到的函数在频率空间也都有衰减的特征,特别是函数越(yue)光(guang)滑(hua),衰减越快(kuai),连常见的ReLU函数在频率空间也是关于频率二次(ci)方衰减。在梯(ti)度下降的计算中,很容易得到低频信号对梯度的贡献要大于高频,所以梯度下降自然就以消(xiao)除(chu)低频誤(wu)差为主(zhu)要目标[2]。

对于一般的网络,我们有定性的理论证明[6],而对于线性NTK区域的网络,我们有嚴(yan)格的线性频率原则模型揭(jie)示频率衰减的机制(zhi)[7, 8, 9]。有了这个理解,我们也可以构造(zao)一些例子来加速高频的收敛,比如在損(sun)失(shi)函数中增加输出关于输入的导数项,因为求(qiu)导在频率空间看,相当于在强度上乘(cheng)以了一个其对应的频率,可以緩(huan)解高频的困难。这在求解PDE中很常见。

了解频率原则对我们理解神经网络有什么帮助吗?我们舉(ju)两个例子。第一个是理解提(ti)前停(ting)止(zhi)这个技(ji)巧(qiao)。实际的训练中,一般都能发现泛化最好的点并不是训练误差最低的,通常需要在训练误差还没降得很低的时候,提前停止训练。实际数据大部分都是低频占(zhan)优,而且基本都有噪(zao)音(yin)。噪音对低频的影(ying)響(xiang)相对比較(jiao)小,而对高频影响相对比较大,而神经网络在学习过程先学习低频,所以通过提前停止可以避免学习到过多被汙(wu)染(ran)的高频而带来更好的泛化性能。

另一个例子是,我们发现图像分类问题中,从图像到类别的映射通常也是低频占优,所以可以理解其良(liang)好的泛化。但对于定义在d维空间中的奇(qi)偶(ou)函数,其每一维的值只能取(qu)1或者-1。显然任何一维被擾(rao)动后,输出都会发生大的变化。这个函数可以被证明是高频占优的,而实际训练中,神经网络在这个问题中完全没有预测能力。我们还利(li)用频率原则解释了为什么在实验中会观察到深度可以加快训练,核心的原因是越深的网络把目标函数变成一个越低频的函数,使学习变得容易 [10]。

除了理解,频率原则能对我们实际设计和使用神经网络产生什么指导吗?频率原则揭示了神经网络中存在高频災(zai)难,这也引(yin)起了很多研究人员的注意,包括求解PDE、生成图像、拟合函数等。高频灾难带来的训练和泛化困难很难通过简单的调参来缓解。我们組(zu)提出了多尺(chi)度神经网络的方法来加速高频的收敛[11]。基本的想法是把目标函数在徑(jing)向进行不同尺度的拉(la)伸(shen),尝试將(jiang)不同频率的成分都拉伸成一致的低频,達(da)到一致的快速收敛。实现也是非常之容易,仅需在第一隐藏(zang)层的神经元的输入乘以一些固(gu)定的系数即可。我们的一些工作发现调整激活函数对网络的性能影响很大[12],用正弦(xian)余(yu)弦函数做第一个隐藏层的基可以有比较好的效果[13]。这个算法被華(hua)为的MindSpore所采用。径向拉伸的想法在很多其它的算法中也被采用,包括在图片渲(xuan)染中非常出名的NerF(神经輻(fu)射場(chang))。

多尺度网络结构

频率原则还有很多未解的问题需要被探(tan)索(suo)。在非梯度下降训练的过程,比如粒(li)子群(qun)算法怎(zen)么证明频率下降[14]?如何在理论上论证多尺度神经网络对高频的加速效果?是否有更穩(wen)定更快的高频加速算法?小波可以更细致的描(miao)述(shu)不同局(ju)部的频率特征,能否用小波更细节地理解神经网络的训练行为?数据量、网络深度、损失函数怎么影响频率原则?频率原则可以指导算法设计的理论,为训练规律提供(gong)一种「宏观」描述。对于「微(wei)观」机制,我们需要进一步(bu)研究。

同样是低频到高频的学习过程,参数的演(yan)化可以非常不一样,比如一个函数可以用一个神经元表(biao)示,也可以用10个神经元(每个神经元的输出权重为原输出权重的1/10)一起表示,从输入输出函数的频率来看,这两种表示完全没有差别,那神经网络会选择哪一种表示,以及这些表示有什么差别?下面我们就要更细致地看参数演化中的现象。

参数凝聚现象

为了介绍参数凝聚现象我们有必(bi)要介绍一下两层神经元网络的表达

W是输入权重,它以内積(ji)的方式提取输入在权重所在的方向上的成分,可以理解为一种特征提取的方式,加上偏置项,然后再经过非线性函数(也称为激活函数),完成单个神经元的计算,然后再把所有神经元的输出加权求和。为了方便,我们记

对于ReLU激活函数,我们可以通过考虑输入权重的角度和神经元的幅(fu)度来理解每个神经元的特征:

,其中

考虑用上面的两层神经网络来拟合四个一维的数据点。结合输入权重和偏置项,我们所关心的方向就是两维的方向,因此可以用角度来表示其方向。下图展示了,不同初始化下,神经网络的拟合结果(第一行),以及在训练前(青(qing)色)和训练后(红色)特征分布(bu)的图(第二行)

不同初始化的拟合结果

显然,随初始化尺度变小(从左到右,初始化尺度不斷(duan)变小),神经网络的拟合结果差异很大,在特征分布上,当尺度很大(这里使用NTK的初始化),神经网络特征几乎不变,和random feature这类线性模型差不多,而随初始化变小,训练过程出现明显的特征变化的过程。

最有意思的是,这些特征的方向聚集在两个主要的方向。我们把这种现象称为参数凝聚。大量的实际问题告诉我们神经网络比线性的方法要好很多,那非线性过程所呈(cheng)现的参数凝聚有什么好处吗?如下图展示的一个极端(duan)凝聚的例子,对于一个随机初始化的网络,经过短(duan)暫(zan)的训练后,每个隐藏层神经元的输入权重是完全一致的,因此这个网络可以等效成仅有一个隐藏层神经元的小网络。一般情(qing)況(kuang)下,神经元会凝聚到多个方向。

凝聚现象的例子

回(hui)顧(gu)在我们前面最开始提到的泛化迷团,以及我们最开始提出的问题「在实际训练中,神经网络真的很复杂吗?」,在参数凝聚的情况下,对于一个表面看起来很多参数的网络,我们自然要问:神经网络实际的有效参数有多少?比如我们前面看到的两层神经网络凝聚在两个方向的例子,实际上,这个网络的有效神经元只有两个。因此凝聚可以根(gen)据实际数据拟合的需求来有效地控(kong)制模型的复杂度。

前面,我们只是通过一个简单的例子来呈现凝聚现象,接下来重要的问题是:参数凝聚是非线性过程中普遍的现象吗?在统计力学相图的启发下,我们在实验发现并理论推(tui)导出了两层無(wu)限(xian)宽ReLU神经网络的相图。基于不同的初始化尺度,以参数在训练前后的相对距离在无限宽极限下趨(qu)于零(ling)、常数、无窮(qiong)作为判(pan)据,相图劃(hua)分了线性、臨(lin)界、凝聚三种动力学態(tai)(dynamical regime)。领域内的一系列理论研究(包括NTK,mean-field等)都可以在我们的相图中找到对应的位置[3]。

两层ReLU网络的相图

在三层无穷宽[15]的全连接网络中,我们实验证明在所有非线性的区域,参数凝聚都是一种普遍的现象。理论上,我们证明当初始化尺度足够小的时候,在训练初始阶段就会产生凝聚[4] 。有趣的是,我们在研究Dropout算法的隐式正则化的时候,发现Dropout算法会明显地促(cu)进参数凝聚地形(xing)成。

Dropout算法的想法是Hinton提出的,在神经网络的训练中,以一定概(gai)率p保留(liu)神经元,是一种常用的技巧,对泛化能力的提升(sheng)有明显的帮助。我们首(shou)先来看一下拟合结果。下面左图是没有用Dropout的例子,放(fang)大拟合的函数,可以看到明显的小尺度的波动,右图是用了Dropout的结果,拟合的函数要光滑很多。

Dropout(右)使输出更光滑

仔(zai)细看他(ta)们的特征分布时,可以看到训练前(蓝色)和训练后(橙(cheng)色)的分布在有Dropout的情况下会明显不同,且呈现出明显地凝聚效应,有效参数变得更少,函数复杂度也相应变得简单光滑。

Dropout(右)使参数凝聚

进一步,我们分析(xi)为什么Dropout会带来凝聚效应。我们发现Dropout的训练会带来一项特殊(shu)的隐式正则效应。我们通过下面的例子来理解这个效应。下面黃(huang)色和红色两种情况都能合成一个相同的向量,Dropout要求两个分向量的模長(chang)平方和要最小,那显然只有当两个向量的方向一致的时候,并且完全相等的时候,它们的模长平方和才能最小,对于w来说,这就是凝聚。

到目前,我们谈了参数凝聚使得神经网络的有效规模变得很小,那为什么我们不直接训练一个小规模的网络?大网络和小网络有什么差异?首先,我们用不同宽度的两层网络来拟合同一批(pi)数据,下图展示了它们的损失下降的过程。

不同宽度的网络的损失函数表现出了高度的相似性,它们会在共(gong)同的位置发生停留。那在共同的臺(tai)阶处有什么相似性呢?下面左图可以看到,对于上述箭(jian)头指示的台阶,不同宽度网络的输出函数非常靠(kao)近。更进一步看它们的特征图(下右图),它们都发生了强烈(lie)的凝聚现象。这些体现了它们的相似性。

如果再仔细观察他们的损失图,可以发现当宽度增加的时候,网络的损失函数更容易下降,比如前面箭头指的地方,相对小的网络就停留在台阶上,大的网络的损失才繼(ji)续下降。从实验上可以看出,大网络凝聚时雖(sui)然和小网络在表达能力类似,但看起来大网络更容易训练。

怎么解释不同宽度的网络的相似性以及大网络的优勢(shi)?在一个梯度下降的训练过程,出现平台的原因很可能是因为训练路(lu)径经歷(li)某(mou)个鞍(an)点(附(fu)近有上升方向也有下降方向的极值点)附近。不同宽度的网络似乎会经历相同的鞍点。但参数量不同的网络,它们各自的鞍点生活在不同维度的空间,怎么会是同一点呢?我们证明了不同宽度的网络的损失景(jing)观的极值点存在一个嵌(qian)入原则(Embedding Principle)[16], 即一个神经网络的损失景观中 「包含(han)」所有更窄(zhai)神经网络损失景观的所有临界点(包括鞍点、局部最优点和全局最优点等)。简单地说,就是一个网络处理临界点时,通过一些特定的嵌入方式,可以把这个网络嵌入到一个更宽的网络中,嵌入过程能够保持网络输出不变以及宽网络仍然处于临界点。最简单的嵌入方式正是凝聚的逆(ni)过程,比如下图是一种一步嵌入方式。更一般的嵌入方式我们在Journal of Machine Learning第一期的文章里[17]有详细討(tao)论。

嵌入原则揭示了不同宽度网络的相似性,当然也提供了研究它们差异性的手(shou)段。由(you)于在嵌入的过程中有自由参数,因此在更大网络的临界点的退(tui)化程度越大。同样的,一个大网络的损失景观里的临界点,如果它来源(yuan)于更简单的网络的临界点的嵌入,那么它的退化程度也越大(直观可以理解它占的空间越大)。我们就可以猜(cai)测这些越简单的临界点越有可能被学习到。

另外(wai),我们在理论上证明,在嵌入的过程中,临界点附近的下降方向、上升方向都不会变少。这告诉我们,一个鞍点被嵌入到一个更大的网络以后,它不可能变成一个极小值点,但一个极小值点被嵌入到大网络以后,它很有可能会变成鞍点,产生更多的下降方向。

我们在实验上也证明了嵌入过程会产生更多下降方向。因此,我们有理由相信,大网络尽管凝聚成有效的小网络,但它会比小网络更容易训练。也就是大网络既(ji)可以控制模型的复杂度(可能带来更好的泛化),又(you)可以使训练更容易。我们的工作还发现了在深度上神经网络损失景观的嵌入原则[18]。关于凝聚现象,同样还有很多问题值得继续深入。下面是一些例子。除了初始训练外,训练过程中的凝聚现象产生的机制是什么?不同的网络结构是否有凝聚现象?凝聚的过程和频率原则有什么聯(lian)系?凝聚怎么定量地和泛化建立(li)联系?

总结

过去五年,在深度学习的基础研究方面,我们主要围繞(rao)频率原则和参数凝聚两类现象展开工作。从发现它们,意识到他们很有趣,再到解释它们,并在一定程度上基于这些工作去理解深度学习的其它方面和设计更好的算法。未来五年,我们将在深度学习的基础研究和AI for Science方面深入鉆(zuan)研。

参考資(zi)料(liao):

[1] Zhi-Qin John Xu*, Yaoyu Zhang, and Yanyang Xiao, Training behavior of deep neural network in frequency domain, arXiv preprint: 1807.01251, (2018), ICONIP 2019.

[2] Zhi-Qin John Xu* , Yaoyu Zhang, Tao Luo, Yanyang Xiao, Zheng Ma, Frequency Principle: Fourier Analysis Sheds Light on Deep Neural Networks, arXiv preprint: 1901.06523, Communications in Computational Physics (CiCP).

[3]Tao Luo#,Zhi-Qin John Xu #, Zheng Ma, Yaoyu Zhang*, Phase diagram for two-layer ReLU neural networks at infinite-width limit, arxiv 2007.07497 (2020), Journal of Machine Learning Research (2021)

[4]Hanxu Zhou, Qixuan Zhou, Tao Luo, Yaoyu Zhang*, Zhi-Qin John Xu*, Towards Understanding the Condensation of Neural Networks at Initial Training. arxiv 2105.11686 (2021), NeurIPS2022.

[5] Jihong Wang,Zhi-Qin John Xu*, Jiwei Zhang*, Yaoyu Zhang, Implicit bias in understanding deep learning for solving PDEs beyond Ritz-Galerkin method, CSIAM Trans. Appl. Math.

[6] Tao Luo, Zheng Ma,Zhi-Qin John Xu, Yaoyu Zhang, Theory of the frequency principle for general deep neural networks, CSIAM Trans. Appl. Math., arXiv preprint, 1906.09235 (2019).

[7] Yaoyu Zhang, Tao Luo, Zheng Ma,Zhi-Qin John Xu*, Linear Frequency Principle Model to Understand the Absence of Overfitting in Neural Networks. Chinese Physics Letters, 2021.

[8] Tao Luo*, Zheng Ma,Zhi-Qin John Xu, Yaoyu Zhang, On the exact computation of linear frequency principle dynamics and its generalization, SIAM Journal on Mathematics of Data Science (SIMODS) to appear, arxiv 2010.08153 (2020).

[9]Tao Luo*, Zheng Ma, Zhiwei Wang, Zhi-Qin John Xu, Yaoyu Zhang, An Upper Limit of Decaying Rate with Respect to Frequency in Deep Neural Network, To appear in Mathematical and Scientific Machine Learning 2022 (MSML22),

[10] Zhi-Qin John Xu* , Hanxu Zhou, Deep frequency principle towards understanding why deeper learning is faster, AAAI 2021, arxiv 2007.14313 (2020)

[11] Ziqi Liu, Wei Cai,Zhi-Qin John Xu* , Multi-scale Deep Neural Network (MscaleDNN) for Solving Poisson-Boltzmann Equation in Complex Domains, arxiv 2007.11207 (2020) Communications in Computational Physics (CiCP).

[12] Xi-An Li,Zhi-Qin John Xu* , Lei Zhang, A multi-scale DNN algorithm for nonlinear elliptic equations with multiple scales, arxiv 2009.14597, (2020) Communications in Computational Physics (CiCP).

[13] Xi-An Li,Zhi-Qin John Xu, Lei Zhang*, Subspace Decomposition based DNN algorithm for elliptic type multi-scale PDEs. arxiv 2112.06660 (2021)

[14]Yuheng Ma,Zhi-Qin John Xu*, Jiwei Zhang*, Frequency Principle in Deep Learning Beyond Gradient-descent-based Training, arxiv 2101.00747 (2021).

[15]Hanxu Zhou, Qixuan Zhou, Zhenyuan Jin, Tao Luo, Yaoyu Zhang,Zhi-Qin John Xu*, Empirical Phase Diagram for Three-layer Neural Networks with Infinite Width. arxiv 2205.12101 (2022), NeurIPS2022.

[16]Yaoyu Zhang*, Zhongwang Zhang, Tao Luo,Zhi-Qin John Xu*, Embedding Principle of Loss Landscape of Deep Neural Networks. NeurIPS 2021 spotlight, arxiv 2105.14573 (2021)

[17] Zhongwang Zhang,Zhi-Qin John Xu*, Implicit regularization of dropout. arxiv 2207.05952 (2022)

[18]Zhiwei Bai, Tao Luo,Zhi-Qin John Xu*, Yaoyu Zhang*, Embedding Principle in Depth for the Loss Landscape Analysis of Deep Neural Networks. arxiv 2205.13283 (2022)返(fan)回搜(sou)狐(hu),查看更多

責(ze)任编辑:

发布于:河南商丘永城市