升级产品功能的广告词

潍坊晚报

升级产品功能，提升用户体验

我们很高兴地宣布，我们的产品功能正在进行升级，这将为我们的用户带来更好的体验和更多的选择。在这个过程中，我们一直致力于提供最优质的服务，并严格遵守中国广告法。我们相信，这些升级将满足我们用户的需求，提高产品的质量和性能。

我们的升级功能将包括更好的界面设计，更多的选项和更强大的功能。这些变化将使我们的产品更容易使用，更方便快捷，同时也将使我们的用户体验更加丰富和愉悦。

我们的目标是让用户能够更好地使用我们的产品，同时也让我们的产品更好地满足用户的需求。我们希望用户能够享受到更强大的功能、更方便的操作和更好的视觉效果。我们相信，这些升级将为我们的用户带来更好的体验和更多的乐趣。

创新是我们的动力

我们一直秉持创新的精神，致力于为用户提供最好的服务。我们主张创新，因为我们知道，只有创新才能让我们不断进步。所以，我们一直在不断地改进我们的产品，提高我们的服务质量。

在这个不断变化的市场中，我们知道，只有创新才能让我们在竞争中立于不败之地。我们相信，这些升级功能将使我们的产品更加完美，让我们的用户更加满意。同时，我们也希望用户能够参与到我们的创新过程中，和我们一起成长。

结论

在这个升级的过程中，我们将继续遵守中国广告法，提供最优质的服务，让我们的用户享受到更好的体验和更多的乐趣。我们相信，创新是我们的动力，只有不断创新，才能让我们更好地服务于用户。

如果您有任何问题或意见，欢迎联系我们的客服人员。我们将尽快回复您的问题，为您提供最好的服务。谢谢。

### 备注本文旨在宣传升级产品功能的信息，并向用户保证我们将遵守中国广告法，提供最优质的服务。我们相信，这些升级功能将为我们的用户带来更好的体验和更多的乐趣。同时，我们也希望用户能够参与到我们的创新过程中，和我们一起成长。如有任何问题或意见，欢迎联系我们的客服人员，我们将尽快回复您的问题，为您提供最好的服务。

升级产品功能的广告词特色

1、漫漫救赎之路：重返梦魇世界，夺回自己原本的人生，并拯救挚爱。

2、贪吃的植物红包游戏茁壮的成长，似乎没有什么可以阻拦它的步伐；

3、行业首创直播间用户转化率即刻呈现，优化直播运营策略。

4、不断搜集金币，能够达成路程牌成就，餐厅的赢利收益将会翻倍增加哦;

5、试题查找可以通过输入与试题相关的关键词来搜索题目。

升级产品功能的广告词亮点

1、涵盖本地新闻资讯、各类广播电视节目、生活便民服务及电子商务等。

2、4老师用户可以下载视频课程，利用自己的碎片化时间进行学习；

3、有效保障用户以及司机的安全，防止各种意外的发生出现；

4、小牛直播软件漫漫长夜，告别单身，喜爱她就和她聊一聊。

5、心理咨询，3%的审核通过率筛选咨询师提供高质量心理服务。

manmanjiushuzhilu：zhongfanmengyanshijie，duohuizijiyuanbenderensheng，bingzhengjiuzhiai。tanchidezhiwuhongbaoyouxizhuozhuangdechengchang，sihumeiyoushenmekeyizulantadebufa；xingyeshouchuangzhibojianyonghuzhuanhualvjikechengxian，youhuazhiboyunyingcelve。buduansoujijinbi，nenggoudachengluchengpaichengjiu，cantingdeyinglishouyijianghuifanbeizengjiao;shitizhazhaokeyitongguoshuruyushitixiangguandeguanjiancilaisousuotimu。LeCun力(li)挺(ting)，馬(ma)毅(yi)教(jiao)授(shou)五(wu)年(nian)集(ji)大(da)成(cheng)之(zhi)作(zuo)：完(wan)全(quan)數(shu)學(xue)可(ke)解(jie)釋(shi)的(de)白(bai)盒(he)Transformer，性(xing)能(neng)不(bu)輸(shu)ViT

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：LRS

【新智元導(dao)讀(du)】马毅教授領(ling)导的研(yan)究(jiu)團(tuan)隊(dui)開(kai)發(fa)了(le)CRATE模(mo)型(xing)，推(tui)動(dong)了神(shen)經(jing)網(wang)絡(luo)可解释研究！

過(guo)去(qu)十(shi)多(duo)年，AI的飛(fei)速(su)发展(zhan)主(zhu)要(yao)是(shi)工(gong)程(cheng)實(shi)踐(jian)上(shang)的進(jin)步(bu)，AI理(li)論(lun)並(bing)沒(mei)有(you)起(qi)到(dao)指(zhi)导算(suan)法(fa)开发的作用(yong)，经驗(yan)設(she)計(ji)的神经网络依(yi)然(ran)是壹(yi)個(ge)黑(hei)盒。

而(er)隨(sui)著(zhe)ChatGPT的爆(bao)火(huo)，AI的能力也(ye)被(bei)不斷(duan)誇(kua)大、炒(chao)作，甚(shen)至(zhi)到了威(wei)脅(xie)、綁(bang)架(jia)社(she)會(hui)的地(di)步，讓(rang)Transformer架構(gou)设计變(bian)透(tou)明(ming)已(yi)刻(ke)不容(rong)緩(huan)！

最(zui)近(jin)，马毅教授团队发布(bu)了最新研究成果(guo)，设计了一个完全可用数学解释的白盒Transformer模型CRATE，并在(zai)真(zhen)实世(shi)界(jie)数據(ju)集ImageNet-1K上取(qu)得(de)了接(jie)近ViT的性能。

代(dai)碼(ma)鏈(lian)接：https://github.com/Ma-Lab-Berkeley/CRATE

论文(wen)链接：https://arxiv.org/abs/2306.01129

在這(zhe)篇(pian)论文中(zhong)，研究人(ren)員(yuan)認(ren)為(wei)，表(biao)示(shi)学習(xi)的目(mu)標(biao)是壓(ya)縮(suo)和(he)轉(zhuan)換(huan)数据（例(li)如(ru)token集合(he)）的分(fen)布，以(yi)支(zhi)持(chi)在不相(xiang)幹(gan)子(zi)空(kong)間(jian)（incoherent subspace）上的低(di)維(wei)高(gao)斯(si)分布混(hun)合，最終(zhong)表征(zheng)的質(zhi)量(liang)可以通(tong)过稀(xi)疏(shu)率(lv)降(jiang)低（sparse rate reduction）的統(tong)一目标函(han)数來(lai)度(du)量。

從(cong)这个角(jiao)度来看(kan)，流(liu)行(xing)的深(shen)度网络模型，如Transformer等(deng)可以很(hen)自(zi)然地被认为是实現(xian)叠(die)代方(fang)案(an)（realizing iterative schemes）以逐(zhu)步優(you)化(hua)該(gai)目标。

特(te)別(bie)是，研究結(jie)果表明标準(zhun)Transformer塊(kuai)可以从對(dui)该目标的互(hu)補(bu)部(bu)分的交(jiao)替(ti)优化中派(pai)生(sheng)出(chu)：多頭(tou)自註(zhu)意(yi)力運(yun)算符(fu)可以被視(shi)为通过最小(xiao)化有損(sun)编码率来压缩token集合的梯(ti)度下(xia)降步驟(zhou)，而随後(hou)的多層(ceng)感(gan)知(zhi)器(qi)可以被视为嘗(chang)試(shi)稀疏化token的表示。

这一发现也促(cu)进设计了一系(xi)列(lie)在数学上完全可解释的白盒Transformer類(lei)深度网络架构，盡(jin)管(guan)设计上很簡(jian)單(dan)，但(dan)实验结果表明，这些(xie)网络確(que)实学会了优化设计目标：压缩和稀疏化了大規(gui)模真实世界视覺(jiao)数据集（如ImageNet）的表示，并实现了接近高度工程化Transformer模型（ViT）的性能。

圖(tu)靈(ling)獎(jiang)得主Yann LeCun对马毅教授的工作也表示贊(zan)同(tong)，认为Transformer使(shi)用LISTA（Learned Iterative Shrinkage and Thresholding Algorithm）类似(si)的方法增(zeng)量地优化稀疏压缩。

马毅教授於(yu)1995年獲(huo)得清(qing)華(hua)大学自动化與(yu)應(ying)用数学雙(shuang)学士(shi)学位(wei)，并于1997年获加(jia)州(zhou)大学伯(bo)克(ke)利(li)分校(xiao)EECS碩(shuo)士学位，2000年获数学硕士学位与EECS博(bo)士学位。

2018年马毅教授加入(ru)加州大学伯克利分校電(dian)子工程与计算機(ji)科(ke)学系，今(jin)年1月(yue)加入香(xiang)港(gang)大学出任(ren)数据科学研究院(yuan)院長(chang)，最近又(you)接任香港大学计算系主任。

主要研究方向(xiang)为3D计算机视觉、高维数据的低维模型、可擴(kuo)展性优化和机器学习，最近的研究主題(ti)包(bao)括(kuo)大规模3D幾(ji)何(he)重(zhong)构和交互以及(ji)低维模型与深度网络的關(guan)系。

让Transformer变白盒

这篇论文的主要目的在于用一个更(geng)统一的框(kuang)架以设计类似Transformer的网络结构，从而实现数学上的可解释性和良(liang)好(hao)的实際(ji)性能。

为此(ci)，研究人员提(ti)出学习一个增量映(ying)射(she)（incremental mappings）序(xu)列，以获得输入数据（token集合）的最小压缩和最稀疏的表征，优化一个统一的目标函数，即(ji)稀疏率降低。

这个框架统一了「Transformer模型和自注意力」、「扩散(san)模型和降噪(zao)」、「结构化查(zha)找(zhao)和率降低」（Structure-seeking models and rate reduction）三(san)種(zhong)看似不同的方法，并表明类似Transformer的深层网络层可以自然地从展开迭代优化（unrolling iterative optimization）方案中导出，以增量地优化稀疏率降低目标。

映射的目标

Self-Attention via Denoising Tokens Towards Multiple Subspaces

研究人员使用一个理想(xiang)化的token分布模型表明，如果朝(chao)着低维子空间系列迭代去噪，相关的評(ping)分函数就(jiu)会呈(cheng)现出类似于Transformer中的自注意力操(cao)作符的顯(xian)式(shi)形(xing)式。

Self-Attention via Compressing Token Sets through Optimizing Rate Reduction

研究人员將(jiang)多头自注意力层推导为一个展开的梯度下降步，以最小化速率降低的有损编码率部分，从而展现了将自注意力层解释为压缩token表征的另(ling)一种解释方法。

MLP via Iterative Shrinkage-Thresholding Algorithms (ISTA) for Sparse Coding

研究人员展示了在Transformer块中緊(jin)随多头自注意力层后面(mian)的多层感知机可以被解释为（并且(qie)可以被替换为）一个层，该层通过构建(jian)token表征稀疏编码来逐步优化稀疏率降低目标剩(sheng)余(yu)部分。

CRATE

结合上述(shu)理解，研究人员創(chuang)建了一个全新的的白盒Transformer架构CRATE（Coding RAte reduction TransformEr），学习目标函数、深度学习架构和最终学习到的表征都(dou)完全可以用数学解释，其(qi)中每(mei)一层執(zhi)行交替最小化算法（alternating minimization algorithm）的一个步骤，以优化稀疏率降低目标。

可以注意到，CRATE在构建的每个階(jie)段(duan)都選(xuan)擇(ze)了尽可能最简单的构建方式，只(zhi)要新构建的部分保(bao)持相同的概(gai)念(nian)角色(se)，就可以直(zhi)接替换，并获得一个新的白盒架构。

实验部分

研究人员的实验目标不僅(jin)仅是在使用基(ji)本(ben)设计的情(qing)況(kuang)下与其他(ta)精(jing)心(xin)设计的Transformer競(jing)爭(zheng)，還(hai)包括：

1、与通常(chang)仅在端(duan)到端性能上评估(gu)的经验设计的黑盒网络不同，白盒设计的网络可以查看深层架构的內(nei)部，并验證(zheng)学习网络的层是否(fou)确实执行其设计目标，即对目标进行增量优化。

2、尽管CRATE架构很简单，但实验结果应當(dang) 验证该架构的巨(ju)大潛(qian)力，即可以在大规模真实世界的数据集和任務(wu)上取得与高度工程化Transformer模型相匹(pi)配(pei)的性能。

模型架构

通过变化token维度、头数和层数，研究人员创建了四(si)个不同规模的CRATE模型，表示为CRATE-Tiny，CRATE-Small，CRATE-Base和CRATE-Large

数据集和优化

文中主要考(kao)慮(lv)ImageNet-1K作为測(ce)试平(ping)臺(tai)，使用Lion优化器来訓(xun)練(lian)具(ju)有不同模型规模的CRATE模型。

同時(shi)还评估了CRATE的遷(qian)移(yi)学习性能：在ImageNet-1K上训练的模型作为預(yu)训练模型，然后在几个常用的下遊(you)数据集（CIFAR10/100、Oxford Flowers、Oxford-IIT-Pets）上对CRATE进行微(wei)調(tiao)。

CRATE的层实现设计目标了嗎(ma)？

随着层索(suo)引(yin)的增加，可以看到CRATE-Small模型在大多数情况下的压缩和稀疏化項(xiang)都得到了提升(sheng)，最后一层稀疏性度量的增加是由(you)于用于分类的額(e)外(wai)線(xian)性层。

结果表明，CRATE与原(yuan)始(shi)的设计目标非(fei)常契(qi)合：一旦(dan)学习完畢(bi)，基本上通过其层逐漸(jian)学习对表示进行压缩和稀疏化。

在其他规模的CRATE模型以及中间模型檢(jian)查點(dian)上测量压缩和稀疏化项后可以发现，实验结果依然非常一致(zhi)，具有更多层的模型往(wang)往能更有效(xiao)地优化目标，验证了之前(qian)对每个层角色的理解。

性能对比(bi)

通过测量ImageNet-1K上的最高准确率以及在几个廣(guang)泛(fan)使用的下游数据集上的迁移学习性能来研究所(suo)提出的网络的经验性能。

由于设计的架构在注意力块（MSSA）和MLP块（ISTA）中都利用了參(can)数共(gong)享(xiang)，所以CRATE-Base模型（2208萬(wan)）与ViT-Small（2205万）的参数数量相似。

可以看到，在模型参数数量相似的情况下，文中提出的网络实现了与ViT相似的ImageNet-1K和迁移学习性能，但CRATE的设计更简单，可解释性強(qiang)。

此外，在相同的训练超(chao)参数下，CRATE还可以繼(ji)續(xu)扩展，即通过扩大模型的规模不断提高性能，而在ImageNet-1K上直接扩大ViT的规模并不總(zong)是能帶(dai)来一致的性能改(gai)善(shan)。

也就是說(shuo)，CRATE网络尽管简单，但已经可以在大规模的真实世界数据集上学习所需(xu)的压缩和稀疏表示，并在各(ge)种任务（如分类和迁移学习）上取得与更工程化Transformer网络（如ViT）相当的性能。

参考資(zi)料(liao)：

https://arxiv.org/abs/2306.01129返(fan)回(hui)搜(sou)狐(hu)，查看更多

責(ze)任编辑：