广告类新产品

新产品:一款让你拥有健康美肌的神器

每个人都希望拥有一张健康、美丽的肌肤,但是我们的生活和环境常常让我们的肌肤受到损伤。现在,我们为您带来一款全新的神器,它可以帮助您拥有健康美肌。这款产品采用现代高科技技术,可以有效预防和治疗各种肌肤问题。它不仅能够帮助您改善肌肤质量,还可以让您拥有更加年轻和健康的肌肤。

肌肤护理

这款神器采用最新的技术,可以快速有效地改善肌肤质量。它可以深入肌肤底层,补充肌肤所需的营养物质,让肌肤更加健康有光泽。不仅如此,这款产品还可以有效预防和治疗各种肌肤问题,比如痘痘、斑点、干燥等等。使用这款产品,您可以轻松拥有一张健康美肌。

肌肤护理

如何使用这款神器

这款神器非常容易使用,只需要按照以下步骤,您就可以拥有一张健康美肌:

第一步:清洁肌肤

使用温水清洁面部,去除面部的污垢和彩妆。

第二步:使用神器

使用神器轻轻按摩面部,让产品深入肌肤底层。您可以根据自己的需要,选择不同的功能模式。

第三步:使用其他产品

使用其他保养品,比如面霜、精华液等等,帮助肌肤更好地吸收营养物质。

使用这款神器,您可以轻松拥有一张健康美肌。不仅如此,这款产品还非常适合各个年龄段的人群,无论您是年轻人还是老年人,都可以使用这款产品,让自己拥有一张健康美肌。

结论

这款神器是一款非常棒的产品,它可以帮助您拥有健康美肌。它采用最新的技术,可以快速有效地改善肌肤质量。使用这款产品,您可以轻松预防和治疗各种肌肤问题,让自己拥有一张健康美肌。

如果您对这款产品感兴趣,可以联系我们的客服咨询相关信息。我们会为您提供最专业的服务,让您拥有最佳的购物体验。

面部护理

广告类新产品特色

1、万人激战热血超燃爆,战神已经降临,战斗升级需要你只身赴沙场,用超凡的实力力压群雄。

2、时刻互动交流仔细提示,朋友聊的压根根本停不下来

3、这里汇聚了海量的学习资源,可以随时随地在线了解;

4、线上报修:可随时线上新增报修,实时查看报修进度

5、专项练习、试卷精选、同步练习,巩固所学知识点

广告类新产品亮点

1、快乐学习:创造有趣、快乐的学习体验,一切教学设计皆从孩子的天性和聆听孩子的心声出发。

2、人脉拓展,通过多维度、智能化的人脉网络来扩展人脉

3、游戏基本上就是不会有剧本的,去根据自己的心情选择项目,一个人无聊约上朋友一起去;

4、全网新剧大搜刮,超多内容等你发现。

5、品质生活公共服务平疫通防疫申报系统升级

wanrenjizhanrexuechaoranbao,zhanshenyijingjianglin,zhandoushengjixuyaonizhishenfushachang,yongchaofandeshililiyaqunxiong。shikehudongjiaoliuzaixitishi,pengyouliaodeyagengenbentingbuxialaizhelihuijulehailiangdexuexiziyuan,keyisuishisuidizaixianlejie;xianshangbaoxiu:kesuishixianshangxinzengbaoxiu,shishizhakanbaoxiujinduzhuanxianglianxi、shijuanjingxuan、tongbulianxi,gonggusuoxuezhishidian擴(kuo)散(san)模(mo)型(xing)在(zai)文(wen)本(ben)生(sheng)成(cheng)領(ling)域(yu)的(de)應(ying)用(yong)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

來(lai)源(yuan):知(zhi)乎(hu)

編(bian)輯(ji):桃(tao)子(zi)

【新智元導(dao)讀(du)】扩散模型在文本生成领域的应用有(you)哪(na)些(xie)?本文就(jiu)3篇(pian)論(lun)文展(zhan)開(kai)解(jie)读。

本文主(zhu)要(yao)討(tao)论以(yi)下(xia)幾(ji)篇论文

Structured Denoising Diffusion Models in Discrete State-Spaces(D3PM)

Diffusion-LM Improves Controllable Text Generation

Composable Text Control Operations in Latent Space with Ordinary Differential Equations

Structured Denoising Diffusion Models in Discrete State-Spaces(D3PM)

在近(jin)期(qi)北(bei)大(da)出(chu)的壹(yi)篇綜(zong)述(shu)裏(li)看(kan)到(dao)扩散模型對(dui)文本生成的应用的章(zhang)節(jie)里提(ti)到了(le)D3PM,就去(qu)看了看這(zhe)篇论文。實(shi)質(zhi)上(shang)參(can)考(kao)意(yi)義(yi)非(fei)常(chang)有限(xian),僅(jin)粗(cu)读了一遍(bian)在此(ci)簡(jian)單(dan)記(ji)錄(lu)一下。

D3PM筆(bi)者(zhe)認(ren)為(wei)最(zui)大的亮(liang)點(dian)在於(yu)泛(fan)化(hua)了扩散過(guo)程(cheng)里的扩散方(fang)式(shi)。還(hai)记得(de)在大一統(tong)視(shi)角(jiao)理(li)解扩散模型里,笔者復(fu)述了扩散模型的變(bian)分(fen)推(tui)导过程,其(qi)中(zhong)推导到最終(zhong)將(jiang)得到以下主要優(you)化的損(sun)失(shi)函(han)數(shu)。

扩散模型里的去噪(zao)匹(pi)配(pei)項(xiang)

而(er)具(ju)體(ti)怎(zen)麽(me)优化該(gai)损失函数,主要应用的是(shi)扩散模型里每(mei)一步(bu)加(jia)噪都(dou)是加高(gao)斯(si)噪聲(sheng)的性(xing)质,使(shi)得最终该函数里的每一项都可(ke)求(qiu)得具体的解析(xi)表(biao)達(da)式。但(dan)应用了高斯分布(bu)加噪主要是因(yin)为扩散模型主要針(zhen)对圖(tu)像(xiang)或(huo)者波(bo)形(xing)的生成,那(na)么如(ru)果(guo)要将扩散过程加入(ru)到離(li)散的变量(liang)里,是否(fou)可以用不(bu)同(tong)的加噪方式?论文指(zhi)出,主要要滿(man)足(zu)以下兩(liang)点:

该加噪方式应使得xt從(cong)q(xt|x0)中的采(cai)樣(yang)方便(bian)快(kuai)捷(jie)。使得我(wo)們(men)能(neng)夠(gou)对以上的去噪匹配项里的L_t-1在任(ren)意時(shi)間(jian)步上方便計(ji)算(suan)。

同时该加噪方式应使得q(xt-1| xt, x0)有方便计算的解析形式,使得我们计算去噪匹配项的KL散度(du)成为可能。

很(hen)明(ming)顯(xian),高斯噪声完(wan)美(mei)符(fu)合(he)以上两個(ge)要求。而作(zuo)者則(ze)提出了对于离散变量的加噪方式。具体的数理推导笔者按(an)下不表,但简单来說(shuo)就是定(ding)义了一系(xi)列(lie)轉(zhuan)移(yi)矩(ju)陣(zhen)。其中關(guan)于文本生成的转移矩阵的特(te)点在于基(ji)于概(gai)率(lv)在不同时间步将一个离散詞(ci)转为MASK 字(zi)符或者保(bao)持(chi)不变。

D3PM在文本生成上的扩散过程

笔者看到这里的时候(hou),發(fa)現(xian)这个形式和(he)笔者之(zhi)前(qian)調(tiao)研(yan)的非自(zi)回(hui)歸(gui)式生成里的CMLM特別(bie)相(xiang)像。感(gan)興(xing)趣(qu)的读者可以看看。如果是類(lei)似(si)该架(jia)構(gou)的扩散的話(hua),笔者认为该扩散模型的实现方式在語(yu)言(yan)质量上仍(reng)難(nan)談(tan)优秀(xiu)。CMLM类的非自回归模型,在文本生成质量上的確(que)难以匹敵(di)自回归式的生成模型。在逐(zhu)漸(jian)去噪的过程中逐步确定生成词的方式,实際(ji)上和CMLM的做(zuo)法(fa)沒(mei)有太(tai)大本质區(qu)别。笔者认为对比(bi)CMLM不太可能有质的提升(sheng)。

Diffusion-LM Improves Controllable Text Generation

相比于D3PM,这篇论文的主要創(chuang)新点在于定义了一个词嵌(qian)入的方程统一了扩散过程里离散到連(lian)續(xu)的狀(zhuang)態(tai)。我们可以看到D3PM本质上的扩散是在离散序(xu)列上做的。但是Diffusion-LM的具体做法是前向(xiang)时离散的字词首(shou)先(xian)通(tong)过词嵌入转为一系列连续的潛(qian)在向量。之後(hou)对每个连续向量不斷(duan)加高斯噪声進(jin)行(xing)前向扩散。后向时不断去噪並(bing)且(qie)最终将每个潜在向量量化到一个距(ju)离最近的词嵌入上。具体来说前向时从离散的词序列w到x0的过程为:

Emb为词嵌入方程,前向为从离散到连续

反(fan)向去噪到x0后,则要对每个潜在向量求一个距离最近的离散词。和生成过程中的解碼(ma)类似,用softmax即(ji)可。

后向为从连续到离散

在大一统视角理解扩散模型里,论文作者解釋(shi)了扩散模型的不同解读最终可以看做其变分下界(jie)里的去噪匹配项里对每一个时间步的潜在向量均(jun)值(zhi)mu_q的不同变形。其具体形式如下:

扩散模型的变分下界的最主要优化项的等(deng)價(jia)形式

而在将扩散模型应用到文本生成领域以后,因为多(duo)出的词嵌入的关系,作者在该基礎(chu)上增(zeng)添(tian)了两项词嵌入的优化:

多出的两项都和词嵌入直(zhi)接(jie)相关

在大一统视角理解扩散模型里,论文作者提到不同的扩散模型对每一时间步的均值的估(gu)计可以拆(chai)解成三(san)種(zhong)不同的解法。DDPM里是直接对噪声进行預(yu)測(ce),而作者lisa发现如果直接预测噪声會(hui)导致(zhi)最终去噪后的結(jie)果不对应任何(he)词嵌入。为了解決(jue)这个問(wen)題(ti)作者改(gai)为使用三种解法里的第(di)一种,即直接预测初(chu)始(shi)輸(shu)入x0。

每一步的优化目(mu)標(biao)其中之一是直接预测初始输入

基于从连续到离散难以对应的这个觀(guan)察(cha),作者还进一步提出了在解码做下遊(you)推断的时候,用clamp的方法把(ba)每一次(ci)f_theta预测出的初始输入“夾(jia)”到一个对应的词嵌入上后,再(zai)繼(ji)续去噪。并宣(xuan)稱(cheng)这样可以讓(rang)预测更(geng)準(zhun)确,減(jian)少(shao)rounding error。

當(dang)然(ran)这篇论文主要在讨论條(tiao)件(jian)生成这件事(shi)。从论文标题也(ye)可以看出。具体在条件生成上,作者用的是SongYang博(bo)士(shi)的Score-matching的角度用貝(bei)葉(ye)斯法则做的推导:

将条件生成拆解为两项

其中第二(er)项是个需(xu)要单獨(du)訓(xun)練(lian)的分类器(qi),其分类的梯(ti)度score用来更新扩散的输出。其中作者每一步扩散的时候都使用了多次梯度更新计算(3次adagrad),为了加速(su)解码作者将扩散步数T由(you)2000步下降(jiang)为200步。

至(zhi)此这篇论文的核(he)心(xin)要点笔者认为已(yi)經(jing)梳(shu)理完成。但笔者对这篇论文有几点质疑(yi)。

作者提到该扩散模型的速度比自回归式的预训练模型慢(man)了7倍(bei)。但笔者試(shi)跑(pao)了一下作者代(dai)码发现,用transformer做初始词的誤(wu)差(cha)估计,并且做200次去噪过程。实际生成一个句(ju)子在A100显卡(ka)上要花(hua)4-5分鐘(zhong),是自回归式生成类似長(chang)度的句子所(suo)耗(hao)时间的数十(shi)倍。

作者給(gei)的源代码十分混(hun)亂(luan),难以閱(yue)读和使用。但笔者对于其提到的即在有引(yin)导的条件生成上表现良(liang)好(hao),又(you)在無(wu)引导的开放(fang)生成上表现突(tu)出持保留(liu)态度。该质疑主要来源于笔者在非自回归模型里的一些感性经驗(yan)。该扩散模型的主要优化目标是每个潜在向量與(yu)其词嵌入的预测误差。似乎并没有对句子的整(zheng)体性有任何的要求。甚(shen)至就连P(w|x0)文章采取(qu)的建(jian)模方式也是每个字词的概率的独立(li)连乘(cheng)。这样強(qiang)假(jia)設(she)先验下的建模方式对模型能力(li)要求很高。可能在小(xiao)数據(ju)集(ji)小领域上可以达到較(jiao)好效(xiao)果,但复雜(za)的文本领域恐(kong)怕(pa)难以建模。笔者按照(zhao)作者的开源代码所训练出的结果也不理想(xiang)。但存(cun)在笔者简单嘗(chang)试下误用的可能。

Composable Text Control Operations in Latent Space with Ordinary Differential Equations

笔者自身(shen)对使用预训练模型作为基底(di)的VAE生成模型比较熟(shu)悉(xi),也一直在思(si)考扩散模型和文本生成的最佳(jia)方式是什(shen)么。Diffusion-LM在笔者看来仍有几个缺(que)陷(xian),其中比较大的一个是没有显式建模全(quan)句的生成质量。这点也是笔者自身想实验的点。另(ling)一个是其生成需要预先固(gu)定长度再开始去噪生成極(ji)大地(di)限制(zhi)了使用場(chang)景(jing)。

恰(qia)好最近发现了这篇text control with ODE论文。笔者认为在技(ji)術(shu)路(lu)線(xian)上,该论文比Diffusion-LM更为自洽(qia)和完善(shan)。一方面(mian)该论文是在VAE里的潜在空(kong)间上做扩散,同样是在连续空间上做扩散,该方法避(bi)免(mian)了Diffusion-LM仍需要训练词嵌入并且引发的一系列优化技巧(qiao)(包(bao)括(kuo)损失函数的增添项,clamp trick等)。该论文的做法使得扩散过程仅仅在一个低(di)維(wei)的连续空间上負(fu)責(ze)文本性质的控(kong)制。而在使得潜在向量具有相应的性质后,再将潜在向量交(jiao)由解码器去生成文本。这样做有三个好處(chu)。一方面,该做法避免了Diffusion-LM的定长生成的限制,另一方面因为文本生成依(yi)然交由自回归解码器生成,文本通暢(chang)程度也得到了一定保證(zheng)。最重(zhong)要的是,类似于stable-diffusion的出圈(quan), diffusion+VAE这种做法相比diffusion-LM快了将近两个数量級(ji)!

论文的核心流(liu)程图

对于扩散的具体流程来说,如果给定一个向量a={a_1, a_2, ..., a_n}为我们所希(xi)望(wang)擁(yong)有的所有性质的值的向量,并且規(gui)定f_i 为一个判(pan)断潜在向量z是否拥有相关性质a_i的能量模型(Energy-Based-Model)。那么我们可以得到以下表达式:

其中假定f_i为输出玻(bo)爾(er)茲(zi)曼(man)分布的能量模型

其中Pprior是VAE的高斯先验分布,而E(a|z)是定义在整个性质向量上的能量函数,其形式可以拆解为每个性质的能量函数的加權(quan)和。

对性质向量的能量函数可以定义为对每个性质的能量函数的加权和

并且每个能量函数都会以以下形式正(zheng)则化以避免尺(chi)度差異(yi)。

这是负的对数似然函数的表达式(normalized logits)

註(zhu)意对于扩散的起(qi)点P(T)来说,这是个标准的高斯分布,而扩散的终点P(0)是我们所定义的VAE的高斯先验,也是标准高斯分布。那么实际上我们扩散的每一步Pt(z)都服(fu)从标准高斯分布。将P(z), P(a|z)代入我们的ODE采样表达式后我们可以得到以下的ODE表达式

该扩散过程的ODE解

那么整个扩散采样的流程就很确定了。如果是生成新文本类的任務(wu),我们先从高斯先验中采样一个潜在向量Z,然后根(gen)据我们定义的能量模型的能量函数求解以上表达式。当然純(chun)高斯先验与VAE的后验不可能完全貼(tie)合。所以作者训练了一个单層(ceng)的GAN来近似VAE的后验網(wang)絡(luo)以采样P(T)。而如果是修(xiu)改已有句子的话就比较简单,直接通过VAE的encoder得到潜在向量z来作为P(T)。

本论文的主要貢(gong)獻(xian)如上。那么该论文的VAE+Difussion的路线和普(pu)通的CVAE相比有什么差异呢(ne):

CVAE 如果需要对某(mou)个性质做条件生成(如情(qing)感,关鍵(jian)词)需要大量数据对全量模型训练。但VAE+Diffusion不用,只(zhi)需要固定VAE額(e)外(wai)训练一个潜在向量的分类器做扩散引导即可。而在潜在向量上的分类器,首先维度低,参数量少,训练資(zi)源相比原(yuan)预训练模型低几个数量级!并且所需的训练数据也极少(原论文仅使用200条训练)

CVAE难以做到性质聚(ju)合,往(wang)往需要对不同性质的条件生成单独训练且训练出来的模型难以有效地聚合。但VAE+Diffusion在理论上展现了这种可能(当然是否有效仍需具体观察)。

不过VAE+Diffusion的模式仍存在几个问题笔者覺(jiao)得会导致条件生成的成功(gong)率不高,或者不如论文里“宣称”的那么高:

首先是分类器的准确度是需要考慮(lv)的问题。直接用VAE里的潜在向量去做分类而不是BERT的CLS去做分类笔者与笔者的同事做过相关实验。准确率相比CLS分类是有较为明显的下降的。这样的下降必(bi)然会影(ying)響(xiang)扩散引导的效果。

其次是解码器生成时的采样策(ce)略(lve)必然会导致一定的隨(sui)機(ji)性存在。哪怕是笔者自身训练的CVAE,在做特定的条件生成时往往也需要对同一个潜在向量重复采样以保证条件生成满足相关性质。

再次是关于多个条件聚合时,不同性质的条件聚合是否会出现明显的互(hu)相幹(gan)擾(rao),是否需要手(shou)動(dong)调整各(ge)个性质的比重系数也值得考虑。

自身实踐(jian)

笔者根据论文DELLA[1]复现训练了一个由两个Transformer-XL組(zu)成的VAE(其中transformer的每一层都会出一个潜在向量Z),根据上篇论文对一个電(dian)商(shang)正负情感評(ping)论的分类数据集做了以下几个步驟(zhou):

根据有标簽(qian)数据集生成一批(pi)帶(dai)标签的Latent-Vec数据

用这些带有特定性质的Latent-Vec训练一个情感二分类器

已知扩散过程的起点(Encoder的输出)和终点(带标签的Latent-vec)用分类器进行Nueral-ODE扩散。

其中笔者发现:

分类器的准确度的确不高,最高只能达到八(ba)成左(zuo)右(you)(分类器的架构没有进行太多探(tan)索(suo),只尝试了MLP的一些超(chao)参调整)。分类器雖(sui)然准确率一般(ban)但对性质改变已经足够。

生成的潜在向量确定性比较高,且速度很快。相比于Diffusion-LM需要5分钟左右的扩散时间生成一句话,VAE+diffusion的做法只需要几秒(miao)钟。

以下是几个情感极性扭(niu)转的生成样例(li)(没有经过任何挑(tiao)選(xuan)):

原句1(负面):呵(he)呵了 这物(wu)流速度也是没誰(shui)了 同城(cheng)网購(gou)竟(jing)然三天(tian)了还不到。

改寫(xie)句1:呵呵了 这物流速度也是没谁了 同城网购居(ju)然还可以很不錯(cuo) 哈(ha)哈.

原句2(正面): 还不错,等试用一段(duan)时间再说

改写句2: 还不行,等试用一段时间再说

原句3(负面): 買(mai)错了,自己(ji)是榮(rong)耀(yao)7,悲(bei)哀(ai)了,不管(guan)商家(jia)的事,鬼(gui)火(huo)綠(lv)

改写句3:买对了,自己是荣耀7,呵呵,感謝(xie)商家的事,快樂(le)了,不管火鬼绿

原句4(负面):一次很差的购物 手机到手后 没仔(zai)細(xi)檢(jian)查(zha) 晚(wan)上检查发现手机背(bei)面有劃(hua)痕(hen)聯(lian)系了客(ke)服说換(huan) 但是 后面他(ta)们打(da)电话说不能更换 反正就是各种各样的借(jie)口(kou)

改写句4: 一次很漂(piao)亮的购物 手机上检查 后手机没受(shou)划 具体使用体验可以打电话客服詢(xun)问 后来她(ta)说我不错 而且说都是精(jing)心计划 以后说但是一定要注意换三端(duan)的电话 感觉没有各种各样的借口

参考资料(liao):

^DELLA https://arxiv.org/abs/2207.06130

https://zhuanlan.zhihu.com/p/561233665

本文来自知乎答(da)主中森(sen),若(ruo)进行二次转載(zai),向原作者进行申(shen)請(qing)。返(fan)回搜(sou)狐(hu),查看更多

责任编辑:

发布于:山东淄博高青县