cpa广告联盟操作技巧

CPA广告联盟是什么？

CPA（Cost per Action）广告联盟是一种广告形式，它以某种特定行为为计费标准，例如注册、订阅、下载、购买等，而不是以点击量为计费标准。CPA广告联盟对于广告主来说，可以更加精准地获取目标客户，同时可以减少不必要的广告投放成本。对于广告发布者来说，可以获得更高的收益和更好的用户体验。

CPA广告联盟

CPA广告联盟操作技巧

在进行CPA广告联盟操作时，有几个技巧是需要注意的：

1. 选对广告联盟。不同的广告联盟有着不同的特点和优势，需要根据自己的产品和受众选择适合自己的广告联盟。例如，适合消费者产品的广告联盟和适合企业产品的广告联盟有着不同的特点。

2. 选择合适的广告形式。CPA广告联盟的广告形式有众多选择，例如横幅广告、弹出广告、原生广告等。需要根据自己的产品和受众选择适合自己的广告形式。

3. 精准定位目标受众。CPA广告联盟的优势在于可以精准定位目标受众，因此需要对自己的目标受众进行深入的了解，以便选择合适的广告联盟和广告形式。

CPA广告联盟操作技巧

CPA广告联盟的优势

CPA广告联盟相比于传统广告形式，具有以下几个优势：

1. 精准定位目标受众。CPA广告联盟可以通过用户行为和兴趣等多维度数据，精准定位目标受众，从而提高广告的转化率。

2. 减少不必要的广告投放成本。CPA广告联盟以特定行为为计费标准，可以减少不必要的点击量，同时提高广告转化率，从而降低广告投放成本。

3. 提高广告收益。CPA广告联盟可以根据广告的转化情况，来提高广告发布者的收益，同时可以提高广告的精准性和有效性。

CPA广告联盟的优势

结论

通过学习CPA广告联盟的操作技巧和优势，在进行营销推广时可以更加高效和精准。然而需要注意的是，不同的产品和受众需要采用不同的策略，需要根据具体情况进行选取，同时也需要遵循中国广告法和诚实守信的原则。

cpa广告联盟操作技巧特色

1、随性pk，精彩纷呈！

2、丰富多样的剧情种类，其中包括主线外传等等分支令人充分了解到机动世界的宏大世界观；

3、包名：comlattuzhonghuei

4、职业特色技能，自选炫酷羽翼

5、用心做好软件是我们的初衷，欢迎使用者积极提供自己的需求。

cpa广告联盟操作技巧亮点

1、万年魂兽，魂环吸收魂兽森林，任性猎杀;万年魂环，随意吸收

2、应用魔法彩妆，完美你的风格

3、枪王射击红包游戏下载

4、优化了一些Bug

5、在商城里购买新的高级建筑，高级的建筑可以收或更多的金币，坐等收金币的大富豪就是你;

suixingpk，jingcaifencheng！fengfuduoyangdejuqingzhonglei，qizhongbaokuozhuxianwaichuandengdengfenzhilingrenchongfenlejiedaojidongshijiedehongdashijieguan；baoming：comlattuzhonghueizhiyetesejineng，zixuanxuankuyuyiyongxinzuohaoruanjianshiwomendechuzhong，huanyingshiyongzhejijitigongzijidexuqiu。速(su)度(du)驚(jing)人(ren)！手(shou)機(ji)跑(pao)Stable Diffusion，12秒(miao)出(chu)圖(tu)，谷(gu)歌(ge)加(jia)速擴(kuo)散(san)模(mo)型(xing)破(po)記(ji)錄(lu)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：桃(tao)子(zi) 拉(la)燕(yan)

【新智元導(dao)讀(du)】手机12秒壹(yi)鍵(jian)生(sheng)图？谷歌最(zui)新研(yan)究(jiu)做(zuo)到(dao)了(le)。

手机生图只(zhi)要(yao)12秒？

這(zhe)不(bu)是(shi)吹(chui)的(de)，谷歌就(jiu)給(gei)實(shi)現(xian)了。

最新研究中(zhong)，谷歌研究人員(yuan)對(dui)4個(ge)GPU分(fen)層(ceng)優(you)化(hua)，在(zai)三(san)星(xing)手机上(shang)成(cheng)功(gong)運(yun)行(xing)Stable Diffusion 1.4。

实现了11.5秒生成图像(xiang)，重(zhong)要的是，內(nei)存(cun)使(shi)用(yong)量(liang)也(ye)大(da)幅(fu)減(jian)少(shao)。

正(zheng)所(suo)謂(wei)，Speed Is All You Need！

論(lun)文(wen)地(di)址(zhi)：https://arxiv.org/abs/2304.11267

谷歌最新提(ti)出的方(fang)法(fa)是通(tong)用的，可(ke)以(yi)对所有(you)扩散模型的改(gai)進(jin)，並(bing)非(fei)僅(jin)針(zhen)对特(te)定(ding)設(she)備(bei)实现的。

通過(guo)实驗(yan)結(jie)果(guo)發(fa)现，三星S23 Ultra和(he)iPhone 14 Pro的整(zheng)體(ti)图像生成時(shi)間(jian)分別(bie)减少了52%和33%。

这意(yi)味(wei)著(zhu)(zhe)，一部(bu)手机裝(zhuang)下(xia)一个生成式(shi)AI模型的未(wei)來(lai)更(geng)近(jin)了。

從(cong)3080到一部手机

當(dang)前(qian)，將(jiang)大型扩散模型合(he)并到任(ren)何(he)APP中的一个關(guan)键考(kao)慮(lv)因(yin)素(su)是，模型将在何處(chu)執(zhi)行選(xuan)擇(ze)。

在一个消(xiao)費(fei)級(ji)设备上部署(shu)模型的好(hao)处是，較(jiao)低(di)的服(fu)務(wu)成本(ben)、改善(shan)扩展(zhan)性(xing)、還(hai)可以離(li)線(xian)，并且(qie)能(neng)改善用戶(hu)隱(yin)私(si)。

22年(nian)，Stable Diffusion剛(gang)刚发布(bu)的第(di)一个版(ban)本，最初(chu)只能緩(huan)慢(man)运行在RTX 3080上。

Stable Diffusion有超(chao)过10億(yi)的參(can)數(shu)，DALL-E是120亿，以後(hou)隨(sui)着扩散模型的发展，参数量會(hui)逐(zhu)漸(jian)增(zeng)加。

由(you)於(yu)设备計(ji)算(suan)和内存資(zi)源(yuan)的限(xian)制(zhi)，因此(ci)在运行时帶(dai)来了諸(zhu)多(duo)挑(tiao)戰(zhan)。

在沒(mei)有精(jing)心(xin)设计情(qing)況(kuang)下，在设备上运行这些(xie)模型可能会导致(zhi)，由于叠(die)代(dai)去(qu)噪(zao)过程(cheng)和过多的内存消耗(hao)，輸(shu)出内容(rong)延(yan)遲(chi)就会增加。

此前，也有研究实现了将Stable Diffusion成功部署到设备上，但(dan)仅局(ju)限于特定的设备或(huo)芯(xin)片(pian)組(zu)。

对此，谷歌研究人员对大型扩散模型提供(gong)了一系(xi)列(lie)实现优化，这些模型在配(pei)备 GPU 的移(yi)動(dong)设备上实现了迄(qi)今(jin)為(wei)止(zhi)报道的最快(kuai)推(tui)理(li)延迟。

在不使用INT8量化的情况下，对于一張(zhang)512x512的图片进行20次(ci)迭代，Stable Diffusion 1.4的推理延迟低于12秒。

具(ju)体是如(ru)何实现的呢(ne)？

GPU感(gan)知(zhi)优化

在论文中，研究人员側(ce)重的是使用大型扩散模型，然(ran)后完(wan)成从文本描(miao)述(shu)生成图像的任务。

雖(sui)說(shuo)论文中，部分討(tao)论是研究者(zhe)为Stable Diffusion特定结構(gou)所提出的优化建(jian)議(yi)，但这些优化可以很(hen)容易(yi)推廣(guang)到其(qi)它(ta)大型扩散模型上。

研究人员表(biao)示(shi)，当用文本提示进行推理时，这个过程包(bao)含(han)根(gen)據(ju)所需(xu)的文本描述，應(ying)用額(e)外(wai)條(tiao)件(jian)来指(zhi)导反(fan)向(xiang)扩散。

具体来说，Stable Diffusion的主(zhu)要组成部分包括(kuo)：文本嵌(qian)入(ru)器(qi)（Text Embedder）、噪聲(sheng)生成（Noise Generation）、去噪神(shen)經(jing)網(wang)絡(luo)（Denoising Neural Network，aka UNet），以及(ji)图像解(jie)碼(ma)器（Image Decoder）。

如下图所示：

Stable Diffusion中主要组件及其相(xiang)互(hu)作(zuo)用的示意图

下面(mian)，我(wo)們(men)分别介(jie)紹(shao)一下这幾(ji)个组成部分，各(ge)部分间的关系参照(zhao)图。

· 文本嵌入器：

利(li)用CLIP模型对文本提示y进行编码，生成一个高(gao)維(wei)嵌入向量τθ(y)，将文本提示的語(yu)義(yi)封(feng)装进去。該(gai)嵌入被(bei)当作去噪神经网络的输入，为逆(ni)向扩散的过程提供指示。

· 噪声生成：

给潛(qian)在空(kong)间提供随机噪声z，该噪声作为逆向扩散过程的起(qi)始(shi)點(dian)。

· 去噪神经网络：

该网络被设计为近似(si)p(z|y)形(xing)式的条件分布，利用条件去噪自(zi)动编码器θ(zt, t, τθ(y))（denoising autoencoder）。每(mei)次迭代t采(cai)用UNet架(jia)构。

同(tong)时，交(jiao)叉(cha)註(zhu)意机制（cross-attention mechanism）被用来操(cao)作潜在空间和文本嵌入向量，在迭代过程中預(yu)測(ce)z的去噪版本。

· 图像解码器：

逆行扩散过程在潜在空间中进行。一旦(dan)这个过程完成，图像解码器D被用来从潜在矢(shi)量中重建RGB图像。

研究人员在整个UNet架构中实现了群(qun)组歸(gui)一化（Group normalization，GN）。

这種(zhong)归一化技(ji)術(shu)的工(gong)作原(yuan)理是将特征(zheng)图（feature map）的pipeline劃(hua)分为较小(xiao)的组，并对每个组进行獨(du)立(li)的归一化，使GN对批(pi)次大小的依(yi)賴(lai)性降(jiang)低，更適(shi)合于各种大小的批次和各种网络结构。

应用公(gong)式①，每个特征值(zhi)

被归一化为其所屬(shu)组的组均(jun)值

和方差(cha)

。

（公式①）

研究人员并没有依次执行上述提到的重塑(su)、平(ping)均值、方差和归一化的所有操作，而(er)是以GPU Shader的形式设计了一个特别的程序(xu)，在一个GPU命(ming)令(ling)中执行所有这些操作，無(wu)需中间流(liu)程。

这裏(li)先(xian)介绍一下Gaussian Error Linear Unit（GELU）。

GELU作为模型中普(pu)遍(bian)存在的激(ji)活(huo)函(han)数，包含許(xu)多数值计算，如乘(cheng)法、加法和高斯(si)誤(wu)差函数，如公式②所示。

研究人员弄(nong)了一个專(zhuan)門(men)的Shader来整合这些数值计算及其伴(ban)随的分割(ge)和乘法操作，使其在一次繪(hui)图調(tiao)用中完成执行。

（公式②）

穩(wen)定扩散中的文本/图像變(bian)換(huan)器有助(zhu)于对条件分布P(z|τθ(y))进行建模，这对文本到图像的生成任务至(zhi)关重要。

然而，自我/交叉注意力(li)机制在处理長(chang)序列时遇(yu)到了困(kun)難(nan)，因为它们的时间和内存復(fu)雜(za)性是平过方的。在论文中，研究人员介绍了兩(liang)种可能的优化，旨(zhi)在缓解这些计算瓶(ping)頸(jing)。

一种是Partially Fused Softmax，另(ling)一种是FlashAttention。

下面仅以Softmax为例(li)。

上图是在注意力模塊(kuai)中，优化过的softmax实现。

虛(xu)线以上的流程图描述的是直(zhi)接(jie)在矩(ju)陣(zhen)

中应用softmax的初始实现。

虚线以下的展示的則(ze)是修(xiu)正后的模块（紅(hong)色(se)部分）。

總(zong)而言(yan)之(zhi)，论文中研究人员提出了一整套(tao)优化方案(an)，可以在各种设备上执行大型扩散模型时，共(gong)同達(da)到了突(tu)破性的延迟数字(zi)。

这些改进扩大了模型的通用性，并提高了在各种设备上的整体用户体验。

12秒，業(ye)界(jie)領(ling)先

为了評(ping)估(gu)改进后的模型，研究人员分别在三星S23 Ultra (Adreno 740) 和iPhone 14 Pro Max (A16) 进行了一组基(ji)準(zhun)测試(shi)。

作为去噪神经网络，UNet是计算需求(qiu)最高的组件。

研究人员提供了执行單(dan)次迭代的UNet所需的延迟数据，以毫(hao)秒为单位(wei)测量，图像分辨(bian)率(lv)为512x512。

此外，他(ta)们记录了运行时生成的中间张量在「Tensor」列中的内存使用情况，以及为保(bao)存模型權(quan)重分配的内存在「Weight」列中的使用情况，均以兆(zhao)字節(jie)为单位。

請(qing)注意，内存管(guan)理器通过重用中间张量的缓沖(chong)區(qu)来优化内存占(zhan)用。

如表中数据顯(xian)示，第一行显示了在公共Github倉(cang)庫(ku)中使用内部OpenCL内核(he)实现，但没有任何优化的结果。

实现之后的结果，并且研究者在没有任何优化的情况下使用内部OpenCL内核。

第2-5行，分别逐个啟(qi)用每个优化：

Opt. Softmax：部分融(rong)合的softmax和优化的softmax减少步(bu)驟(zhou)

S-GN/GELU：用于组归一化和GELU的专用内核

FlashAttn.：FlashAttention实现

Winograd(All)：采用Winograd卷(juan)積(ji)

随着每个优化的启用，实验结果发现延迟逐步减少。

與(yu)基线相比(bi)，在两种设备上都(dou)觀(guan)察(cha)到了显著的总体延迟降低：三星S23 Ultra 降低52.2%，iPhone 14 Pro Max降低32.9%。

此外，研究人员还评估了在三星S23 Ultra进行文本到图像输出端(duan)到端延迟。

进行了20次去噪迭代，生成一张512x512图像，实现了不到12秒的业界领先结果。

可見(jian)，在没有数据連(lian)接或雲(yun)服务器的情况下，在手机上本地运行生成式人工智能模型，将開(kai)辟(pi)了许多可能性。

谷歌最新研究给出了一种全(quan)新方案。

参考资料(liao)：

https://arxiv.org/abs/2304.11267

https://www.reddit.com/r/MachineLearning/comments/12zclus/d_google_researchers_achieve_performance/返(fan)回(hui)搜(sou)狐(hu)，查(zha)看(kan)更多

責(ze)任编辑：