平面香水创意广告

平面香水创意广告的魅力

平面广告的创意是吸引消费者的关键，特别是对于香水这种需要视觉和嗅觉双重感受的产品，创意广告可以让消费者在第一眼就产生强烈的兴趣。平面广告的优势在于可以无限制地创造各种鲜明的视觉效果，如黑白画面、强烈的对比、颜色搭配等等。这些效果可以让消费者记住广告，进而产生购买欲望。例如下面这张图片，通过创意的构图和配色，让香水的气息跳脱出平凡，显得更加高雅神秘。

创意广告的另一个优点是可以让品牌形象更加鲜明。对于香水品牌来说，品牌形象是非常重要的，因为它可以让消费者更好地认识和了解品牌。通过创意的广告设计，品牌的形象可以更加丰富和立体化，让消费者在脑海中留下深刻的印象。例如下面这张图片，通过鲜明的色彩和简洁的文字，展现了品牌的高贵、优雅和神秘。

创意广告的设计要素

创意广告的设计要素包括文字、颜色、构图和配图等等。首先，文字的设计应该简洁明了，突出品牌的特点和卖点。其次，颜色的运用应该符合品牌形象和产品特点，例如大多数香水广告会采用浅粉、淡蓝、淡紫等颜色，突出香水的高雅和神秘感。此外，构图的设计也非常重要，应该突出产品的特点和卖点，让消费者一眼就能看到重点。最后，配图的选择也需要与品牌的形象和产品特点相符合，例如下面这张图片，通过美女和花朵的搭配，突出了香水的优雅、高贵和浪漫气息。

总结

在平面香水创意广告设计中，创意是吸引消费者的关键。通过文字、颜色、构图和配图等多方面的设计，可以让品牌形象更加鲜明，产品特点更加突出。香水广告的创意应该符合品牌的形象和产品特点，突出香气、高贵和神秘感等特点。创意广告的设计要素需要综合考虑，才能让广告效果更加出色。

平面香水创意广告特色

1、高清逼真的d游戏画面，带你感受最为真实的枪战体验；

2、勇闯乱世三界，技能的解锁让你逐步的提升自我，原来当神仙是一键这么好玩的事情；

3、vip优先服务通道，便于您在短时间锁定优质房源。

4、模仿实在的驾驭手感自由操作，完成进展影响的驾驭挑战使命;

5、带上一个好的基地朋友，一起起飞。游戏v以黑色打开，边玩边聊天

平面香水创意广告亮点

1、用户还可以一键切换引擎

2、软件当中的一些功能，能够让用户快速的享受一些平静的生活。

3、不断更新的娃娃全部在这里，随时随地抓娃娃，抓到的娃娃邮寄到您的手中。

4、优秀经验分享等各功能为一体的移动学习平台。

5、单机版，在线版，随你怎么玩！

gaoqingbizhendedyouxihuamian，dainiganshouzuiweizhenshideqiangzhantiyan；yongchuangluanshisanjie，jinengdejiesuorangnizhubudetishengziwo，yuanlaidangshenxianshiyijianzhemehaowandeshiqing；vipyouxianfuwutongdao，bianyuninzaiduanshijiansuodingyouzhifangyuan。mofangshizaidejiayushouganziyoucaozuo，wanchengjinzhanyingxiangdejiayutiaozhanshiming;daishangyigehaodejidipengyou，yiqiqifei。youxivyiheisedakai，bianwanbianliaotian100億(yi)參(can)數(shu)的(de)語(yu)言(yan)模(mo)型(xing)跑(pao)不(bu)動(dong)？MIT華(hua)人(ren)博(bo)士(shi)提(ti)出(chu)SmoothQuant量(liang)化(hua)，內(nei)存(cun)需(xu)求(qiu)直(zhi)降(jiang)壹(yi)半(ban)，速(su)度(du)提升(sheng)1.56倍(bei)！

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：LRS

【新智元導(dao)讀(du)】一個(ge)簡(jian)單(dan)的量化操(cao)作(zuo)，讓(rang)妳(ni)運(yun)行(xing)大(da)規(gui)模语言模型的GPU需求量直接(jie)降低(di)一半！

大型语言模型（LLM）雖(sui)然(ran)性(xing)能(neng)強(qiang)勁(jin)，但(dan)动輒(zhe)幾(ji)百(bai)上(shang)千(qian)亿的参数量，對(dui)計(ji)算(suan)設(she)備(bei)還(hai)是(shi)内存的需求量之(zhi)大，都(dou)不是一般(ban)公(gong)司(si)能承(cheng)受(shou)得(de)住(zhu)的。

量化（Quantization）是常(chang)見(jian)的壓(ya)縮(suo)操作，通(tong)過(guo)降低模型權(quan)重(zhong)的精(jing)度（如(ru)32bit降為(wei)8bit），犧(xi)牲(sheng)一部(bu)分(fen)模型的性能來(lai)換(huan)取(qu)更(geng)快(kuai)的推(tui)理(li)速度，更少(shao)的内存需求。

但对於(yu)超(chao)过1000亿参数量的LLM来說(shuo)，現(xian)有(you)的压缩方(fang)法(fa)都無(wu)法保(bao)持(chi)模型的準(zhun)確(que)率(lv)，也(ye)无法在(zai)硬(ying)件(jian)上高(gao)效(xiao)地(di)运行。

最(zui)近(jin)，麻(ma)省(sheng)理工(gong)學(xue)院(yuan)和(he)英(ying)偉(wei)達(da)的研(yan)究(jiu)人員(yuan)聯(lian)合(he)提出了(le)一个通用(yong)後(hou)訓(xun)練(lian)的量化（GPQ, general-purpose post-training quantization）方案(an)SmoothQuant，对大型语言模型可(ke)以(yi)高效實(shi)现8-bit权重，8-bit激(ji)活(huo)（W8A8）的量化，无需训练也能保持模型的准确率。

論(lun)文(wen)鏈(lian)接：https://arxiv.org/pdf/2211.10438.pdf

代(dai)碼(ma)链接：https://github.com/mit-han-lab/smoothquant

由(you)于激活相(xiang)比(bi)权重更難(nan)量化，SmoothQuant通过数学等(deng)價(jia)變(bian)换將(jiang)較(jiao)难量化的激活遷(qian)移(yi)到(dao)权重上，实现了对激活異(yi)常值(zhi)（activation outliers）的平(ping)滑(hua)處(chu)理。

SmoothQuant能夠(gou)对所(suo)有LLM的各(ge)種(zhong)層(ceng)中(zhong)权重和激活量化到INT8，包(bao)括(kuo)OPT-175B, BLOOM-176B和GLM-130B。

相比现有方法僅(jin)对权重進(jin)行靚(liang)貨(huo)，或(huo)者(zhe)对激活进行混(hun)合精度的量化，SmoothQuant有更高的硬件效率，实现了1.56倍加(jia)速，内存需求仅为原(yuan)始(shi)LLM的一半，並(bing)且(qie)在准确率上几乎(hu)沒(mei)有損(sun)失(shi)。

SmoothQuant同(tong)時(shi)具(ju)有硬件友(you)好(hao)的设计，研究人员将SmoothQuant集(ji)成(cheng)进了LLM服(fu)務(wu)框(kuang)架(jia)FasterTransformer中，实现了更快的推理速度，相比FP16的精度仅需一半数量的GPU

文章(zhang)的第(di)一作者肖(xiao)光(guang)烜(hui)是MIT EECS的一年(nian)級(ji)博士生(sheng)，本(ben)科(ke)畢(bi)業(ye)于清(qing)华大学计算機(ji)科学與(yu)技(ji)術(shu)学院。

导師(shi)Song Han是MIT EECS的副(fu)教(jiao)授(shou)，博士毕业于斯(si)坦(tan)福(fu)大学，主(zhu)要(yao)研究方向(xiang)为高效深(shen)度学習(xi)，曾(zeng)提出深度压缩（deep compression）技术，可以将神(shen)經(jing)網(wang)絡(luo)的尺(chi)寸(cun)降低一个数量级，而(er)不损失准确率。

SmoothQuant

量化（Quantization）就(jiu)是把(ba)高精度的值映(ying)射(she)到更低精度的離(li)散(san)值，在這(zhe)篇(pian)论文中研究人员主要關(guan)註(zhu)对硬件更高效的整(zheng)数均(jun)勻(yun)量化（integer uniform quantization），尤(you)其(qi)是INT8。

量化操作可以在不同的粒(li)度上執(zhi)行，如per-tensor量化應(ying)用于整个权重矩(ju)陣(zhen)，per-token量化应用于激活中的每(mei)个token，per-channel量化应用于权重的每个輸(shu)出通道。

通过对激活的量化結(jie)果(guo)进行觀(guan)察(cha)，研究人员總(zong)结出了几个模式(shi)：

1、量化比权重更难量化。

权重的分布(bu)相对更加均匀和平坦，之前(qian)的研究结果已(yi)经證(zheng)明(ming)将大型语言模型的权重降低到INT8，甚(shen)至(zhi)到INT4对准确率的影(ying)響(xiang)都不大。

2、异常值是激活量化中的主要难點(dian)。

激活中的异常值通常比正(zheng)常值要高出100倍左(zuo)右(you)，导致(zhi)没有异常值通道中的量化bits/levels效率很(hen)低。

3、异常值固(gu)定(ding)在某(mou)一通道中出现。

异常值只(zhi)在很小(xiao)一部分的通道中才(cai)會(hui)出现，但如果一个通道中有一个异常值，那(na)該(gai)异常值可能会在所有的token中出现。

給(gei)定一个token中所有通道的方差(cha)会很大（一些(xie)通道会非(fei)常大，但大部分很小），但是给定一个通道在所有token度中的方差会很小（异常值通道会很大）。

由于异常值具有持續(xu)出现和每个通道内小方差的特(te)点，那如果对激活执行per-channel量化，其量化誤(wu)差将会遠(yuan)远小于per-tensor量化。

通过一个简单的实驗(yan)，其结果再(zai)次(ci)验证了研究人员的想(xiang)法，量化到INT8时，per-channel的准确率远远高于per-tensor和per-token量化，和FP16基(ji)線(xian)准确率相差无几。

研究人员通过使(shi)用一个per-channel平滑因(yin)子(zi)s来将输入(ru)激活进行平滑(smooth)。为了保持线性层的数学等价，还需要反(fan)向缩放(fang)权重。

由于输入X通常是由之前的线性操作生成的（如线性层、层norms等），所以就可以很容(rong)易(yi)地将平滑因子融(rong)合到之前层的参数offline，而且不会產(chan)生額(e)外(wai)缩放的内核(he)調(tiao)用開(kai)銷(xiao)。对于其他(ta)情(qing)況(kuang)，比如當(dang)输入来自(zi)殘(can)差add时，可以向残差分支(zhi)添(tian)加一个额外的缩放。

将量化难度從(cong)激活轉(zhuan)移到权重

Smooth的目(mu)標(biao)是選(xuan)擇(ze)一个per-channel的平滑因子s，使该逆(ni)操作更易于量化。

为了減(jian)少量化误差，应该增(zeng)加所有通道的有效量化比特。当所有通道的最大magnitude相同时，总的有效量化位(wei)数将是最大的。

因此(ci)，一个最直接的平滑因子选择就是输入中每个通道的最大值，可以保证在劃(hua)分之后，所有的激活通道都有相同的最大值，从而实现更容易的量化。

但需要注意(yi)的是，激活的範(fan)圍(wei)是动態(tai)的，对于不同的输入樣(yang)本是不同的。所以研究人员使用預(yu)训练数據(ju)集中的校(xiao)准样本来估(gu)计激活通道的规模。

由于这个公式将所有的量化困(kun)难迁移给了权重，可以發(fa)现在这种情况下(xia)，权重的量化误差会很大，导致准确性下降很多(duo)。

另(ling)一方面(mian)，也可以通过选择sj = 1/ max(|Wj |)，将所有的量化难度从权重推到激活上。同样，由于激活量化误差过大，模型的性能也不好。因此需要在权重和激活之間(jian)分割(ge)量化难度，使它(ta)們(men)都易于量化。

研究人员引(yin)入一个超参数迁移强度α，来控(kong)制(zhi)要从激活迁移到权重的难度。

可以发现，对于大多数模型，例(li)如OPT和BLOOM模型，α=0.5是一个很好的平衡(heng)点，可以平均分配(pei)量化难度，特別(bie)是使用相同的量化器(qi)进行权重和激活。

该公式保证了相应通道的权重和激活具有相似(si)的最大值，从而共(gong)享(xiang)相同的量化难度。

对于其他一些激活异常值比较大的模型，例如GLM-130B有30%的异常值，这对激活量化来说比较困难，可以选择一个较大的α（如0.75），将更多的量化难度迁移到权重上。

SmoothQuant应用于Transformer塊(kuai)

线性层占(zhan)据了LLM模型的大部分参数和计算。在默(mo)認(ren)情况下，SmoothQuant对Transformer中所有线性层的输入激活进行比例平滑，并用W8A8对线性层进行量化，在注意力(li)计算中啟(qi)用了BMM运算符(fu)的量化。

在流(liu)程(cheng)中，首(shou)先(xian)用INT8对线性层和注意力层中的BMM等计算量大的运算符的输入和权重进行量化，而对其他輕(qing)量级元素(su)的运算，如Softmax和LayerNorm，保持激活为FP16，这样的设计有助(zhu)于平衡准确性和推理效率。

实验部分

研究人员选择了三(san)个大型语言模型用来評(ping)估SmoothQuant，包括OPT, BLOOM和GLM-130B；并使用七(qi)个zero-shot任(ren)务，包括LAMBADA, HellaSwag, PIQA, WinoGrande, OpenBookQA, RTE, COPA等。

实验结果顯(xian)示(shi)SmoothQuant可以处理非常大的LLM的量化問(wen)題(ti)，其激活更难量化。

SmoothQuant可以在所有评估数据集上匹(pi)配FP16的准确性，而W8A8、ZeroQuant和Outlier Suppression基线产生的结果几乎是隨(sui)机的。

并且SmoothQuant可以无损地量化所有超过100B参数的开放式LLMs

SmoothQuant的O1和O2级成功(gong)地保持了浮(fu)点精度，而O3级（per-tensor static）使平均精度下降了0.8%，可能是因为靜(jing)态收(shou)集的統(tong)计数据与真(zhen)实评估样本的激活统计数据之间的差异。

盡(jin)管(guan)如此，SmoothQuant-O1可以与FP16的准确性相匹配，而SmoothQuant-O3只降低了1%的准确性，明显優(you)于基线。

SmoothQuant不仅对超过100B参数的非常大的LLM有效，而且对较小的LLM也有穩(wen)定的效果，SmoothQuant可以在所有规模的OPT模型上工作，并与INT8量化的FP16精度相匹配。

为了展(zhan)示集成到PyTorch和FasterTransformer中的SmoothQuant-O3的速度提升和内存節(jie)省，研究人员我(wo)们測(ce)量了一次生成一批(pi)4个句(ju)子的所有隱(yin)藏(zang)狀(zhuang)态的端(duan)到端延(yan)遲(chi)，也就是context階(jie)段(duan)的延迟，并記(ji)錄(lu)了这个过程中GPU内存使用的峰(feng)值。

由于Huggingface缺(que)乏(fa)对模型并行的支持，所以研究人员只测量了SmoothQuant在单个GPU上的PyTorch实现的性能，因此选择了OPT-6.7B、OPT-13B和OPT-30B进行评估。

在FasterTransformer庫(ku)中，SmoothQuant可以与Tensor Parallelism算法无縫(feng)对接，因此研究人员在OPT-13B、OPT-30B、OPT-66B和OPT-175B上测試(shi)SmoothQuant的单GPU和多GPU基准。

在NVIDIA A100 80GB GPU服务器上进行的实验结果显示，基于PyTorch实现的推理延迟和峰值内存使用上，SmoothQuant始終(zhong)比FP16基线快，当序(xu)列(lie)長(chang)度为256时，在OPT-30B上獲(huo)得了1.51倍的速度提升。

还可以看(kan)到一个趨(qu)勢(shi)，即(ji)模型越(yue)大，加速越明显，但LLM.int8几乎总是比FP16基线慢(man)，这也是由于混合精度激活表(biao)示的巨(ju)大开销造(zao)成的。

在内存方面，SmoothQuant和LLM.int8都可以将FP16模型的内存用量几乎减半，而SmoothQuant由于完(wan)全(quan)使用INT8 GEMM，所以节省的内存稍(shao)多。

与FasterTransformer对OPT的FP16实现相比，SmoothQuant-O3在使用单个GPU时可以进一步(bu)降低OPT-13B和OPT-30B的执行延迟，最高可达1.56倍。

参考(kao)資(zi)料(liao)：

https://www.reddit.com/r/MachineLearning/comments/z1b2rp/r_smoothquant_accurate_and_efficient_posttraining/返(fan)回(hui)搜(sou)狐(hu)，查(zha)看更多

責(ze)任编辑：