2016最新广告公司名单，不容错过！

头条号

2016最新广告公司名单,不容错过！

时代在不断变化，广告行业也随之发展。伴随着移动互联网的崛起，新的广告公司层出不穷。如果你希望在2016年成功打造品牌，排名世界广告公司前列，那么必须了解最新的广告公司名单。

1.广告公司的分类

在了解广告公司之前，必须知道广告公司的分类。广告公司一般分为：全案广告公司、创意广告公司、数字广告公司、媒体广告公司、公关广告公司和专门服务于某一行业的广告公司。不同的公司有着不同的优势和侧重点。接下来我们将为您介绍顶级广告公司。

2.全案广告公司

全案广告公司通常为客户提供全方位的品牌建设服务，包括品牌策划、创意设计、广告制作、公关推广、互联网营销等服务。全案广告公司的规模通常较大，服务品质也更有保障。2016年排名前列的全案广告公司有：

1. WPP集团

WPP集团是全球最大的广告与媒体投资管理集团，下属公司遍布全球。其服务对象主要是各类知名品牌和企业。该机构已被业内专家评为最具活力企业之一。

2. Omnicom集团

Omnicom集团是一家主要从事广告、市场营销和公关的跨国公司，总部位于纽约。其最大的客户是可口可乐、百事可乐、迪士尼、IBM等知名品牌。

3.创意广告公司

创意广告公司是指提供广告创意设计服务的公司，该公司的设计师团队通常熟悉市场潮流和消费者需求，可以针对客户的需求，提供创意的设计方案。2016年排名前列的创意广告公司有：

1. Publicis Groupe

Publicis Groupe是一家跨国广告营销公司，总部位于法国巴黎。该公司是全球最大的创意广告公司之一。其服务对象主要是金融、汽车、电信、医药和消费品制造等领域。

2. DDB

DDB是一家全球性的创意广告公司，总部位于美国纽约。该公司的服务对象主要是餐饮、汽车、零售、金融等行业。其设计作品一直是业界的佳话。

4.数字广告公司

数字广告公司是指专门从事移动互联网广告业务的公司，其服务包括社交媒体营销、搜索引擎营销、网站建设和移动应用开发等。2016年排名前列的数字广告公司有：

1. Tencent广告

腾讯广告是国内领先的数字广告公司之一，其服务包括搜索、微信广告、QQ广告、微信朋友圈广告等。腾讯广告最大的优势在于其独特的流量资源和用户数据。

2. Baidu广告

百度广告是国内最大的搜索引擎广告公司之一，其服务包括搜索、百度推广、品牌广告、网盟营销等。该公司在搜索引擎领域拥有无可比拟的优势，可以为客户提供多种定制化的广告策略。

在2016年，以上广告公司名单都值得关注和信赖。如果你想在品牌营销方面取得成功，对于这些广告公司的了解是必要的。选择最适合自己的广告公司能够为企业节省时间和金钱，帮助企业更快地进入市场，取得更大的成功。

问答话题

1.如何选择最适合自己的广告公司？

答：在选择广告公司之前，首先需要明确自己的需求，然后根据不同的需求选择不同的广告公司。其次需要了解所选广告公司的相关经验和成果，可以通过广告公司的官方网站进行了解。最后可以结合自己的预算和选择公司的规模进行考虑。

2.数字广告公司与传统广告公司有何不同？

答：数字广告公司主要从事移动互联网广告业务，其服务更加专业化和定制化。传统广告公司则更关注品牌和创意，服务领域更广泛。

2016最新广告公司名单，不容错过！特色

1、恋爱交友，强大互动，实时系统！

2、菜品多样，各种黑科技的加入，不仅可以体验菜品，还可以攻略姑娘；

3、误入官场游戏

4、【组建你的家庭】

5、在拥有权威训练指导的同时，还可以上传晒出你的训练动态，结识一众志同道合的伙伴；

2016最新广告公司名单，不容错过！亮点

1、农场专家0是一款真实的农场经营游戏，真实的模拟场景让你化身大农场主

2、可以及时在线查询更多商品需求，通过二维码上传更多信息。

3、它是完全免费使用的，好的东西是共享的，没有回报

4、行车视频云端访问

5、通过不断的练习和书写，用户可以写出更多高质量的汉字。

lianaijiaoyou，qiangdahudong，shishixitong！caipinduoyang，gezhongheikejidejiaru，bujinkeyitiyancaipin，haikeyigonglveguniang；wuruguanchangyouxi【zujiannidejiating】zaiyongyouquanweixunlianzhidaodetongshi，haikeyishangchuanshaichunidexunliandongtai，jieshiyizhongzhitongdaohedehuoban；清(qing)華(hua)朱(zhu)軍(jun)團(tuan)隊(dui)新(xin)作(zuo)：使(shi)用(yong)4位(wei)整(zheng)數(shu)訓(xun)練(lian)Transformer，比(bi)FP16快(kuai)2.2倍(bei)，提(ti)速(su)35.1%，加(jia)速AGI到(dao)來(lai)！

新智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：Aeneas 潤(run)

【新智元導(dao)讀(du)】清华朱军团队提出(chu)的(de)INT4算(suan)法(fa)，解(jie)決(jue)了(le)超(chao)低(di)INT精(jing)度(du)训练的挑(tiao)戰(zhan)。LLM训练效(xiao)率(lv)要(yao)起(qi)飛(fei)了！

將(jiang)激(ji)活(huo)、權(quan)重(zhong)和(he)梯(ti)度量(liang)化(hua)為(wei)4位，有(you)望(wang)加速神(shen)經(jing)網(wang)絡(luo)训练。

然(ran)而(er)，現(xian)有的4位训练方(fang)法需(xu)要自(zi)定(ding)義(yi)数字(zi)格(ge)式(shi)，而现代(dai)硬(ying)件(jian)不(bu)支(zhi)持(chi)這(zhe)種(zhong)格式。

最(zui)近(jin)，清华朱军团队提出了壹(yi)种使用INT4算法實(shi)现所(suo)有矩(ju)陣(zhen)乘(cheng)法的Transformer训练方法。

使用超低INT4精度進(jin)行(xing)训练，是(shi)非(fei)常(chang)具(ju)有挑战性(xing)的。为了实现这一目(mu)標(biao)，研(yan)究(jiu)者(zhe)仔(zai)細(xi)分(fen)析(xi)了Transformer中(zhong)激活和梯度的具體(ti)結(jie)構(gou)，为它(ta)們(men)提出專(zhuan)用的量化器(qi)。

對(dui)於(yu)前(qian)向(xiang)傳(chuan)播(bo)，研究者確(que)定了異(yi)常值(zhi)的挑战，並(bing)提出了Hadamard量化器来抑(yi)制(zhi)异常值。

对于後(hou)向传播，他(ta)们通(tong)過(guo)提出位分割(ge)，来利(li)用梯度的结构稀(xi)疏(shu)性，并利用分数采(cai)樣(yang)技(ji)術(shu)来準(zhun)确量化梯度。

这种新的算法，在(zai)自然語(yu)言(yan)理(li)解、機(ji)器翻(fan)譯(yi)和圖(tu)像(xiang)分類(lei)等(deng)廣(guang)泛(fan)任(ren)務(wu)上(shang)，都(dou)实现了具有競(jing)爭(zheng)力(li)的准确性。

原(yuan)型(xing)線(xian)性算子(zi)運(yun)算速度比FP16同(tong)类算子快2.2倍，训练速度提高(gao)了35.1%。

論(lun)文(wen)地(di)址(zhi)：https://arxiv.org/abs/2306.11987

代碼(ma)地址：https://github.com/xijiu9/Train_Transformers_with_INT4

全(quan)新的INT 4训练算法

训练神经网络对計(ji)算的要求(qiu)很(hen)高。使用低精度算术进行训练（完(wan)全量化训练/FQT）有望提高计算和內(nei)存(cun)效率。

FQT方法在原来的全精度计算图中添(tian)加了一些(xie)量化器和反(fan)量化器，并用消(xiao)耗(hao)更(geng)小(xiao)的低精度浮(fu)點(dian)运算，代替(ti)了消耗更高的浮点运算。

FQT的研究旨(zhi)在降(jiang)低训练数值精度，而不犧(xi)牲(sheng)太(tai)多(duo)的收(shou)斂(lian)速度或(huo)精度。

所需的数值精度已(yi)從(cong)FP16降低到FP8、INT32+INT8和INT8+INT5。

FP8训练是在帶(dai)有Transformer引(yin)擎(qing)的Nvidia H100 GPU中实现的，加速了大(da)規(gui)模(mo)Transformer的训练。最近的训练数值精度，已经降到了4位。

然而，这些4位训练方法不能(neng)直(zhi)接(jie)用于加速，因(yin)为它们需要自定义数字格式，而现代硬件不支持这些格式。

首(shou)先(xian)，前向传播中的不可(ke)微(wei)量化器，會(hui)使損(sun)失(shi)情(qing)況(kuang)變(bian)得(de)崎(qi)嶇(qu)不平(ping)，基(ji)于梯度的優(you)化器很容(rong)易(yi)陷(xian)入(ru)局(ju)部(bu)最优。

其(qi)次(ci)，梯度僅(jin)仅以(yi)低精度近似(si)计算。这种不精确的梯度会減(jian)慢(man)训练过程(cheng)，甚(shen)至(zhi)导致(zhi)训练不穩(wen)定或發(fa)散(san)。

而在这項(xiang)工(gong)作中，研究者为Transformer提出了一种新穎(ying)的INT4训练算法。

训练Transformer的所有高消耗的线性运算，都可以寫(xie)在矩阵乘法（MM）的形(xing)式中。

这种MM形式，可以讓(rang)我(wo)们設(she)计更靈(ling)活的量化器，通过利用Transformer中激活、权重和梯度的特(te)定结构，就(jiu)可以更好(hao)地近似于FP32矩阵乘法。

隨(sui)机数值线性代数 (RandNLA) 領(ling)域(yu)的进步(bu)，被(bei)这种量化器充(chong)分利用。

对于前向传播，研究者发现，激活中的异常值是精度下(xia)降的主(zhu)要原因。

为了抑制异常值，他们提出了Hadamard量化器，它会对激活矩阵的变換(huan)版(ban)本(ben)进行量化。这种变换是塊(kuai)对角(jiao)Hadamard矩阵，它将離(li)群(qun)值中攜(xie)带的信(xin)息(xi)传播到矩阵的鄰(lin)近條(tiao)目，从而縮(suo)小了离群值的数值範(fan)圍(wei)。

对于后向传播，他们利用了激活梯度的结构稀疏性。研究者发现，一些token的梯度非常大。同時(shi)，其余(yu)大多数token的梯度非常均(jun)勻(yun)，甚至比較(jiao)大梯度的量化殘(can)差(cha)更均匀。

因此(ci)，與(yu)其计算所有梯度，不如(ru)節(jie)省(sheng)计算较大梯度残差的计算資(zi)源(yuan)。

为了利用这种稀疏性，研究者提出了位分割，将每(mei)個(ge)token的梯度分割为高4位和低4位。

然后，通过杠(gang)桿(gan)分数采样（leverage score sampling）来選(xuan)擇(ze)信息最豐(feng)富(fu)的梯度，这是RandNLA的一种重要采样技术。

结合(he)前向和后向传播的量化技术，研究者提出了一种使用INT4MM进行Transformer中所有线性运算的算法，并且(qie)評(ping)估(gu)了在各(ge)种任务上训练Transformer的算法，包(bao)括(kuo)自然语言理解、問(wen)答(da)、机器翻译和图像分类。

与现有的4位训练算法相(xiang)比，他们的算法实现了有竞争力的或更高的精度。

此外(wai)，这种算法与GPU等當(dang)代硬件兼(jian)容，因为它不需要FP4或对数格式等自定义的数字格式。

这种原型量化+INT4 MM算子实现，速度比FP16MM基线快2.2倍，并且将训练速度提高了35.1%。

相關(guan)工作

完全量化训练

完全量化训练 (FQT) 方法通过将激活、权重和梯度量化为低精度来加速训练，因此训练期(qi)間(jian)的线性和非线性算子可以用低精度算术来实现。

FQT的研究设计了新颖的数值格式和量化算法，可以更好地逼(bi)近全精度張(zhang)量。

目前的研究前沿(yan)是4位FQT。由(you)于梯度的数值范围很大以及(ji)从頭(tou)開(kai)始(shi)训练量化网络的优化问題(ti)，FQT具有挑战性。

由于这些挑战，现有的4位FQT 算法在某(mou)些任务上的精度仍(reng)然下降了1-2.5%，并且無(wu)法支持当代硬件。

其他有效的训练方法

混(hun)合专家(jia)在不增(zeng)加训练預(yu)算的情况下提高了模型容量。

结构性dropout利用计算有效的方法来正(zheng)則(ze)化模型。高效的註(zhu)意(yi)力降低了计算注意力的二(er)次时间復(fu)雜(za)度。

分布(bu)式训练系(xi)統(tong)通过利用更多的计算资源，减少(shao)了训练时间。

研究者降低数值精度的工作与这些方向具有正交(jiao)性。

前向传播

神经网络训练是一个叠(die)代优化过程，通过前向和后向传播计算随机梯度。

研究团队使用4位整数(INT4)算法加速前向和后向传播。

正向传播能以线性和非线性(GeLU, normalization, softmax等)算子的組(zu)合来实现。

在我们的训练过程中，我们用INT4算术加速所有线性运算符(fu)，并将所有计算量较小的非线性运算符保(bao)留(liu)在16位浮点(FP16)格式中。

Transformer中的所有线性运算都可以写成(cheng)矩阵乘法(MM)的形式。

为了便(bian)于表(biao)述(shu)，本文考(kao)慮(lv)以下簡(jian)單(dan)矩阵乘法的加速：

这种MM的最主要用例(li)是全連(lian)接層(ceng)。

考虑一个輸(shu)入形狀(zhuang)为(批(pi)量大小S，序(xu)列(lie)長(chang)度T，維(wei)度D)的Transformer。

全连接层可以表述成上邊(bian)的公(gong)式，其中X是N = STtoken的激活，W是权重矩阵。

对于注意力层，可能需要批量矩阵乘法(BMMS)。

我们提出的技术可以應(ying)用于BMMS。

學(xue)習(xi)步长量化（Learned Step Quantization）

为了加速训练，必(bi)須(xu)使用整数运算来计算前向传播。

研究人(ren)員(yuan)为此目的，利用学习步长量化器（LSQ）。

LSQ是靜(jing)態(tai)量化，他的量化尺(chi)度不依(yi)賴(lai)于输入的方法，因此比動(dong)态方法消耗更小，量化方法，需要在每次迭代时动态计算量化尺度。

激活异常值

简单地将LSQ应用到具有4位激活/权重的FQT会导致精度下降，因为会激活异常值。

如上图所示(shi)，激活有一些离群值条目，它们是其规模比其他条目大得多。

不幸(xing)的是，Transformers傾(qing)向于将信息存儲(chu)在这些异常值中，而且这样的截(jie)斷(duan)会嚴(yan)重损害(hai)准确性。

当训练任务是在一些新的下遊(you)任务上微調(tiao)预训练模型时，异常值问题尤(you)为明(ming)顯(xian)。

因为预训练模型比随机初(chu)始化包含(han)更多的异常值。

Hadamard量化

我们提出了Hadamard量化（HQ）来解决异常值问题。

其主要思(si)想(xiang)是将另(ling)一个具有较少异常值的线性空(kong)间中的矩阵进行量化。

激活矩阵中的异常值形成了一个特征(zheng)结构（feature-wise structure）。

他们通常集(ji)中在幾(ji)个维度上，也(ye)就是說(shuo)X中只(zhi)有几列显著(zhu)大于其他列。

哈(ha)達(da)瑪(ma)变换（Hardamand transform）是一个线性变换，它可以将异常值分攤(tan)到其他条目中。

后向传播

现在我们考虑使用INT4操(cao)作来加速线性层的后向传播。

我们将在本节中討(tao)论激活梯度/权重梯度的计算。

梯度的结构稀疏性

我们注意到，在训练过程中梯度矩阵往(wang)往非常稀疏。

而且稀疏性具有这样的结构：

的几行（比如tokens）具有较大的条目，而大多数其他行卻(que)接近全零(ling)向量。

这种结构稀疏性源于现代神经网络的严重过度參(can)数化。

几乎(hu)在整个训练过程中，网络都以超参数化方案(an)运行，除(chu)了一些困(kun)難(nan)的例子之(zhi)外，它可以很好地適(shi)应大多数训练数據(ju)。

因此，对于擬(ni)合良(liang)好的数据点，（激活）梯度将接近于零。

研究人员发现对于预训练任务，例如，经过几个训练周(zhou)期后，结构稀疏性很快就会出现。

对于微调任务，梯度整个训练过程中始終(zhong)是稀疏的。

位分割（Bit Splitting）和杠杆分数采样(Leverage Score Sampling)

如何(he)设计梯度量化器，以利用结构稀疏性在反向传播期间准确计算MM呢(ne)？

高級(ji)的思路(lu)是：梯度的許(xu)多行都是如此小，对参数梯度影(ying)響(xiang)很小，但(dan)浪(lang)費(fei)了大量的计算量。

另一方面(mian)，大行无法用INT4精确表示。

我们放(fang)棄(qi)掉(diao)一些小行并使用节省下来的计算能力来更准确地表示大行。

实驗(yan)

研究人员在包括语言模型在内的各种任务上评估我们的INT4训练算法微调、机器翻译和图像分类。

研究人员用CUDA和cutlass執(zhi)行了他们提出的HQ-MM和LSS-MM算法。

研究人员用INT4实现替换所有浮点线性运算符，但沒(mei)有简单地使用LSQ来嵌(qian)入层，并保持最后一个分类器层的精度。

最后研究人员对所有评估的模型采用了默(mo)認(ren)架(jia)构、优化器、调度器和超参数。

收敛模型精度

研究人员在下表中比较了收敛模型在各种任务上的准确性。

作为对照(zhao)的方法包括全精度训练（FP）、INT8训练（INT8）、FP4训练（「超低」），使用LSQ进行激活和权重(LSQ+LUQ)的4 位对数量化，以及我们这种利用HQ进行前向传播，利用LSS进行反向传播（HQ+LSS）的算法。

「超低」没有公开的实现，因此我们仅列出了它在机器上的原始论文中的性能翻译任务。

除了大型机器翻译任务和大型視(shi)覺(jiao)Transformer任务之外，我们将每次运行重复三(san)次，并将标准差报告(gao)为表中的下标。

研究人员没有进行任何类型的知(zhi)識(shi)蒸(zheng)餾(liu)或数据增強(qiang)。

消融(rong)实验

研究人员进行的消融实验目的是展(zhan)示前向和后向方法的有效性。

研究不同量化器的前向传播的有效性，我们将后向传播留在FP16中。

结果(guo)如下图所示。

计算和内存效率

最后，研究人员通过评估他们的原型实现，展示了他们的方法加速神经网络训练的潛(qian)力。

而且他们的实施(shi)還(hai)没有完全优化。

研究人员也没有将线性算子与非线性和歸(gui)一化进行融合。

因此，结果不能完全反映(ying)INT4训练算法的潜力。

完全优化的实施需要大量工程，超出了我们论文的讨论范围。

结论

研究人员提出了一种对硬件很友(you)好的Transformer INT4的训练方法。

通过分析Transformer中MM的屬(shu)性，研究人员提出了HQ和LSS方法来量化激活和梯度，同时保持准确性。

在几个重要任务上，我们的方法与现有的INT4方法表现相当，甚至更好。

研究人员的这些工作可能会擴(kuo)展到除了Transformers之外的其他MM架构中，例如 MLP-Mixer、图神经网络和循(xun)環(huan)神经网络网络。

这是他们未(wei)来的研究方向。

更广泛的影响：研究人员的算法可以提高效率并减少训练神经网络的能源消耗，这有助(zhu)于减少深(shen)度学习造(zao)成的碳(tan)排(pai)放。

但是，高效的训练算法还可能促(cu)进那(na)些，对于人来安(an)全存在隱(yin)患(huan)的大语言模型和惡(e)意人工智能应用程序的开发。

比如，会被用于虛(xu)假(jia)内容生(sheng)成的相关模型和应用。

限(xian)制：这项工作的主要限制是它只能加速具有较大规模的矩阵乘法（线性层）的大模型，但不能加速卷(juan)積(ji)层。

而且，所提出的方法还不能很好地适用于OPT-175B等超大模型。

据我们所知，即(ji)使是INT8训练对于这些超大型模型来说仍然是尚(shang)待(dai)解决的问题。

参考资料(liao)：

https://arxiv.org/abs/2306.11987返(fan)回(hui)搜(sou)狐(hu)，查(zha)看(kan)更多

責(ze)任编辑：