广告沙发, 沙发广告 - 完美搭配!

广告沙发, 沙发广告 - 完美搭配!

广告是商家推销产品和服务的重要手段,对于企业的发展至关重要。而广告的传播,离不开有力的媒介渠道。其中,软广告的形式受到越来越多企业的青睐,而广告沙发则是软广告形式中的佼佼者。本文将从四个方面,对广告沙发的优势与发展趋势进行分析。

一、广告沙发的优势

1. 受众广泛:广告沙发一般设立在商场等人流密集区域,受众范围广泛,覆盖面广。2. 形式多样:广告沙发不仅可以是户外的,也可以是室内的,形式包括电视机、电脑等多种,可以根据企业需求进行定制。3. 可交互性:广告沙发还可以与受众进行互动,通过触摸屏、二维码等方式,让受众更加深入地了解企业及其产品。4. 费用低廉:相比传统媒体广告,广告沙发的费用相对较低,而且效果明显,特别对于小型企业来说是一种很好的广告选择。

二、广告沙发的发展趋势

1. 数字化:未来广告沙发将越来越数字化,形式更加丰富多样,同时也更加便于投放和管理。2. 个性化和定制化:未来广告沙发将逐渐采用个性化和定制化的模式,企业可以根据自己的需求,量身定制广告。3. 多媒体融合:未来广告沙发将与其他多媒体形式进行融合,如大数据、云计算等,从而更好地服务于企业的需求。

三、广告沙发的适用范围

广告沙发适用于各类企业,无论是大型企业还是小型企业。在商场、机场、酒店等人流密集的区域,广告沙发都可以起到很好的宣传作用。特别是对于一些需要进行深度宣传的企业,如旅游、餐饮、地产等,广告沙发是一种不错的选择。

四、广告沙发的案例分析

1. 海林市本地店:这是一家位于海林市的小型服装店,面积不大,但是经营非常成功。此店采用了广告沙发宣传模式,在商场设有广告沙发,通过不断播放店铺的产品、活动等,吸引了很多消费者前来购物。2. 韩国人气美食连锁店:这是一家在中国大陆开设分店的韩国美食连锁店,使用了一批广告沙发进行宣传。广告沙发中介绍了韩国美食的文化背景、特色菜品等,深入描绘出了韩国美食的魅力,吸引了很多消费者前来品尝。

结论

广告沙发是一种新型的广告宣传手段,具有受众广泛、形式多样、可交互性、费用低廉等优势。未来,广告沙发将越来越数字化、个性化和定制化,同时也将与其他多媒体进行融合,更好地服务于企业宣传需求。广告沙发适用于各类企业,在商场、机场、酒店等人流密集区域都可以发挥很好的宣传作用。通过以上的案例分析,可以看出广告沙发对于企业的宣传效果是非常明显的。

问答话题

1. 广告沙发设立需要什么条件?答:广告沙发一般需要在人流密集的商场、机场、酒店等区域设立。同时,也需要有足够的设备、程序以及人工维护和管理。2. 广告沙发与传统广告宣传方式相比,有什么优势?答:相比传统广告宣传方式,广告沙发不仅具有受众广泛、形式多样、可交互性等优势,而且费用相对较低,特别对于小型企业来说是一种比较好的选择。

广告沙发, 沙发广告 - 完美搭配!随机日志

附件中心统一查看邮箱所有邮件的附件,支持主流文档格式在线预览;

1、家长、学生可以找班主任找回帐号和密码。

2、健康生理指标可以监测,个人的心率变化频率可以一清二楚;

3、随着Teleport蜘蛛探索每个新页面,它将页面的添加项插入项目图。您可以点击项目图中的任何一个年龄选择它。检索到该页面的文件将显示在文件中列表。

4、通常,我们文档中不同级别的标题,字体样式或尺寸会有所不同。我们刚才已经告诉编辑器一级标题的字体和尺寸特征。同一个级别的标题(相同字体、相同尺寸的标题)就不要再重复标记了。然后,我们滚动页面,将鼠标移到下一个级别的标题(字体或尺寸不同的标题)上,在重复上述步骤,标定级别的标题。如下图所示。

5、您可以与好友实时聊天(类似于QQ、MSN功能)、同时可以插入位置标签、出行方案、自绘制地图、图片和文件,好友收到后一点击就显示在他的地图上,一目了然。根据好友分享给您的位置,您可以在地图上轻松绘制一条线路并发送给他,非常直观的在他地图上显示,为他指路。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>英(ying)偉(wei)達(da)帝(di)國(guo)的(de)壹(yi)道(dao)裂(lie)縫(feng)

來(lai)源(yuan):矽(gui)基(ji)研(yan)習(xi)社(she)

作(zuo)者(zhe):何(he)律(lv)衡(heng)/戴(dai)老(lao)板(ban)

2012年(nian),AI圈(quan)發(fa)生(sheng)了(le)兩(liang)件(jian)大(da)事(shi),按(an)時(shi)間(jian)順(shun)序(xu),第(di)一件是(shi)谷(gu)歌(ge)組(zu)團(tuan)已(yi)久(jiu)的Google Brain发布(bu)“出(chu)道作”——一個(ge)能(neng)夠(gou)識(shi)別(bie)貓(mao)的深(shen)度(du)學(xue)习網(wang)絡(luo)“谷歌猫”,74.8%的识别準(zhun)確(que)率(lv),比(bi)知(zhi)名(ming)识别圖(tu)像(xiang)大賽(sai)ImageNet前(qian)一年獲(huo)勝(sheng)算(suan)法(fa)的74%還(hai)要(yao)高(gao)出0.8%。

但(dan)谷歌的高光(guang)时刻(ke)只(zhi)持(chi)續(xu)了幾(ji)个月(yue)。2012年12月,最(zui)新(xin)一屆(jie)ImageNet的获胜者出爐(lu),深度学习大神(shen)Hinton及(ji)其(qi)弟(di)子(zi)帶(dai)著(zhu)(zhe)卷(juan)積(ji)神經(jing)网络AlexNet,將(jiang)识别正(zheng)确率一舉(ju)提(ti)高到(dao)了84%,由(you)此(ci)開(kai)啟(qi)了之(zhi)後(hou)十(shi)年的AI革(ge)命(ming),谷歌猫則(ze)被(bei)埋(mai)進(jin)了歷(li)史(shi)的塵(chen)埃(ai)之中(zhong)。

Hinton和(he)两位(wei)学生,2012年

讓(rang)業(ye)內(nei)震(zhen)驚(jing)的不(bu)只是ImageNet模(mo)型(xing)本(ben)身(shen)。這(zhe)个需(xu)要1400萬(wan)張(zhang)图片(pian)、總(zong)計(ji)262千(qian)万億(yi)次(ci)浮(fu)點(dian)運(yun)算訓(xun)練(lian)的神经网络,一个星(xing)期(qi)的训练過(guo)程(cheng)中僅(jin)用(yong)了四(si)顆(ke)英伟达Geforce GTX 580。作為(wei)參(can)考(kao),谷歌猫用了1000万张图片、16000颗CPU、1000臺(tai)计算機(ji)[1]。

傳(chuan)言(yan)Google在(zai)这一年也(ye)秘(mi)密(mi)参加(jia)了比赛,其受(shou)到的震撼(han)直(zhi)接(jie)體(ti)現(xian)在接下(xia)来的行(xing)動(dong)上(shang):Google一邊(bian)豪(hao)擲(zhi)了4400万美(mei)元(yuan)收(shou)購(gou)了Hinton团隊(dui),一边馬(ma)上向(xiang)英伟达下單(dan)大量(liang)GPU用来人(ren)工(gong)智(zhi)能训练,而(er)且(qie)同(tong)时“掃(sao)貨(huo)”的还有(you)微(wei)軟(ruan)、Facebook等(deng)一眾(zhong)巨(ju)頭(tou)。

英伟达成(cheng)为最大的贏(ying)家(jia),股(gu)價(jia)在接下10年裏(li)最高漲(zhang)了121倍(bei)。一个帝国誕(dan)生了。

但帝国的上空(kong),逐(zhu)漸(jian)聚(ju)攏(long)了两朵(duo)烏(wu)雲(yun)。當(dang)年向英伟达扫货的Google,在三(san)年后攜(xie)AlphaGo惊艷(yan)亮(liang)相(xiang),並(bing)在2017年擊(ji)敗(bai)了人類(lei)冠(guan)軍(jun)柯(ke)潔(jie)。敏(min)銳(rui)的人发现,驅(qu)动AlphaGo的芯(xin)片不再(zai)是英伟达的GPU,而是Google自(zi)研的TPU芯片。

再过三年,相似(si)劇(ju)情(qing)重(zhong)演(yan)。曾(zeng)经被黃(huang)仁(ren)勛(xun)一度視(shi)为標(biao)桿(gan)客(ke)戶(hu)的特(te)斯(si)拉(la)也告(gao)别英伟达GPU,先(xian)是推(tui)出了以(yi)NPU为核(he)心(xin)的FSD車(che)載(zai)芯片,然(ran)后又(you)拿(na)出了用来搭(da)建(jian)AI训练集(ji)群(qun)的D1芯片——这意(yi)味(wei)着英伟达接連(lian)里失(shi)去(qu)了AI时代(dai)里两个最重要的客户。

到了2022年,全(quan)球(qiu)IT周(zhou)期进入(ru)下行階(jie)段(duan),云计算大廠(chang)紛(fen)纷削(xue)減(jian)數(shu)據(ju)中心的GPU采(cai)购預(yu)算,區(qu)塊(kuai)鏈(lian)挖(wa)礦(kuang)大潮(chao)也逐渐冷(leng)卻(que),加上美国對(dui)華(hua)芯片禁(jin)令(ling)導(dao)致(zhi)無(wu)法向国内出售(shou)A100/H100等高端(duan)顯(xian)卡(ka),英伟达庫(ku)存(cun)暴(bao)增(zeng),股价從(cong)最高点一度跌(die)去了2/3。

2022年底(di)ChatGPT橫(heng)空出世(shi),GPU作为大模型“煉(lian)丹(dan)”的燃(ran)料(liao)再次遭(zao)到哄(hong)搶(qiang),英伟达获得(de)喘(chuan)息(xi),但第三朵乌云隨(sui)之而来:2023年4月18號(hao),著名科(ke)技(ji)媒(mei)体The Information爆(bao)料:本輪(lun)AI浪(lang)潮的发起(qi)者微软,正在秘密研发自己(ji)的AI芯片[2]。

这款(kuan)名叫(jiao)Athena的芯片由台积電(dian)代工,采用5nm先进制(zhi)程,微软研发团队人数已经接近(jin)300人。很(hen)明(ming)显,这款芯片目(mu)标就(jiu)是替(ti)代昂(ang)貴(gui)的A100/H100,給(gei)OpenAI提供(gong)算力(li)引(yin)擎(qing),并最終(zhong)一定(ding)會(hui)通(tong)过微软的Azure云服(fu)務(wu)来抢奪(duo)英伟达的蛋(dan)糕(gao)。

微软目前是英伟达H100最大的采购方(fang),甚(shen)至(zhi)一度传出要“包(bao)圓(yuan)”H100全年的產(chan)能。来自微软的分(fen)手(shou)信(xin)号无疑(yi)是一道晴(qing)天(tian)霹(pi)靂(li),要知道,即(ji)使(shi)在Intel最灰(hui)暗(an)的时候(hou),其客户也沒(mei)有一家“敢(gan)於(yu)”自造(zao)CPU芯片(除(chu)了蘋(ping)果(guo),但苹果并不对外(wai)銷(xiao)售)。

盡(jin)管(guan)英伟达目前憑(ping)借(jie)GPU+NVlink+CUDA壟(long)斷(duan)了AI算力90%的市(shi)場(chang),但帝国已经出现了第一道裂缝。

01、本不为AI而生的GPU

打(da)从一开始(shi),GPU就不是为AI所(suo)生。

1999年10月英伟达发布了GeForce 256,这是一款基于台积电220納(na)米(mi)工藝(yi)、集成了2300万个晶(jing)体管的图形(xing)處(chu)理(li)芯片。英伟达把(ba)Graphics Processing Unit的首(shou)字(zi)母(mu)「GPU」提炼出来,把GeForce 256冠以“世界(jie)上第一块GPU”稱(cheng)号,巧(qiao)妙(miao)地(di)定義(yi)了GPU这个新品(pin)类,并占(zhan)据这个詞(ci)的用户心智直到今(jin)天。

而此时人工智能已经沈(chen)寂(ji)多(duo)年,尤(you)其是深度神经网络領(ling)域(yu),Geoffery Hinton和Yann LeCun等未(wei)来的图靈(ling)獎(jiang)获得者們(men)还在学術(shu)的冷板凳(deng)上坐(zuo)着,他(ta)们万万不会想(xiang)到自己的職(zhi)业生涯(ya),会被一块本来为遊(you)戲(xi)玩(wan)家开发的GPU所徹(che)底改(gai)變(bian)。

GPU为誰(shui)所生?图像。更(geng)准确地說(shuo),是为CPU从图像显示(shi)的苦(ku)力活(huo)中解(jie)放(fang)出来而生。图像显示的基本原(yuan)理是将每(mei)一幀(zhen)的图像分割(ge)成一颗颗像素(su),再对其进行頂(ding)点处理,图元处理,柵(zha)格(ge)化(hua)、片段处理、像素操(cao)作等多个渲(xuan)染(ran)处理,最终得以显示在屏(ping)幕(mu)上。

从像素到图像的处理过程 图源:graphics compendium

为什(shen)麽(me)说这是苦力活呢(ne)?做(zuo)一个簡(jian)单的算术題(ti):

假(jia)定屏幕上有30万颗像素,以60fps帧率计算,每秒(miao)需要完(wan)成1800万次渲染,每次包含(han)上述(shu)五(wu)个步(bu)驟(zhou),对應(ying)五條(tiao)指(zhi)令,也就是说,CPU每秒要完成9000万条指令才(cai)能實(shi)现一秒的畫(hua)面(mian)呈(cheng)现,作为参考,当时英特爾(er)性(xing)能最高的CPU每秒算力才6000万次。

不怪(guai)CPU弱(ruo),而是其本就以線(xian)程調(tiao)度見(jian)長(chang),为此将更多的空间让渡(du)给了控(kong)制单元和存儲(chu)单元,用于计算的计算单元只占据20%的空间。GPU则相反(fan),80%以上空间是计算单元,带来了超(chao)強(qiang)并行计算能力,更適(shi)合(he)图片显示这種(zhong)步骤固(gu)定、重復(fu)枯(ku)燥(zao)的工作。

CPU和GPU内部(bu)結(jie)構(gou),綠(lv)色(se)部分为运算单元

直到几年后,一些(xie)人工智能学者才意识到,具(ju)備(bei)这樣(yang)特性的GPU也适用于深度学习的训练。很多经典(dian)的深度神经网络架(jia)构早(zao)在20世紀(ji)下半(ban)葉(ye)就已经被提出,但因(yin)为缺(que)乏(fa)训练它(ta)们的计算硬(ying)件,很多研究(jiu)只能“紙(zhi)上談(tan)兵(bing)”,发展(zhan)长期停(ting)滯(zhi)。

1999年10月的一聲(sheng)炮(pao)響(xiang),给人工智能送(song)来了GPU。深度学习的训练过程是对每个輸(shu)入值(zhi)根(gen)据神经网络每層(ceng)的函(han)数和参数进行分层运算,最终得到一个输出值,跟(gen)图形渲染一样都(dou)需要大量的矩(ju)陣(zhen)运算——这恰(qia)巧就是GPU最擅(shan)长的東(dong)西(xi)。

一个典型的深度神经网络架构;图源:towards data science

不过图像显示雖(sui)然数据处理量龐(pang)大,但大部分步骤是固定的,而深度神经网络一旦(dan)运用至決(jue)策(ce)领域,会涉(she)及到分支(zhi)结构等复雜(za)情況(kuang),每层的参数又需要基于海(hai)量数据正負(fu)反饋(kui)训练来不断修(xiu)正。这些差(cha)别为日(ri)后GPU对于AI的适应性埋下了隱(yin)患(huan)。

如(ru)今的亞(ya)马遜(xun)AI/ML总经理Kumar Chellapilla是最早吃(chi)到GPU螃(pang)蟹(xie)的学者。2006年他使用英伟达的GeForce 7800显卡第一次实现了卷积神经网络(CNN),发现比使用CPU要快(kuai)4倍。这是已知最早将GPU用于深度学习的嘗(chang)試(shi)[3]。

Kumar Chellapilla和英伟达Geforce 7800

Kumar的工作并未引起廣(guang)泛(fan)的註(zhu)意,很重要的原因是基于GPU編(bian)寫(xie)程序的复杂度很高。但恰在此时,英伟达于2007年推出了CUDA平(ping)台,开发者利(li)用GPU来训练深度神经网络的難(nan)度大幅(fu)度降(jiang)低(di),这让深度学习教(jiao)徒(tu)们看(kan)到了更多希(xi)望(wang)。

随后便(bian)是2009年,斯坦(tan)福(fu)的吳(wu)恩(en)达等人发表(biao)了突(tu)破(po)性的一篇(pian)論(lun)文(wen)[6],GPU凭借超过CPU 70倍的算力将AI训练时间从几周縮(suo)短(duan)到了几小(xiao)时。这篇论文为人工智能的硬件实现指明了方向。GPU大大加速(su)了AI从论文走(zou)向现实的过程。

Andrew Ng(吴恩达)

值得一提的是,吴恩达于2011年加入Google Brain,是开篇提到的谷歌猫項(xiang)目领导者之一。Google Brain最终没能用上GPU的原因,外人不得而知,但之后吴恩达離(li)开谷歌加入百(bai)度前后,便一直有传聞(wen)称是因为谷歌对GPU的態(tai)度不明。

经过无数人的探(tan)索(suo),接力棒(bang)终于交(jiao)到了深度学习大師(shi)Hinton的手上,此时时间已经指向了2012年。

2012年,Hinton和Alex Krizhevsky、Ilya Sutskeverz这两位学生一起設(she)计了一个深度卷积神经网络AlexNet,计劃(hua)参加这一年的ImageNet大赛。但問(wen)题是如果用CPU来训练AlexNet可(ke)能需要几个月的时间,于是他们把目光轉(zhuan)向了GPU。

这颗在深度学习的发展历史中至關(guan)重要的GPU,便是著名的“核彈(dan)显卡”GTX 580。作为英伟达最新Fermi架构的旗(qi)艦(jian)产品,GTX 580被塞(sai)入512颗CUDA核心(上一代为108颗),算力飛(fei)躍(yue)的同时,誇(kua)张的功(gong)耗(hao)和发熱(re)问题也让英伟达被賜(ci)名“核弹工厂”。

甲(jia)之砒(pi)霜(shuang),乙(yi)之蜜(mi)糖(tang)。跟用GPU训练神经网络时的“顺滑(hua)”相比,散(san)热问题简直不值一提。Hinton团队用英伟达的CUDA平台顺利地完成了编程,在两张GTX 580显卡的支持下,1400万张图片的训练只花(hua)了一个周,AlexNet顺利夺冠。

由于ImageNet比赛和Hinton本人的影(ying)响力,所有人工智能学者都在一瞬(shun)间意识到了GPU的重要性。

两年后,谷歌携GoogLeNet模型参加ImageNet,以93%的准确率夺冠,采用的正是英伟达GPU,这一年所有参赛团队GPU的使用数量飆(biao)升(sheng)到了110块。在比赛之外,GPU已经成为深度学习的“必(bi)選(xuan)消(xiao)費(fei)”,给黄仁勋送来源源不断的訂(ding)单。

这让英伟达擺(bai)脫(tuo)了移(yi)动端市场慘(can)败的陰(yin)影——2007年iPhone发布后,智能手机芯片的蛋糕迅(xun)速膨(peng)脹(zhang),英伟达也试图从三星、高通、聯(lian)发科等碗(wan)里分一杯(bei)羹(geng),但推出的Tegra处理器(qi)因为散热问题鎩(sha)羽(yu)而歸(gui)。最后反而是被GPU拯(zheng)救(jiu)的人工智能领域,反哺(bu)给了英伟达一条第二(er)增长曲(qu)线。

但GPU畢(bi)竟(jing)不是为了训练神经网络而生,人工智能发展的越(yue)快,这些问题暴露(lu)地就越多。

例(li)如,虽然GPU跟CPU差異(yi)显著,但两者根子上都遵(zun)循(xun)馮(feng)·諾(nuo)伊(yi)曼(man)结构,存储和运算是分离的。这种分离带来的效(xiao)率瓶(ping)頸(jing),图像处理毕竟步骤相对固定,可以通过更多的并行运算来解决,但在分支结构众多的神经网络中很是要命。

神经网络每增加一层或(huo)一个分支,就要增加一次内存的訪(fang)问,存储数据以供回(hui)溯(su),花费在这上面的时间不可避(bi)免(mian)。尤其在大模型时代,模型越大需要執(zhi)行的内存访问操作就越多——最后消耗在内存访问上的能耗要遠(yuan)比运算要高很多倍。

简单比喻(yu)就是,GPU是一个肌(ji)肉(rou)发达(计算单元众多)的猛(meng)男(nan),但对于收到的每条指令,都得回过头去翻(fan)指导手冊(ce)(内存),最后随着模型大小和复杂度的提升,猛男真(zhen)正幹(gan)活的时间很有限(xian),反而被頻(pin)繁(fan)地翻手册累(lei)到口(kou)吐(tu)白(bai)沫(mo)。

内存问题只是GPU在深度神经网络应用中的諸(zhu)多“不适”之一。英伟达从一开始就意识到这些问题,迅速着手“魔(mo)改”GPU,让其更适应人工智能应用场景(jing);而洞(dong)若(ruo)觀(guan)火(huo)的AI玩家们也在暗渡陳(chen)倉(cang),试图利用GPU的缺陷(xian)来撬(qiao)开黄仁勋帝国的墻(qiang)角(jiao)。

一场攻(gong)防(fang)戰(zhan)就开始了。

02、Google和Nvidia的暗战

面对排(pai)山(shan)倒(dao)海的AI算力需求(qiu)和GPU的先天缺陷,黄仁勋祭(ji)出两套(tao)应对方案(an),齊(qi)头并进。

第一套,就是沿(yan)着“算力老仙(xian),法力无边”的路(lu)子,繼(ji)续暴力堆(dui)砌(qi)算力。在AI算力需求每隔(ge)3.5个月就翻倍的时代,算力就是吊(diao)在人工智能公(gong)司(si)眼(yan)前的那(na)根胡(hu)蘿(luo)蔔(bu),让他们一边痛(tong)罵(ma)黄仁勋的刀(dao)法精(jing)湛(zhan),一边像舔(tian)狗(gou)一样抢光英伟达所有的产能。

第二套,则是通过“改良(liang)式(shi)創(chuang)新”,来逐步解决GPU跟人工智能场景的不匹(pi)配(pei)问题。这些问题包括(kuo)但不限于功耗、内存墙、带寬(kuan)瓶颈、低精度计算、高速连接、特定模型優(you)化……从2012年开始,英伟达骤然加快了架构更新的速度。

英伟达发布CUDA后,用統(tong)一的架构来支撐(cheng)Graphics和Computing这两大场景。2007年第一代架构登(deng)场,取(qu)名Tesla,这并非(fei)是黄仁勋想示好(hao)马斯克(ke),而是致敬(jing)物(wu)理学家尼(ni)古(gu)拉·特斯拉(最早还有一代是居(ju)里架构)。

之后,英伟达每一代GPU架构都以著名科学家来命名,如下图所示。在每一次的架构疊(die)(die)代中,英伟达一边继续堆算力,一边在不“傷(shang)筋(jin)动骨(gu)”的前提下改良。

比如2011年的第二代Fermi架构,缺点是散热拉胯(kua),而2012年的第三代架构Kepler就把整(zheng)体设计思(si)路从high-perfermance转向power-efficient,改善(shan)散热问题;而为了解决前文提到的“肌肉傻(sha)瓜(gua)”的问题,2014年的第四代Maxwell架构又在内部增加更多的邏(luo)輯(ji)控制电路,便于精准控制。

为了适应AI场景,英伟达“魔改”后的GPU某(mou)种程度上越来越像CPU——正如CPU优秀(xiu)的调度能力是以犧(xi)牲(sheng)算力为代价一样,英伟达不得不在计算核心的堆叠上克制起来。但身背(bei)通用性包袱(fu)的GPU再怎(zen)么改,在AI场景下也难敵(di)專(zhuan)用芯片。

率先对英伟达发难的,是最早大規(gui)模采购GPU来进行AI计算的Google。

2014年凭借GoogLeNet秀完肌肉后,Google就不再公开参加机器识别大赛,并密謀(mou)研发AI专用芯片。2016年Google凭借AlphaGo先声夺人,赢下李(li)世石(shi)后旋(xuan)即推出自研的AI芯片TPU,以“为AI而生”的全新架构打了英伟达一个措(cuo)手不及。

TPU是Tensor Processing Unit的首字母缩写,中文名叫做“张量处理单元”。如果说英伟达对GPU的“魔改”是拆(chai)了东墙補(bu)西墙,那么TPU便是通过从根本上大幅降低存储和连接的需求,将芯片空间最大程度让渡给了计算,具体来说两大手段:

第一是量化技术。现代计算机运算通常(chang)使用高精度数据,占用内存較(jiao)多,但事实上在神经网络计算大多不需要精度达到32位或16位浮点计算,量化技术的本質(zhi)基本上是将32位/16位数字近似到8位整数,保(bao)持适当的准确度,降低对存储的需求。

第二是脈(mai)动阵列(lie),即矩阵乘(cheng)法阵列,这也是TPU與(yu)GPU最关鍵(jian)的区别之一。简单来说,神经网络运算需要进行大量矩阵运算,GPU只能按部就班(ban)将矩阵计算拆解成多个向量的计算,每完成一组都需访问内存,保存这一层的结果,直到完成所有向量计算,再将每层结果组合得到输出值。

而在TPU中,成千上万个计算单元被直接连接起来形成矩阵乘法阵列,作为计算核心,可以直接进行矩阵计算,除了最开始从加载数据和函数外无需再访问存储单元,大大降低了访问频率,使得TPU的计算速度大大加快,能耗和物理空间占用也大大降低。

CPU、GPU、TPU内存(memory)访问次数对比

Google搞(gao)TPU速度非常快,从设计、驗(yan)證(zheng)、量产到最后部署(shu)进自家数据中心只花了15个月的时间。经过測(ce)试,TPU在CNN、LSTM、MLP等AI场景下的性能和功耗大大胜过了英伟达同期的GPU。壓(ya)力便一下子全部给到了英伟达。

被大客户背刺(ci)的滋(zi)味不好受,但英伟达不会站(zhan)着挨(ai)打,一场拉鋸(ju)战开始了。

Google推出TPU的5个月后,英伟达也祭出了16nm工艺的Pascal架构。新架构一方面引入了著名的NVLink高速雙(shuang)向互(hu)联技术,大幅提升连接带宽;一方面模仿(fang)TPU的量化技术,通过降低数据精度来提升神经网络的计算效率。

2017年,英伟达又推出了首个专为深度学习设计的架构Volta,里面第一次引入了TensorCore,专門(men)用于矩阵运算的——虽然4×4的乘法阵列跟TPU 256×256的脉动阵列相比略(lve)显寒(han)酸(suan),但也是在保持灵活和通用性的基礎(chu)上作出的妥(tuo)協(xie)。

在英伟达V100中TensorCore实现的4x4矩阵运算

英伟达的高管对客户宣(xuan)称:“Volta并不是Pascal的升級(ji),而是一个全新的架构。”

Google也分秒必爭(zheng),2016年以后TPU在五年内更新了3代,2017年推出了TPUv2、2018年推出了TPUv3、2021年推出了TPUv4,并把数据懟(dui)到英伟达的臉(lian)上[4]:TPU v4比英伟达的A100计算速度快1.2~1.7倍,同时功耗降低1.3~1.9倍。

Google并不对外出售TPU芯片,同时继续大批(pi)量采购英伟达的GPU,这让两者的AI芯片競(jing)赛停留(liu)在“暗鬥(dou)”而非“明争”上。但毕竟Google把TPU其部署到自家的云服务系(xi)统中,对外提供AI算力服务,这无疑压缩了英伟达的潛(qian)在市场。

Google CEO Sundar Picha对外展示TPU v4

在两者“暗斗”的同时,人工智能领域的进展也在一日千里。2017年Google提出了革命性的Transformer模型,OpenAI随即基于Transformer开发了GPT-1,大模型的军备竞赛爆发,AI算力需求自2012年AlexNet出现之后,迎(ying)来了第二次加速。

察(cha)覺(jiao)到新的風(feng)向之后,英伟达在2022年推出Hopper架构,首次在硬件层面引入了Transformer加速引擎,宣称可以将基于Transformer的大語(yu)言模型的训练时间提升9倍。基于Hopper架构,英伟达推出了“地表最强GPU”——H100。

H100是英伟达的终極(ji)“缝合怪”,一方面引入了各(ge)种AI优化技术,如量化、矩阵计算(Tensor Core 4.0)和Transformer加速引擎;另(ling)一方面则堆滿(man)了英伟达传统强项,如7296个CUDA核、80GB的HBM2显存以及高达900GB/s的NVLink 4.0连接技术。

手握(wo)H100,英伟达暫(zan)时松(song)一口氣(qi),市面上尚(shang)未出现比H100更能打的量产芯片。

Google和英伟达的暗中拉锯,同样也是是一种相互成就:英伟达从Google舶(bo)来了不少(shao)创新技术,Google的人工智能前沿研究也充(chong)分受益(yi)于英伟达GPU的推陈出新,两者联手把AI算力降低到大语言模型“踮(dian)着腳(jiao)”能用的起的水(shui)平。风头正勁(jin)者如OpenAI,也是站在这两位的肩(jian)膀(pang)之上。

但情懷(huai)归情怀,生意归生意。圍(wei)繞(rao)GPU的攻防大战,让业界更加确定了一件事情:GPU不是AI的最优解,定制化专用芯片(ASIC)有破解英伟达垄断地位的可能性。裂缝已开,循味而来的自然不会只有Google一家。

尤其是算力成为AGI时代最确定的需求,谁都想吃飯(fan)的时候跟英伟达坐一桌(zhuo)。

03、一道正在擴(kuo)大的裂缝

本轮AI热潮除了OpenAI外,还有两家出圈的公司,一家是AI繪(hui)图公司Midjourney,其对各种画风的駕(jia)馭(yu)能力让无数碳(tan)基美工心惊膽(dan)战;另外一家是Authropic,创始人来自OpenAI,其对話(hua)机器人Claude跟ChatGPT打的有来有回。

但这两家公司都没有购買(mai)英伟达GPU搭建超算,而是使用Google的算力服务。

为了迎接AI算力的爆发,Google用4096块TPU搭建了一套超算(TPU v4 Pod),芯片之间用自研的光电路开关 (OCS) 互连,不仅可以用来训练自家的LaMDA、MUM和PaLM等大语言模型,还能给AI初(chu)创公司提供价廉(lian)物美的服务。

Google TPU v4 Pod超算

自己DIY超算的还有特斯拉。在推出车载FSD芯片之后,特斯拉在2021年8月向外界展示了用3000块自家D1芯片搭建的超算Dojo ExaPOD。其中D1芯片由台积电代工,采用7nm工艺,3000块D1芯片直接让Dojo成为全球第五大算力规模的计算机。

不过两者加起来,都比不过微软自研Athena芯片所带来的沖(chong)击。

微软是英伟达最大的客户之一,其自家的Azure云服务至少购买了数万张A100和H100高端GPU,未来不仅要支撑ChatGPT天量的对话消耗,还要供给Bing、Microsoft 365、Teams、Github、SwiftKey等一系列要使用AI的产品中去。

仔(zai)細(xi)算下来,微软要繳(jiao)纳的“Nvidia稅(shui)”是一个天文数字,自研芯片几乎(hu)是必然。就像阿(e)里当年算了一下淘(tao)寶(bao)天猫未来对云计算、数据库、存储的需求,发现也是一个天文数字,于是果断开始扶(fu)持阿里云,内部展开轟(hong)轰烈(lie)烈的“去IOE”运动。

節(jie)省(sheng)成本是一方面,垂(chui)直整合打造差异化是另一方面。在手机时代,三星手机的CPU(AP)、内存和屏幕都是自产自销,为三星做到全球安(an)卓(zhuo)霸(ba)主(zhu)立(li)下汗(han)马功勞(lao)。Google和微软造芯,也是針(zhen)对自家云服务来进行芯片级优化,打造差异性。

所以,跟苹果三星不对外出售芯片不同,Google和微软的AI芯片虽然也不会对外出售,但会通过“AI算力云服务”来消化掉(diao)英伟达一部分潜在客户,Midjourney和Authropic就是例子,未来会有更多的小公司(尤其是AI应用层)选擇(ze)云服务。

全球云计算市场的集中度很高,前五大厂商(shang)(亚马逊AWS、微软Azure、Google Cloud、阿里云和IBM)占比超60%,都在做自己的AI芯片,其中Google的进度最快、IBM的储备最强、微软的冲击最大、亚马逊的保密做的最好、阿里做的困(kun)难最多。

国内大厂自研芯片,Oppo哲(zhe)库的结局(ju)会给每个入场的玩家投(tou)上阴影。但海外大厂做自研,人才技术供应链都可以用資(zi)金(jin)来构建出来,比如特斯拉当年搞FSD,挖来了硅谷大神Jim Keller,而Google研发TPU,直接請(qing)到了图灵奖获得者、RISC架构发明人David Patterson教授(shou)。

除了大厂外,一些中小公司也在试图分走英伟达的蛋糕,如估(gu)值一度达到28亿美金的Graphcore,国内的寒武(wu)纪也屬(shu)于此列。下表列举了目前全球範(fan)围内较为知名的初创AI芯片设计公司。

AI芯片初创公司的困难在于:没有大厂雄(xiong)厚(hou)的財(cai)力持续投入,也不能像Google那样自产自销,除非技术路线獨(du)辟(pi)蹊(qi)徑(jing)或者优勢(shi)特别强悍(han),否(fou)则在跟英伟达短兵相接时基本毫(hao)无胜算,后者的成本和生态优势几乎可以抹(mo)平客户一切(qie)疑慮(lv)。

Start-up公司对英伟达的冲击有限,黄仁勋的隐憂(you)还是在那些身体不老实的大客户身上。

当然,大厂现在还离不开英伟达。比如即使Google的TPU已经更新到了第4代,但仍(reng)然需要大批量采购GPU来跟TPU协同提供算力;特斯拉即使有了性能吹(chui)上天的Dojo超算,马斯克在籌(chou)建AI新公司时仍然选择向英伟达采购10000张GPU。

不过对于大厂的塑(su)料友(you)情,黄仁勋早就在马斯克身上领略过。2018年马斯克公开宣称要自研车载芯片(当时用的是英伟达的DRIVE PX),黄仁勋在电话会議(yi)上被分析(xi)师当场质问,一度下不来台。事后马斯克发表了一番(fan)“澄(cheng)清(qing)”,但一年之后特斯拉仍然头也不回地离英伟达而去[5]。

大厂在省成本这方面,从来不会留情。PC机时代Intel的芯片虽然賣(mai)给B端,但消费者具有强烈的选择自主性,厂商需要标榜(bang)“Intel Inside”;但在算力云化时代,巨头可以屏蔽(bi)掉一切底层硬件信息,未来同样购买100TFlops算力,消费者能分得清哪(na)部分来自TPU,哪部分来自GPU嗎(ma)?

因此,英伟达最终还是要直面那个问题:GPU的确不是为AI而生,但GPU会不会是AI的最优解?

17年来,黄仁勋把GPU从单一的游戏何图像处理场景中剝(bo)离出来,使其成为一种通用算力工具,矿潮来了抓(zhua)矿潮,元宇(yu)宙(zhou)火了跟元宇宙、AI来了抱(bao)AI,针对一个个新场景不断“魔改”GPU,试图在“通用性”和“专用性”之间找(zhao)到一个平衡点。

复盤(pan)英伟达过去二十年,其推出了数不清的改变业界的新技术:CUDA平台、TensorCore、RT Core(光线追(zhui)蹤(zong))、NVLink、cuLitho平台(计算光刻)、混(hun)合精度、Omniverse、Transformer引擎……这些技术幫(bang)助(zhu)英伟达从一个二线芯片公司变成了全行业市值的南(nan)波(bo)腕(wan),不可謂(wei)不勵(li)誌(zhi)。

但一代时代应該(gai)有一个时代的计算架构,人工智能的发展一日千里,技术突破快到以小时来计,如果想让AI对人类生活的滲(shen)透(tou)像PC机/智能手机普(pu)及时那样大幅提升,那么算力成本可能需要下降99%,GPU的确可能不是唯(wei)一的答(da)案。

历史告訴(su)我(wo)们,再如日中天的帝国,可能也要当心那道不起眼的裂缝。

参考资料

[1] ImageNet Classification with Deep Convolutional Neural Networks, Hinton

[2] Microsoft Readies AI Chip as Machine Learning Costs Surge, The Information

[3] High Performance Convolutional Neural Networks for Document Processing

[4] Google’s Cloud TPU v4 provides exaFLOPS-scale ML with industry-leading efficiency

[5] 特斯拉的AI野(ye)心,远川(chuan)研究所

[6] Large-scale Deep Unsupervised Learning using Graphics Processors返(fan)回搜(sou)狐(hu),查(zha)看更多

責(ze)任(ren)编辑:

发布于:河南信阳浉河区