关于护手霜的创意广告

护手霜和你的肌肤

随着天气渐渐变冷,人们开始感受到寒冷对肌肤的影响。尤其是手部皮肤更容易受到干燥、龟裂的困扰。这时候,护手霜就成为了我们必不可少的护肤品。但是,你知道吗?不同的护手霜成分不同,适用人群也不同。因此,选择一款适合自己的护手霜是非常重要的。

手部护理

首先,我们需要了解我们的肌肤类型。如果你的手部皮肤容易出现敏感或过敏症状,那么选用天然有机的护手霜是非常必要的。这种护手霜不含化学物质,不会刺激皮肤,安全放心。如果你的手部皮肤比较干燥,选择保湿效果好的护手霜是非常必要的。最好选用那些含有甘油、乳液等成分的护手霜,这些成分可以有效地吸收水分,滋润肌肤。

如何选择适合自己的护手霜

当你了解自己的肤质后,就需要选择适合自己的护手霜。首先,你需要选购那些含有天然有机物质的护手霜,这些成分不仅不刺激皮肤,还能够滋润皮肤、促进新陈代谢。其次,你需要选购那些含有甘油、乳液等成分的护手霜,这些成分可以很好地吸收水分,滋润肌肤,减轻皮肤干燥,保护手部皮肤。

护手霜选择

最后,选择护手霜的品牌也是非常重要的。在选择品牌时,请选择那些有良好口碑、信誉度高的品牌,这样可以确保你所选购的护手霜的品质和效果。如果你不确定哪个品牌的护手霜适合你,可以咨询网站客服,获取更多的信息。

好的护手霜可以带来的益处

选择一款好的护手霜不仅可以解决手部皮肤干燥、龟裂等问题,还可以带来许多其他的益处。首先,护手霜可以保护手部皮肤免受紫外线、空气污染等环境因素的伤害,能够保持皮肤的健康状态。其次,护手霜可以强化手部皮肤的屏障功能,减轻皮肤对外界刺激的敏感度。最后,护手霜可以促进手部皮肤的新陈代谢,让你的手部皮肤更加健康、光滑。

护手霜的益处

总之,好的护手霜可以带来许多益处,提高我们的生活质量。如果你还没有选购自己的护手霜,那么现在就是一个好时机,让你的手部皮肤变得更加健康、光滑。记得选择适合自己的护手霜,选择信誉度高的品牌,享受好护肤的体验。

关于护手霜的创意广告特色

1、培养幽默感(也许你也能成为开心果的~~)

2、设有完善的排行榜,让你实时掌握最为全面的记录信息。

3、随时随地,轻松组局,万人在线,快速加入,秒开游戏;

4、名师在线答疑辅导,解答备考遇到的各种问题,包括报考、考点、考试、成绩查询等问题。

5、获得采暖热水系统故障维修或保养需求的主动服务。

关于护手霜的创意广告亮点

1、精选自1600万分钟的英文电影和剧集资源;

2、个人收藏训练:对个人收藏的题目重点训练。

3、韩语入门APP:由早道教育打造的高质量韩语自学工具

4、过程性评价与综合素质评价,跟踪记录学生个性化成长

5、省钱省心一目了然专业全面值得信任。

peiyangyoumogan(yexuniyenengchengweikaixinguode~~)sheyouwanshandepaixingbang,rangnishishizhangwozuiweiquanmiandejiluxinxi。suishisuidi,qingsongzuju,wanrenzaixian,kuaisujiaru,miaokaiyouxi;mingshizaixiandayifudao,jiedabeikaoyudaodegezhongwenti,baokuobaokao、kaodian、kaoshi、chengjizhaxundengwenti。huodecainuanreshuixitongguzhangweixiuhuobaoyangxuqiudezhudongfuwu。AI大(da)算(suan)力(li)芯(xin)片(pian)行(xing)業(ye)報(bao)告(gao):百(bai)舸(ge)爭(zheng)流(liu),創(chuang)新(xin)者(zhe)先(xian)

來(lai)源(yuan):偲(cai)睿(rui)洞(dong)察(cha)

從(cong)2022.11.30的(de)ChatGPT,到(dao)2023.6.13的360智(zhi)腦(nao)大模(mo)型(xing)2.0,全(quan)球(qiu)AI界(jie)已(yi)為(wei)大模型持(chi)續(xu)瘋(feng)狂(kuang)了(le)七(qi)個(ge)多(duo)月(yue)。ChatGPT們(men)正(zheng)如(ru)雨(yu)後(hou)春(chun)筍(sun)般(ban)湧(yong)現(xian),向(xiang)AI市(shi)場(chang)投(tou)放(fang)壹(yi)个个“炸(zha)彈(dan)”:辦(ban)公(gong)、醫(yi)療(liao)、教(jiao)育(yu)、制(zhi)造(zao),亟(ji)需(xu)AI的賦(fu)能(neng)。

而(er)AI應(ying)用(yong)千(qian)千萬(wan),把(ba)大模型打(da)造好(hao)才(cai)是(shi)硬(ying)道(dao)理(li)。

對(dui)於(yu)大模型“世(shi)界”来說(shuo),算法(fa)是“生(sheng)產(chan)關(guan)系(xi)”,是處(chu)理數(shu)據(ju)信(xin)息(xi)的規(gui)則(ze)與(yu)方(fang)式(shi);算力是“生产力”,能夠(gou)提(ti)高(gao)数据处理、算法訓(xun)練(lian)的速(su)度(du)与规模;数据是“生产資(zi)料(liao)”,高質(zhi)量(liang)的数据是驅(qu)動(dong)算法持续疊(die)(die)代(dai)的養(yang)分(fen)。在(zai)這(zhe)之(zhi)中(zhong),算力是讓(rang)大模型轉(zhuan)动的前(qian)提。

我(wo)们都(dou)知(zhi)道的是,大模型正对算力提出(chu)史(shi)無(wu)前例(li)的要(yao)求(qiu),具(ju)體(ti)的表(biao)现是:据英(ying)偉(wei)達(da)数据顯(xian)示(shi),在沒(mei)有(you)以(yi)Transformer模型为基(ji)礎(chu)架(jia)構(gou)的大模型之前,算力需求大致(zhi)是每(mei)兩(liang)年(nian)提升(sheng)8倍(bei);而自(zi)利(li)用Transformer模型后,算力需求大致是每两年提升275倍。基于此(ci),530B參(can)数量的Megatron-Turing NLG模型,將(jiang)要吞(tun)噬(shi)超(chao)10億(yi)FLOPS的算力。

(AI不(bu)同(tong)模型算法算力迭代情(qing)況(kuang) 圖(tu)源:格(ge)隆(long)匯(hui))

作(zuo)为大模型的大脑——AI芯片,是支(zhi)撐(cheng)ChatGPT们高效(xiao)生产及(ji)应用落(luo)地(di)的基本(ben)前提。保(bao)證(zheng)算力的高效、充(chong)足(zu)供(gong)应,是目(mu)前AI大算力芯片廠(chang)商(shang)亟需解(jie)決(jue)的問(wen)題(ti)。

GPT-4等(deng)大模型向芯片厂商獅(shi)子(zi)大開(kai)口(kou)的同時(shi),也(ye)为芯片厂商尤(you)其(qi)是初(chu)创芯片厂商,帶(dai)来一个利好消(xiao)息:軟(ruan)件(jian)生態(tai)重(zhong)要性(xing)正在下(xia)降(jiang)。

早(zao)先技(ji)術(shu)不够成(cheng)熟(shu)之时,研(yan)究(jiu)者们只(zhi)能从解决某(mou)个特(te)定(ding)问题起(qi)步(bu),参数量低(di)于百万的小(xiao)模型由(you)此誕(dan)生。例如谷(gu)歌(ge)旗(qi)下的AI公司(si)DeepMind,让AlphaGO对上(shang)百万種(zhong)人(ren)類(lei)專(zhuan)业選(xuan)手(shou)的下棋(qi)步驟(zhou)進(jin)行专項(xiang)“學(xue)習(xi)”。

而小模型多了之后,硬件例如芯片的適(shi)配(pei)问题迫(po)在眉(mei)睫(jie)。故(gu),當(dang)英伟达推(tui)出統(tong)一生态CUDA之后,GPU+CUDA迅(xun)速博(bo)得(de)計(ji)算機(ji)科(ke)学界認(ren)可(ke),成为人工(gong)智能开發(fa)的標(biao)準(zhun)配置(zhi)。

现如今(jin)紛(fen)纷涌现的大模型具備(bei)多模态能力,能够处理文(wen)本、图片、編(bian)程(cheng)等问题,也能够覆(fu)蓋(gai)办公、教育、医疗等多个垂(chui)直(zhi)領(ling)域(yu)。这也就(jiu)意(yi)味(wei)著(zhu)(zhe),适应主(zhu)流生态並(bing)非(fei)唯(wei)一的选擇(ze):在大模型对芯片需求量暴(bao)漲(zhang)之时,芯片厂商或(huo)許(xu)可以只适配1-2个大模型,便(bian)能完(wan)成以往(wang)多个小模型的訂(ding)單(dan)。

也就是说,ChatGPT的出现,为初创芯片厂商们提供了彎(wan)道超車(che)的机會(hui)。这就意味着,AI芯片市场格局(ju)将发生巨(ju)變(bian):不再(zai)是个別(bie)厂商的獨(du)角(jiao)戲(xi),而是多个创新者的群(qun)戏。

本报告将梳(shu)理AI芯片行业发展(zhan)概(gai)况、玩(wan)家(jia)情况,總(zong)結(jie)出大算力时代,玩家提高算力的路(lu)徑(jing),并基于此,窺(kui)探(tan)AI大算力芯片的发展趨(qu)勢(shi)。

國(guo)产AI芯片,正走(zou)向AI 3.0时代

现階(jie)段(duan)的AI芯片,根(gen)据技术架构种类来分,主要包(bao)括(kuo)GPGPU、FPGA、以 VPU、TPU 为代表的 ASIC、存(cun)算一体芯片。

根据其在網(wang)絡(luo)中的位(wei)置,AI 芯片可以分为雲(yun)端(duan)AI芯片 、邊(bian)緣(yuan)和(he)終(zhong)端AI芯片;

云端主要部(bu)署(shu)高算力的AI训练芯片和推理芯片,承(cheng)擔(dan)训练和推理任(ren)務(wu),例如智能数据分析(xi)、模型训练任务等;

边缘和终端主要部署推理芯片,承担推理任务,需要独立(li)完成数据收(shou)集(ji)、環(huan)境(jing)感(gan)知、人机交(jiao)互(hu)及部分推理决策(ce)控(kong)制任务。

根据其在實(shi)踐(jian)中的目标,可分为训练芯片和推理芯片:

縱(zong)觀(guan)AI芯片在国內(nei)的发展史,AI芯片国产化(hua)进程大致分为三(san)个时代。

1.0时代,是屬(shu)于ASIC架构的时代

自2000年互聯(lian)网浪(lang)潮(chao)拉(la)开AI芯片的序(xu)幕(mu)后,2010年前后,数据、算法、算力和应用场景(jing)四(si)大因(yin)素(su)的逐(zhu)漸(jian)成熟,正式引(yin)发AI产业的爆(bao)发式增(zeng)長(chang)。申(shen)威(wei)、沸(fei)騰(teng)、兆(zhao)芯、龍(long)芯、魂(hun)芯以及云端AI芯片相(xiang)繼(ji)问世,标誌(zhi)着国产AI芯片正式啟(qi)航(hang)。

2016年5月,当谷歌揭(jie)曉(xiao)AlphaGo背(bei)后的功(gong)臣(chen)是TPU时,ASIC隨(sui)即(ji)成为“当紅(hong)辣(la)子雞(ji)”。于是在2018年,国内寒(han)武(wu)紀(ji)、地平(ping)線(xian)等国内厂商陸(lu)续跟(gen)上腳(jiao)步,針(zhen)对云端AI应用推出ASIC架构芯片,开启国产AI芯片1.0时代。

ASIC芯片,能够在某一特定场景、算法較(jiao)固(gu)定的情况下,实现更(geng)優(you)性能和更低功耗(hao),基于此,滿(man)足了企(qi)业对極(ji)致算力和能效的追(zhui)求。

所(suo)以当时的厂商们,多以捆(kun)綁(bang)合(he)作为主:大多芯片厂商尋(xun)找(zhao)大客(ke)戶(hu)们实现“专用场景”落地,而有着綜(zong)合生态的大厂选择单打独鬥(dou)。

地平线、耐(nai)能科技等AI芯片厂商,分别专註(zhu)AI芯片的細(xi)分领域,采(cai)用“大客户捆绑”模式进入(ru)大客户供应鏈(lian)。

在中厂们绑定大客户協(xie)同发展之際(ji),自有生态的大厂阿(e)裏(li)成立独资芯片公司平頭(tou)哥(ge),着眼(yan)AI和量子计算。

2019年,平头哥发布(bu)的第(di)一款(kuan)AI芯片含(han)光(guang)800,便是基于ASIC架构打造,用于云端推理。据阿里介(jie)紹(shao),1顆(ke)含光800的算力相当于10颗GPU,含光800推理性能达到78563 IPS,能效比(bi)500 IPS/W。相比傳(chuan)统GPU算力,性價(jia)比提升100%。

在1.0时代,剛(gang)出世的国内芯片厂商们选择绑定大客户,有综合生态的大厂选择向内自研,共(gong)同踏(ta)上探索(suo)AI芯片算力的征(zheng)途(tu)。

2.0时代,更具通(tong)用性的GPGPU“引领風(feng)騷(sao)”

盡(jin)管(guan)ASIC有着极致的算力和能效,但(dan)也存在着应用场景局限(xian)、依(yi)賴(lai)自建(jian)生态、客户遷(qian)移(yi)難(nan)度大、学习曲(qu)线较长等问题。

于是,通用性更強(qiang)的GPGPU(通用图形(xing)处理器(qi))在不斷(duan)迭代和发展中成为AI计算领域的最(zui)新发展方向,当上AI芯片2.0时代的指(zhi)路人。

自2020年起,以英伟达为代表的GPGPU架构开始(shi)有着不錯(cuo)的性能表现。通過(guo)对比英伟达近(jin)三代旗艦(jian)产品(pin)发现,从FP16 tensor 算力来看(kan),性能实现逐代翻(fan)倍的同时,算力成本在下降。

于是,国内多个厂商纷纷布局GPGPU芯片,主打CUDA兼(jian)容(rong),試(shi)探着AI算力芯片的极限。2020年起,珠(zhu)海(hai)芯动力、壁(bi)仞(ren)科技、沐(mu)曦(xi)、登(deng)臨(lin)科技、天(tian)数智芯、瀚(han)博半(ban)導(dao)体等新势力集结发力,大家一致的动作是:自研架构,追随主流生态,切(qie)入边缘側(ce)场景。

在前两个时代中,国产AI芯片厂商都在竭(jie)力順(shun)应时代潮流,前赴(fu)后继地跟随国际大厂的步伐(fa),通过研发最新芯片解决AI算力芯片的挑(tiao)戰(zhan)。

我们能看到的变化是,在2.0时代中,国产AI芯片厂商自主意識(shi)覺(jiao)醒(xing),嘗(chang)试着自研架构以求突(tu)破(po)。

3.0时代,存算一体芯片或成GPT-4等大模型的最优选

ASIC芯片的弱(ruo)通用性难以应对下遊(you)層(ceng)出不窮(qiong)的应用,GPGPU受(shou)制于高功耗与低算力利用率(lv),而大模型又(you)对算力提出前所未(wei)有的高要求:目前,大模型所需的大算力起碼(ma)是1000TOPS及以上。

以 2020 年发布的 GPT-3 預(yu)训练語(yu)言(yan)模型为例,其采用的是2020年最先进的英伟达A100 GPU, 算力是624TOPS。2023年,随着模型预训练阶段模型迭代,又新增訪(fang)问阶段井(jing)噴(pen)的需求,未来模型对于芯片算力的需求起码要破千。

再例如自动駕(jia)駛(shi)领域,根据財(cai)通证券(quan)研究所表明(ming),自动驾驶所需单个芯片的算力未来起码要1000+TOPS:2021年4月, 英伟达就已經(jing)发布了算力为1000TOPS的DRIVE Atlan芯片;到了今年,英伟达直接(jie)推出芯片Thor,达到2000TOPS。

由此,业界亟需新架构、新工藝(yi)、新材(cai)料、新封(feng)裝(zhuang),突破算力天花(hua)板(ban)。除(chu)此之外(wai),日(ri)渐緊(jin)張(zhang)的地缘关系,无疑(yi)又給(gei)高度依赖先进制程工艺的AI大算力芯片厂商们提出新的挑战。

在这些(xie)大背景下,从2017年到2021年間(jian)集中成立的一批(pi)初创公司,选择跳(tiao)脫(tuo)传统馮(feng)·諾(nuo)依曼(man)架构,布局存算一体等新興(xing)技术,中国AI芯片3.0时代,正式拉开帷(wei)幕。

目前存算一体,正在上升期(qi):

学界,ISSCC上存算/近存算相关的文章(zhang)数量迅速增加(jia):从20年的6篇(pian)上涨到23年的19篇;其中数字(zi)存内计算,从21年被(bei)首(shou)次(ci)提出后,22年迅速增加到4篇。

产界,巨头纷纷布局存算一体,国内陆陆续续也有近十(shi)幾(ji)家初创公司押(ya)注該(gai)架构:

在特斯(si)拉2023 Investor Day预告片末(mo)尾(wei),特斯拉的dojo超算中心(xin)和存算一体芯片相继亮(liang)相;在更早之前,三星(xing)、阿里达摩(mo)院(yuan)包括AMD也早早布局并推出相关产品:阿里达摩院表示,相比传统CPU计算系统,存算一体芯片的性能提升10倍以上,能效提升超过300倍;三星表示,与僅(jin)配备HBM的GPU加速器相比,配备HBM-PIM的GPU加速器一年的能耗降低了約(yue)2100GWh。

目前,国内的亿鑄(zhu)科技、知存科技、蘋(ping)芯科技、九(jiu)天睿芯等十余(yu)家初创公司采用存算一体架构投注于AI算力,其中亿铸科技、千芯科技偏(pian)向数据中心等大算力场景。

现阶段,业内人士(shi)表示,存算一体将有望(wang)成为继CPU、GPU架构之后的第三种算力架构。

该提法的底(di)氣(qi)在于,存算一体理論(lun)上擁(yong)有高能效比优势,又能繞(rao)过先进制程封鎖(suo),兼顧(gu)更强通用性与更高性价比,算力发展空(kong)间巨大。

在此基础上,新型存儲(chu)器能够助(zhu)力存算一体更好地实现以上优势。目前可用于存算一体的成熟存储器有NOR FLASH、SRAM、DRAM、RRAM、MRAM等。相比之下,RRAM具备低功耗、高计算精(jing)度、高能效比和制造兼容CMOS工艺等优势:

目前,新型存储器RRAM技术已然(ran)落地:2022上半年,国内创业公司昕(xin)原(yuan)半导体宣(xuan)布,大陆首條(tiao)RRAM 12寸(cun)中试生产线正式完成装机驗(yan)收,并在工控领域达成量产商用。据昕原半导体CTO仇(chou)聖(sheng)棻(棻)博士介绍,昕原RRAM产品的良(liang)率已经超过93%。

随着新型存储器件走向量产,存算一体AI芯片已经挺(ting)进AI大算力芯片落地競(jing)賽(sai)。

而无论是传统计算芯片,還(hai)是存算一体芯片,在实际加速AI计算时往往还需处理大量的邏(luo)輯(ji)计算、視(shi)頻(pin)编解码等非AI加速计算领域的计算任务。随着多模态成为大模型时代的大势所趋,AI芯片未来需处理文本、语音(yin)、图像(xiang)、视频等多类数据。

对此,初创公司亿铸科技首个提出存算一体超異(yi)构AI大算力技术路径。亿铸的暢(chang)想(xiang)是,若(ruo)能把新型憶(yi)阻(zu)器技术(RRAM)、存算一体架构、芯粒(li)技术(Chiplet)、3D封装等技术结合,将会实现更大的有效算力、放置更多的参数、实现更高的能效比、更好的软件兼容性、从而擡(tai)高AI大算力芯片的发展天花板。

站(zhan)在3.0时代門(men)口,国产AI大算力芯片厂商自主意识爆发,以期为中国AI大算力芯片提供弯道超车的可能。

AI芯片市场的发展动力,大抵(di)来源于以下几个因素。

中央(yang)与地方政(zheng)府(fu)正为提供充足算力而奔(ben)波(bo)

2023年2月,中央政府发布多个相关报告与布局规劃(hua),强調(tiao)東(dong)数西(xi)算中算力的调动,目前已落下一子:东数西算一体化服(fu)务平臺(tai)。

地方政府层面(mian),例如成都在2023年1月,发布“算力券”,即将政府算力资源与算力中介服务机构、科技型中小微(wei)企业和创客、科研机构、高校(xiao)等共享(xiang),有效提高算力利用率;北(bei)京(jing)在2023年3月,发布加快(kuai)落实算力的相关意見(jian),加快计算中心、算力中心、工业互联网、物(wu)联网等基础設(she)施(shi)建设。

基于国家与地方政府相关政策指引,AI厂商们纷纷建立起超算/智算中心,较于以往不同的是,今年算力的首个市场化運(yun)作模式诞生,智算中心算力的规模也实现质的飛(fei)躍(yue):据国家信息中心与相关部门联合发布的《智能计算中心创新发展指南(nan)》显示,目前全国有超过30个城(cheng)市正在建设或提出建设智算中心。

AI芯片产业布局规划持续落地

可以看到,关于AI芯片政策已从“十三五(wu)”的规划阶段,来到“十四五”的落地阶段:提高AI芯片研发技术,推廣(guang)AI应用。

同时,各(ge)地明確(que)提出,要加强AI芯片产业布局。在这之中,浙(zhe)江(jiang)、广东、江蘇(su)等省(sheng)份(fen)均(jun)提出了至(zhi)2025年,人工智能芯片领域的具体发展方向。

存算一体正成为地方算力产业新机遇(yu)

存算一体,正成为深(shen)圳(zhen)算力产业链创新发展的新机遇,并在積(ji)极落地之中。

2023年4月2日,在第二(er)屆(jie)中国产业链创新发展峰(feng)会新一代信息技术产业发展论壇(tan)上,北京大学深研院信息工程学院副(fu)院长楊(yang)玉(yu)超表示,深圳将立足于相对完善(shan)的产业链集群,从先进工艺与封装、创新電(dian)路与架构、EDA工具链、软件与算法生态这四个方面解决存算一体在产业化应用上的挑战。

今年4月,中国大模型正式爆发,未来,对于AI大算力芯片的需求只增不減(jian)。

现有的大模型,正向着英伟达A100大算力芯片狮子大开口:

故例如商湯(tang)等AI厂商,正把眼光放置在国产AI大算力芯片上:2023年4月10日商汤披(pi)露(lu),目前商汤所用的国产化AI芯片占(zhan)比达到总体的10%。这无疑,将加速国内AI芯片厂商的成长。

英伟达表示,未来将从GPU架构出发,走向“GPU+DPU的超异构”:推出NVLink-C2C 、支持UCLe+芯粒+3D封装;推出Thor“超异构”芯片2000T;

AMD表示,未来硬件创新突破更难,将走向“系统級(ji)创新”,即从整(zheng)体设计的上下游多个环節(jie)协同设计来完成性能的提升。

千亿美(mei)元(yuan)的AI芯片市场,2023火(huo)得滾(gun)燙(tang)

整体人工智能产业链,基本分为基础层、技术层和应用层三个层面:

基础层包括AI芯片、智能传感器、云计算等;技术层包括机器学习、计算机视觉、自然语言处理等;应用层包括机器人、无人机、智慧(hui)医疗、智慧交通、智慧金(jin)融(rong)、智能家居(ju)、智慧教育、智慧安(an)防(fang)等。

基础层作为人工智能行业发展的基础,为人工智能提供数据和算力支撑,其中,AI芯片是人工智能算力的基础。

在AI产业尚(shang)未成熟之时,基础层企业当前价值(zhi)量最大,中国人工智能产业链中,基础层企业比例达到83%,技术层企业比例为5%,应用层企业比例为12%。

基础层决定大樓(lou)是否(fou)穩(wen)固,而下游的应用层面决定大楼高度。在应用层,智能机器人、无人机等智慧终端潛(qian)力无限,智慧城市、智慧医疗等领域,更是有不少(shao)金子能挖(wa)。目前,我国智能机器人市场规模持续快速增长。

数据显示,2017-2021年我国智能机器人市场规模从448亿元增长至994亿元,期内年均復(fu)合增长率达22.05%,预计2023年其市场规模将达1300亿元。

据中国信通院数据统计,中国智慧城市市场规模近几年均保持30%以上增长,2021年市场规模达21.1万亿元,预计2023年其市场规模将达28.6万亿元。

千亿美元市场,AI芯片魅(mei)力无限

在全球数字化、智能化的浪潮下,技术层的技术正不断迭代:自动驾驶、影(ying)像辨(bian)识、运算等技术正在各领域深化应用;与此同时,应用层的物联网设备正不断豐(feng)富(fu):工业机器人、AGV/AMR、智能型手机、智能音箱(xiang)、智能攝(she)影机等。

这无疑,会推动基础层的AI芯片与技术市场迅速成长。根据灼(zhuo)识咨(zi)詢(xun)数据,2022年全球AI芯片市场规模达到960亿美元,预计2027年达到3089亿美元,2022年至2027年的复合年增长率为23%:

国内的AI芯片市场,更为火熱(re):根据灼识咨询数据,2022年中国AI市场规模达到319亿美元,预计于2027年将达到1150亿美元,2022年至2027年的复合年增长率为29.2%。

2021,AI芯片赛道迎(ying)来风口

随着下游安防、汽(qi)车等市场需求量增大,再加上2019年以来,美国持续制裁(cai)国内厂商的动作,2021年,国内AI芯片赛道迎来风口。在这一年里,资本们竞相挑选属于中国AI芯片市场的“潜力狗(gou)”,以期掌(zhang)握(wo)未来芯片市场的話(hua)语權(quan)。尽管2022年投资热度有所回(hui)落,但总体金額(e)仍(reng)超百亿元。

(2016-2023年中国人工智能芯片行业融资整体情况 图源:前瞻(zhan)经濟(ji)学人APP)

C輪(lun)后的融资较少,AI芯片市场仍处于萌(meng)芽(ya)期

通过分析投资轮次发现,AI芯片市场仍处于萌芽期:目前人工智能芯片行业的融资轮次仍处于早期阶段,C轮后的融资数量较少。

(2016-2023年中国人工智能芯片行业投融资轮次情况 图源:前瞻经济学人APP)

存算一体成为香(xiang)餑(bo)饽

细分赛道来看,GPU是价值量最高的赛道,摩爾(er)线程等GPU玩家融资超10亿,榮(rong)獲(huo)“MVP”;

而存算一体赛道融资公司数量最多,亿铸科技、知存科技等七家存算一体玩家,备受资本青(qing)睞(lai)。值得注意的是,存算一体赛道下的四家初创公司亿铸科技、知存科技、苹芯科技、后摩智能,已連(lian)续两年获得融资。

国内AI大算力赛道,玩家几何(he)?

目前,寒武纪、平头哥等1.0时代玩家,现已成为优质AI算力芯片上市公司;2.0时代涌现的非上市AI算力芯片公司如壁仞科技、登临科技、天数智芯等在产品端持续发力;3.0时代,千芯科技、亿铸科技等初创公司正在存算一体这一架构上寻求突破。

经偲睿洞察整理发现,目前,多数AI芯片公司布局边缘侧、中心侧偏小算力场景,例如智慧安防、智慧城市、智慧医疗等应用场景;壁仞科技、平头哥、亿铸科技能够覆盖边缘侧、中心侧偏大算力场景;在新一批初创企业中,亿铸科技做(zuo)出大膽(dan)的尝试,试图用存算一体架构去(qu)做大算力场景。

故,我们按(an)照(zhao)架构以及应用场景分类,呈(cheng)现出以下AI算力芯片中游厂商全景图:

ChatGPT火爆来襲(xi),引发AI产业巨浪,国产AI芯片正迎来3.0时代。在大模型催(cui)生的3.0时代,亟需AI大算力芯片提供充足算力,让日益(yi)沈(chen)重的大模型快速滚动起来。

大模型盛(sheng)行,芯片厂商如何解决大算力难题?

算力,即国力

伴(ban)随“元宇(yu)宙(zhou)”时代开启,GPT-4等大模型来势洶(xiong)汹,数据流量将迎来爆发增长。据IDC预測(ce)数据,预估(gu)未来五年,全球算力规模将以超过50%的速度增长,到2025年整体规模将达到3300EFlops。而2025年全球物联网设备数将超过400亿台,产生数据量接近80ZB,且(qie)超过一半的数据需要依赖终端或者边缘的计算能力进行处理。

(全球算力需求未来增长情况 图源:中国銀(yin)河(he)证券研究院)

(全球算力增长速度明显落后于数据量增长 图源:中国银河证券研究院)

数据量暴增,各国急(ji)需算力維(wei)系数据的正常(chang)运转,各国之间的算力之争,正式打響(xiang)。而事(shi)实上遠(yuan)不止(zhi)算力之争这麽(me)簡(jian)单,这背后,是各国国力的角逐。

2022年3月,由IDC、浪潮信息、清(qing)華(hua)大学全球产业研究院联合编制的《2021-2022全球计算力指数評(ping)估报告》,揭示了现如今“算力与国力”的基本关系:

全球各国算力规模与经济发展水(shui)平显著正相关,算力规模越(yue)大,经济发展水平越高。计算力指数平均每提高1點(dian),数字经济和GDP将分别增长3.5‰和1.8‰;美国和中国的计算力指数分别为77分和70分,明显领先其他(ta)国家的计算力指数。

场景眾(zhong)多,不同的算力场景,对芯片的要求不同

小至耳(er)机、手机、PC,大到汽车、互联网、人工智能(AI)、数据中心、超级计算机、航天火箭(jian)等,“算力”都在其中发揮(hui)着基础核(he)心作用。而不同的算力场景,对芯片的要求不同:

可以看到,数据中心由于其算法多樣(yang)、迭代速度更快等特性,对芯片的要求尤其高:既(ji)要其高算力、又要其低功耗、低成本、高可靠(kao)性,还要其具备更高的通用性。

数据中心建设,迫在眉睫

在众多应用场景之中,数据中心尤为重要。作为AI基础设施,数据中心承載(zai)着多个中心侧与边缘侧算力的应用:

1、国家数据中心集群支撑工业互联网、金融证券、災(zai)害(hai)预警(jing)、远程医疗、视频通话、人工智能推理。

2、城市内的数据中心作为算力“边缘”端,服务金融市场高频交易(yi)、VR/AR、超高清视频、车联网、联网无人机、智慧电力、智能工厂、智能安防等。

现如今,算力、甚(shen)至是国力之争,已然拉开序幕。

美国对中国数据中心、智算中心、超算中心的制裁自2021年就已开始:2021年4月,美国商务部对中国国家超级计算济南中心、深圳中心、无錫(xi)中心、鄭(zheng)州(zhou)中心等中国超算实体列(lie)入“实体清单”。

基于下游市场的需求增长,地缘政治(zhi)等因素,我国数据中心也快速提上日程:2021年5月,国家提出“东数西算”工程,明确圍(wei)绕8个国家算力樞(shu)紐(niu),推进国家数据中心集群以及城市内部数据中心建设。

现如今,中国数据中心建设较于美国仍有一定差(cha)距(ju):

《2021-2022全球计算力指数评估报告》指出,目前世界上大约有600个超大规模的数据中心,每个都拥有超过5000台服务器,其中约39%在美国,是中国的4倍,而中国、日本、英国、德(de)国和澳(ao)大利亞(ya)的服务器数量总和约占总数的30%。

截(jie)至2021年底,我国在用数据中心机架总规模达 520 万标准机架,在用数据中心服务器规模1900万台,算力总规模超过140 EFLOPS。

在算力即国力的大背景下,大模型的催化下,低成本、低功耗的大算力一定会成为刚需。中国,亟需能够承载算力的自主可控的数据中心,而数据中心的算力,依赖着芯片的国产替(ti)代进度。

数据中心场景下,国产主流AI芯片,仍有差距

在数据中心这一基础设施中,服务器占据69%。现如今,在数据中心加速服务器市场,GPGPU憑(ping)借(jie)着更高性能、更高通用性占主导地位:

根据IDC数据,2021年,GPU/GPGPU服务器以91.9%的份额占我国加速服务器市场的主导地位;而前面我们提到过的ASIC、FPGA等非GPU加速服务器仅占比8.1%。

而现阶段,在云端数据中心场景下,国产GPGPU芯片较于国际頂(ding)尖(jian)水平,仍有差距。

在进行对比之前,我们需要明确的是,在云端(服务器端),对于训练芯片、推理芯片的要求不全然相同:

训练芯片需通过海量数据训练出复雜(za)的神(shen)经网络模型,使(shi)其适应特定的功能,相应地,对性能和精度有较高的要求,并需具备一定的通用性;

推理芯片则是利用神经网络模型进行推理预测,对峰值计算性能要求较低,则更加注重单位能耗算力、时延(yan)、成本等综合指标。

AI训练芯片,国产仍有差距

目前,壁仞科技、平头哥、昆(kun)侖(lun)芯、沐曦、天数智芯等玩家对于云端数据中心皆(jie)有布局,其中,昆仑芯、平头哥等大多厂商推出推理芯片;寒武纪、沐曦、天数智芯则推出训推一体芯片。

近年来,国内厂商训练芯片产品硬件性能不断取(qu)得突破,但与市场主流英伟达A100产品仍存在一定差距:

以燧(sui)原云邃(sui)T20产品为例,其32位单精度浮(fu)点性能达32TFLOPS,高于A100的19.5TFLOPS,且在功耗上更具优势,但内存寬(kuan)带不足A100的1/3,在应对机器学习和深度学习的带宽需求上仍有差距。

同时据浙商证券分析,寒武纪去年年底推出的思(si)元590系列可能在部分模型上由于其ASIC专用性表现出更优异的性能,但由于其通用性不足,仍需要后期适配和技术支持。对比之下,中国AI训练芯片仍与英伟达在性能、生态(兼容)有一定差距。

AI推理芯片,国产有望追平

目前,寒武纪、燧原、昆仑芯等国内厂商产品已具备与市场主流的Tesla T4 正面竞争能力:其能效比为1.71TOPS/W,与T4的1.86TOPS/W差距较小。

算力优化路径

差距猶(you)在,国产AI厂商亟需趕(gan)上国际速度。大家提升芯片性能的第一步,都是卷(juan)先进制程。现阶段,先进制程芯片设计成本高昂(ang):单位面积成本在14/16nm后陡(dou)增。

(先进制程芯片的单位面积成本增加 图源:天风证券)

1、根据奇(qi)异摩尔数据,随着制程从28nm制程演(yan)变到5nm,研发投入也从5130万美元劇(ju)增至5.42亿美元,2nm的开发費(fei)用接近20亿美元,先进制程已然成了全球巨头的燒(shao)錢(qian)竞赛。

2、根据EETOP公众號(hao)数据,在7nm节点,设计一款芯片的费用高达3亿美元。且伴随摩尔定律(lv)不断放緩(huan),晶(jing)体管同时逼(bi)近物理极限、成本极限。

由此,芯片上游企业也在疯狂涨价:供貨(huo)商台积电的先进制程晶圓(yuan)价格每年都在涨,越涨越離(li)譜(pu)。

3、先前还是分制程涨价:2021年,台积电在8月25日中午(wu)通知客户全面涨价,即日起7nm及5nm先进制程将涨价7%至9%,其余的成熟制程涨价约20%;

4、而在2023年初,台积电全线大幅(fu)度涨价:根据《电子时报》报道,台积电12英寸5nm晶圆价格高达1.6万美元/片,较上一代7nm晶圆涨价60%。

成本上涨将成为常态,更令(ling)人遺(yi)憾(han)的是,在国内厂商已经把制程卷到7nm的情况下,性能也并没有赶超英伟达。

若是卷到5nm以达到更高的性能,芯片厂商得不償(chang)失(shi):

首先是成本难以負(fu)担,英伟达在GPGPU的護(hu)城河,是靠着钱砸(za)出来的。据英伟达黃(huang)仁(ren)勛(xun)表示,光是A100芯片的研发成本,就是20-30亿美元(百亿元级别)以及4年时光。短(duan)期之内,国内初创企业没有如此大的体量,也付(fu)不起时间成本。

目前,高昂的研发成本已让寒武纪等厂商,仍未盈(ying)利。

其次是钱花了,没效果(guo):性能并非保持“正增长”。逻辑芯片依然沿(yan)着摩尔定律向前演进,存储芯片继续縮(suo)减尺(chi)寸已不再具备成本和性能方面的优势,模擬(ni)芯片制程的缩小反(fan)而可能导致模拟电路性能的降低。

同时,长期来看,7nm芯片比5nm成本效益更高:

美国喬(qiao)治城大学发布了一份AI芯片研究报告,其中对采用不同工艺节点的AI芯片进行经济效益分析。该报告通过量化模型揭示出,相比5nm工艺节点,7nm工艺芯片的成本收益更优。

研究人員(yuan)从该成本分析模型,得出两个结论:

1、在正常运營(ying)两年内,先进工艺(7/5nm)芯片的能耗成本就超过了其生产成本,采用舊(jiu)工艺的芯片(10nm及以上)能耗成本增长更快。若综合考(kao)慮(lv)生产成本和运营成本,先进工艺芯片的成本效益是旧工艺芯片的33倍。

2、对比7nm和5nm芯片,当正常运营使用8.8年时,二者的成本相当。这意味着,如果在8.8年以内更換(huan)芯片,7nm更划算。鑒(jian)于数据中心AI训练和推理所用的AI加速器大都是3年更换一次,单从成本效益来看7nm芯片比5nm更划算。

除此之外,还有着地缘政治影响,国内的先进制程研发屢(lv)屡受阻。芯片苦(ku)于先进制程久(jiu)矣(yi),而提升芯片算力,絕(jue)非只是提升单芯片的性能,而是要考虑芯片的宏(hong)观总算力。

宏观总算力 = 性能*数量(规模)*利用率,而目前在CPU、GPU、AI等大算力芯片身(shen)上,我们能看到的是,很(hen)多方案(an)不能兼顾这三大因素:

1、有的算力芯片,可以做到性能狂飆(biao),但较少考虑芯片的通用性易用性,导致芯片銷(xiao)量不高、落地规模小。例如通过FPGA定制,便是规模太(tai)小,成本和功耗太高。

2、有的算力提升方案,重在规模投入,但解决不了未来算力需求数量级提升的根本。

3、有的解决方案,通过各种资源池(chi)化和跨(kua)不同的边界算力共享,来提升算力利用率,但改(gai)变不了目前算力芯片性能瓶(ping)頸(jing)的本质。

而想要达到大算力,需要兼顾性能、规模、利用率三大影响因子的、具备大局观的方案。

算力解决方案,蓄(xu)势待(dai)发

以AI云端推理卡(ka)为例,我们能看到的是,2018-2023年,算力由于工艺制程“卷不动”等种种原因,成本、功耗、算力难以兼顾。

但国力之争已然打响,ChatGPT已然到来,市场亟需兼顾成本、功耗、算力的方案。

目前国际大厂、国内主流厂商、初创企业都在謀(mou)求计算架构创新,试图找出兼顾性能、规模、利用率的方案,突破算力天花板。

对于架构创新,业内给出不少技术及方案:量子计算(量子芯片)、光子芯片、存算一体、芯粒(Chiplet)、3D封装、HBM······

在这之中,现在能够兼容CMOS工艺又能尽快量产的,有HBM、芯粒、3D封装、存算一体。而存算一体、芯粒(Chiplet)是目前业内普(pu)遍(bian)认为,能够突破 AI 算力困(kun)境,进行架构创新的两条清晰(xi)路线。

用存算一体消除数据隔(ge)閡(he)

从传统冯·诺依曼架构到存算一体架构,通俗(su)来講(jiang),就是消除数据与数据的隔阂,让其更高效地工作。

在传统冯·诺伊(yi)曼架构之下,芯片的存储、计算區(qu)域是分离的。计算时,数据需要在两个区域之间来回搬(ban)运,而随着神经网络模型层数、规模以及数据处理量的不断增长,数据已经面临“跑(pao)不过来”的境况,成为高效能计算性能和功耗的瓶颈,也就是业内俗稱(cheng)的“存储墻(qiang)”。

(存储墙限制具体表现 图源:浙商证券)

存储墙相应地也带来了能耗墙、编譯(yi)墙(生态墙)的问题。例如编译墙问题,是由于大量的数据搬运容易发生拥塞(sai),编译器无法在靜(jing)态可预测的情况下对算子、函(han)数、程序或者网络做整体的优化,只能手动、一个个或者一层层对程序进行优化,耗费了大量时间。

这“三堵(du)墙”会导致算力无謂(wei)浪费:据统计,在大算力的AI应用中,数据搬运操(cao)作消耗90%的时间和功耗,数据搬运的功耗是运算的650倍。

而存算一体能够将存储和计算融合,徹(che)底消除了访存延遲(chi),并极大降低了功耗。基于此,浙商证券报告指出,存算一体的优势包括但不限于:具有更大算力(1000TOPS以上)、具有更高能效(超过10-100TOPS/W)、降本增效(可超过一个数量级)······

如下图所示,相较于GPGPU,存算一体芯片能够实现更低能耗、更高能效比,在应用落地方面能够助力数据中心降本增效,赋能綠(lv)色(se)算力。

基于此,若是处理一天的咨询量,存算一体芯片在初始投入上,是A100的13%-26%,在每日电费上,是A100的12%。

2.3.2.2 用Chiplet赋予(yu)芯片更多能力

除了打破数据之间的墙,芯片设计厂商试图赋予芯片更多的能力:把任务分发给不同架构的硬件计算单元(比如CPU、GPU、FPGA),让他们各司其職(zhi),同步工作,提高效率。

回顾计算机发展史,AI芯片处理器从单核—多核,计算从串(chuan)行—并行,从同构并行到异构并行。

当摩尔定律还是行业的鐵(tie)律,也就是第一阶段时,计算机编程几乎(hu)一直都是串行的。绝大多数的程序只存在一个进程或线程。

此时,性能依赖于硬件工艺。而2003年以后,因为工艺达到了瓶颈,光是靠硬件提升行不通了。随后,即便迎来了同构计算(叠加多个核,强行提升算力),但总体的天花板仍然存在。

异构并行计算的到来,开辟(pi)了新的技术变革(ge):把任务分发给不同架构的硬件计算单元(比如说CPU、GPU、FPGA),让他们各司其职,同步工作,提高效率。

异构的好处,从软件的角度来讲,异构并行计算框(kuang)架能够让软件开发者高效地开发异构并行的程序,充分使用计算平台资源。

从硬件角度来讲,一方面,多种不同类型的计算单元通过更多时鐘(zhong)频率和内核数量提高计算能力;另(ling)一方面,各种计算单元通过技术优化提高執(zhi)行效率。

在这之中,Chiplet是关鍵(jian)技术。

在当前技术进展下,Chiplet方案能够实现芯片设计复杂度及设计成本降低。IC设计阶段将SoC按照不同功能模塊(kuai)分解为多个芯粒,部分芯粒实现模块化设计并在不同芯片中重复使用,能够实现设计难度降低,且有利于后续产品迭代,加速产品上市周(zhou)期。

用HBM技术拓(tuo)宽“数据通道”

由于半导体产业的发展和需求的差异,处理器和存储器二者之间走向了不同的工艺路线,这也就意味着,处理器与存储器的工艺、封装、需求大不相同。

这就导致,从1980年开始至今,二者之间的性能差距越来越大。数据显示,从1980年到2000年,处理器和存储器的速度失配以每年50%的速率增加。

(1980-2000年,处理器和存储器两者的速度失配以每年50%的速率增加 图源:电子工程专辑)

存储器数据访问速度跟不上处理器的数据处理速度,两者之间数据交换通路狹(xia)窄(zhai)以及由此引发的高能耗两大难题,在存储与运算之间築(zhu)起了一道“内存墙”。

为了减小内存墙的影响,提升内存带宽一直是存储芯片关注的技术问题。黄仁勋曾(zeng)表示计算性能擴(kuo)展最大的弱点就是内存带宽。

HBM,便是该难题的解法。

高带宽存储器(High Bandwidth Memory),是一种硬件存储介质。基于其高吞吐(tu)高带宽的特性,受到工业界和学术界的关注。

HBM其中一个优势就是通过中介层缩短内存与处理器之间的距离,通过先进的3D封装方式把内存和计算单元封装在一起,提高数据搬运速度。

超异构,兼顾性能、规模、利用率的新兴方案

超异构计算,是能够把更多的异构计算整合重构,从而能让各类型处理器间充分地、靈(ling)活(huo)地进行数据交互而形成的计算。

简单来说,就是聚(ju)合DSA、GPU、CPU、CIM等多个类型引擎(qing)的优势,同时结合Chiplet、3D封装等新兴架构,实现性能的飞跃:

√ DSA负責(ze)相对确定的大计算量的工作;

√ GPU负责应用层有一些性能敏(min)感的并且有一定弹性的工作;

√ CPU啥(sha)都能幹(gan),负责兜(dou)底;

√ CIM就是存内计算,超异构和普通异构的主要区别就是加入了CIM,由此可以实现同等算力,更低能耗;同等能耗,更高算力。另外,CIM由于器件的优势,能负担比DSA更大的算力。

超异构计算能够很好解决性能、规模、利用率问题。

在性能层面,由于存算一体的加入,能够实现同等算力,更低能耗;同等能耗,更高算力;

在规模层面,由于超异构基于一个计算平台能够聚合多个类型引擎,能够兼顾灵活性与通用性,也就没有因为不够通用导致规模过小;又由于该方案较为全能,能够应付各类型的任务,利用率也能够得到提升。

超异构未来研究方向

而现实是,仅仅是异构计算,便面临着编程很难的困境,NVIDIA经过数年的努(nu)力,才让CUDA的编程对开发者足够友(you)好,形成主流生态。

超异构就更是难上加难:超异构的难,不仅仅体现在编程上,也体现在处理引擎的设计和实现上,还体现在整个系统的软硬件能力整合上。

对于更好地驾馭(yu)超异构,软硬件融合给出了方向:

·1、兼顾性能和灵活性。从系统的角度,系统的任务从CPU往硬件加速下沉,如何选择合适的处理引擎,达到最优性能的同时,有最优的灵活性。并且不仅仅是平衡(heng),更是兼顾。

·2、编程及易用性。系统逐渐从硬件定義(yi)软件,转向了软件定义硬件。如何利用这些特征,如何利用已有软件资源,以及如何融入云服务。

3、产品。用户的需求,除了需求本身之外,还需要考虑不同用户需求的差异性,和单个用户需求的长期迭代。该如何提供给用户更好的产品,满足不同用户短期和长期的需求。授(shou)人以魚(yu)不如授人以漁(yu),该如何提供用户没有特定的具体功能的、性能极致的、完全可编程的硬件平台。

算力即国力,数据中心是各国开展国力之争的“根据地”。数据中心亟需大算力芯片,满足各大中心侧、边缘侧应用场景的需求。

然而在数据中心应用场景下,国内现有云端AI训练、推理芯片仍与尖子生英伟达A100芯片有较大差距。同时,现阶段工艺制程已达到物理极限、成本极限,寻求更高效的计算架构,才是上上之选。

现如今,存算一体,Chiplet,3D封装等技术现已成熟,超异构等解决方案可实施性较高。传统架构上,各国差距明显,而在新型技术上,各国难分伯(bo)仲(zhong)。

算力之争的格局,正悄(qiao)然发生变化。

国内AI芯片,百舸争流,勝(sheng)局未定

传统架构下,英伟达一家独大

按照市场格局来分,在AI芯片领域,目前有三类玩家。

一种是以 Nvidia、AMD 为代表的老(lao)牌(pai)芯片巨头,这些企业积累(lei)了丰富的经验,产品性能突出。根据上文可知,在云端场景下,无论是推理芯片还是训练芯片,国内厂商皆与其有差距。

另一种是以 Google、百度、华为为代表的云计算巨头,这些企业纷纷布局通用大模型,并自己(ji)开发了 AI 芯片、深度学习平台等支持大模型发展。如 Google 的 TensorFlow 以及 TPU,华为的鯤(kun)鵬(peng)、昇(sheng)腾,阿里平头哥的含光800。

最后是AI 芯片独角獸(shou),如寒武纪、壁仞科技、地平线等,凭借雄(xiong)厚(hou)的技术实力、资金基础、研发團(tuan)隊(dui),闖(chuang)进AI芯片赛道。

目前,英伟达占据80%以上中国加速卡市场份额,国产 AI 芯片亟待发展:根据 IDC 的数据显示,2021 年中国加速卡的出货数量已经超过 80 万片,其中 Nvidia 占据了超过 80%的市场份额。剩(sheng)下的份额被 AMD、百度、寒武纪、燧原科技、新华三、华为等品牌占据。

技术路径背后,暗(an)藏(zang)玄(xuan)机

按照计算架构分类,目前国内大抵分为三大陣(zhen)营:ASIC、GPGPU、存算一体玩家。

通过梳理各厂商使用架构、应用场景、资源稟(bing)赋,可以发现以下几条线索:

大厂与自动驾驶专业芯片厂商们,偏愛(ai)ASIC。

国内大厂华为海思、百度、平头哥皆选择ASIC作为自己的芯片架构:

1、华为选择部署端到端的完整生态,例如使用昇腾910必(bi)須(xu)搭(da)配华为的大模型支持框架MindSpore、盤(pan)古(gu)大模型。

2、阿里在该方面的定位是系统集成商和服务商,运用自身芯片产品搭建加速平台中,对外輸(shu)出服务。

3、百度昆仑芯主要在自身智算集群和服务器上以及国内企业、研究所、政府中使用。

ASIC尽管集成度非常高,性能可以充分发挥、功耗可以得到很好的控制,但缺(que)点也很明显:应用场景局限、依赖自建生态、客户迁移难度大、学习曲线较长等问题。

而大厂皆拥有多个特定场景,ASIC“应用场景局限、客户迁移难度大”的弊(bi)端在大厂场景下便不复存在,同时选择ASIC在量产制造供应链上的难度显著低于GPU。

专注于自动驾驶场景的AI芯片厂商例如地平线、黑(hei)芝(zhi)麻(ma),由于手握多家订单,同样避(bi)免(mian)了ASIC的弊端:截止2023年4月23日,地平线征程芯片出货量突破了300万片,与超过20家车企,共计120多款车型达成量产定点合作。

2017年后,AI芯片独角兽们,加入GPGPU阵营。

由于ASIC只能在特定场景、固有算法之下发挥极致性能,厂商们要么需要自身有特定场景(例如华为等大厂),要么绑定大客户(例如耐能科技)。而更为通用的GPGPU展现出该有的性能之后,成为国产AI芯片公司的首选。

可以看到,选择GPGPU的登临科技、天数智芯、燧原科技已经把训练与推理都全面覆盖,而ASIC大多芯片例如平头哥,只能专注于推理或是训练场景。

2019年前后,新一批AI芯片独角兽们,押注存算一体

AI算力芯片发展至2019年前后,国内AI芯片厂商们发现,在传统架构下,CPU、GPU、FPGA已被国外壟(long)断,且高度依赖先进工艺制程,缺乏(fa)一定先进制程技术储备的国内AI厂商,纷纷寻找新的解法——存算一体芯片。目前,存算一体格局未定,或将成为国内厂商破局关键。存算一体主流的划分方法是依照计算单元与存储单元的距离,将其大致分为近存计算(PNM)、存内处理(PIM)、存内计算(CIM)。

特斯拉、阿里达摩院、三星等大厂所选择的,是近存计算。

据Dojo项目负责人Ganesh Venkataramanan介绍,特斯拉Dojo(AI训练计算机)所用的D1芯片相比于业内其他芯片,同成本下性能提升4倍,同能耗下性能提高1.3倍,占用空间节省5倍。具体来说,在D1训练模块方面,每个D1训练模块由5x5的D1芯片阵列排(pai)布而成,以二维Mesh结构互连。片上跨内核SRAM达到驚(jing)人的11GB,由于用上近存计算架构,能效比为0.6TFLOPS/W@BF16/CFP8。业内人士表示,对于CPU架构来说,这一能效比非常不错。

阿里达摩院在2021年发布采用混(hun)合键合(Hybrid Bonding)的3D堆(dui)叠技术——将计算芯片和存储芯片face-to-face地用特定金属材质和工艺进行互联。据阿里达摩院测算,在实际推薦(jian)系统应用中,相比传统CPU计算系统,存算一体芯片的性能提升10倍以上,能效提升超过300倍。

三星基于存内处理架构,发布存储器产品HBM-PIM(嚴(yan)格意义上是PNM)。三星表示该架构实现了更高性能与更低能耗:与其他没有HBM-PIM芯片的GPU加速器相比,HBM-PIM芯片将AMD GPU加速卡的性能提高了一倍,能耗平均降低了约50%。与仅配备HBM的GPU加速器相比,配备HBM-PIM的GPU加速器一年的能耗降低了约2100GWh。

国内知存科技选择的是,存内处理:2022年3月,知存科技量产的基于PIM的SoC芯片WTM2101正式投入市场。距今未满1年,WTM2101已成功在端侧实现商用,提供语音、视频等AI处理方案并幫(bang)助产品实现10倍以上的能效提升。

而存内计算,便是国内大部分初创公司所说的存算一体:

亿铸科技,基于CIM框架、RRAM存储介质的研发“全数字存算一体”大算力芯片,通过减少数据搬运提高运算能效比,同时利用数字存算一体方法保证运算精度,适用于云端AI推理和边缘计算。

智芯科微,于2022年底推出业界首款基于SRAM CIM的边缘侧AI增强图像处理器。

在存算一体阵营之中,大厂与初创公司同样因为技术路径,走了不同的路。

大公司与初创公司“自觉”分为两个阵营:特斯拉、三星、阿里巴(ba)巴等拥有丰富生态的大厂以及英特尔,IBM等传统的芯片大厂,几乎都在布局PNM;而知存科技、亿铸科技、智芯科等初创公司,在押注PIM、CIM等“存”与“算”更親(qin)密(mi)的存算一体技术路线。

综合生态大厂思量的是,如何快速攻(gong)破算力和功耗的瓶颈,让自己丰富的应用场景快速落地;芯片大厂们针对客户所提出的高效算力和低功耗需求,开发出符(fu)合客户需求的技术。

也就是说,大厂对存算一体架构提出的需求是“实用、落地快”,近存计算作为最接近工程落地的技术,成为大厂们的首选。

而中国初创公司们,由于成立时间较短、技术储备薄(bo)弱:缺乏先进2.5D和3D封装产能和技术,为打破美国的科技垄断,中国初创企业聚焦(jiao)的是无需考虑先进制程技术的CIM。

云端场景下,玩家由淺(qian)入深

不同的业务场景均已呈现出各自的优势,在商业模式上国内外都在探索阶段。而不论是国内外公司,先云端推理是大家一致的方向。

业界普遍认为,训练芯片的研发难度和商业化落地更难,训练芯片可以做推理,但推理芯片不能做训练。

原因是,在AI训练的过程中,神经网络模型并没有固定,所以对芯片的通用性有很高的需求。而推理则更简单,增速更快,故而训练芯片对于芯片公司的设计能力考验更高。

从全球AI芯片市场来看,先推理后训练是主流路径,英特尔收購(gou)的AI芯片公司Habana、国内諸(zhu)多AI初创公司皆是如此。

如此选择,也是下游市场的催化作用:

随着近年来 AI 模型训练逐渐成熟,AI 应用逐渐落地,云端推理的市场已经逐渐超过了训练的市场:

根据IDC与浪潮联合发布的《2020-2021中国人工智能计算力发展评估报告》显示,2021 年中国市场 AI 服务器的推理负载超过训练负载,并且随着 AI 进入应用期,数据中心推理算力需求的复合增长率是训练侧的2倍以上,预计到2026年用于推理的加速器占比将超过 60%。

AI芯片“新星”存算一体门檻(kan)奇高

2019年后,新增的AI芯片厂商,多数在布局存算一体:据偲睿洞察不完全统计,在2019-2021年新增的AI芯片厂商有20家,在这之中,有10家选择存算一体路线。

这无一不说明着,存算一体将成为继GPGPU、ASIC等架构后的,一颗冉(ran)冉升起的新星。而这颗新星,并不是誰(shui)都可以摘(zhai)。

在学界、产界、资本一致看好存算一体的境况下,强勁(jin)的技术实力、紮(zha)实的人才储备以及对迁移成本接受度的精准把控,是初创公司在业内保持竞争力的关键,也是擋(dang)在新玩家面前的三大门槛。

存算一体,打破了三堵墙,能够实现低功耗、高算力、高能效比,但想要实现如此性能,挑战頗(po)多:

首先是存算一体涉(she)及到芯片制造的全环节:从最底层的器件,到电路设计,架构设计,工具链,再到软件层的研发;其次是,在每一层做相应改变的同时,还要考虑各层级之间的适配度。

我们一层一层来看,一颗存算一体芯片被造出来,有怎(zen)样的技术难题。

首先,在器件选择上,厂商就“如履(lv)薄冰(bing)”:存储器设计决定芯片的良率,一旦(dan)方向错誤(wu)将可能导致芯片无法量产。

其次是电路设计层面。电路层面有了器件之后,需要用其做存储阵列的电路设计。而目前在电路设计上,存内计算没有EDA工具指导,需要靠手动完成,无疑又大大增加了操作难度。

紧接着,架构层面有电路之后,需要做架构层的设计。每一个电路是一个基本的计算模块,整个架构由不同模块組(zu)成,存算一体模块的设计决定了芯片的能效比。模拟电路会受到噪(zao)聲(sheng)干擾(rao),芯片受到噪声影响后运转起来会遇到很多问题。

这种情况下,需要架构師(shi)了解模拟存内计算的工艺特点,针对这些特点去设计架构,同时也要考虑到架构与软件开发的适配度。

软件层面架构设计完成后,需要开发相应的工具链。

而由于存算一体的原始模型与传统架构下的模型不同,编译器要适配完全不同的存算一体架构,确保所有计算单元能够映(ying)射(she)到硬件上,并且顺利运行。

一条完整的技术链条下来,考验着器件、电路设计、架构设计、工具链、软件层开发各个环节的能力,与协调各个环节的适配能力,是耗时耗力耗钱的持久战。

根据以上环节操作流程可以看到,存算一体芯片亟需经验丰富的电路设计师、芯片架构师。

除此之外,鉴于存算一体的特殊(shu)性,能够做成存算一体的公司在人员储备上需要有以下两点特征:

1、带头人需有足够魄(po)力。在器件选择(RRAM、SRAM等)、计算模式(传统冯诺依曼、存算一体等)的选择上要有清晰的思路。这是因为,存算一体作为一项顛(dian)覆、创新技术,无人引领,试错成本极高。能够实现商业化的企业,创始人往往具备丰富的产业界、大厂经验和学术背景,能够带领团队快速完成产品迭代。

2、在核心团队中,需要在技术的各个层级中配备经验丰富的人才。例如架构师,其是团队的核心。架构师需要对底层硬件,软件工具有深厚的理解和认知,能够把构想中的存算架构通过技术实现出来,最终达成产品落地;

3、此外,据量子位报告显示,国内缺乏电路设计的高端人才,尤其在混合电路领域。存内计算涉及大量的模拟电路设计,与强调团队协作的数字电路设计相比,模拟电路设计需要对于工艺、设计、版(ban)图、模型pdk以及封装都极度熟悉(xi)的个人设计师。

落地,是第一生产力。在交付时,客户考量的并不仅仅是存算一体技术,而是相较于以往产品而言,存算一体整体SoC的能效比、面效比和易用性等性能指标是否有足够的提升,更重要的是,迁移成本是否在承受範(fan)围内。

如果选择新的芯片提升算法表现力需要重新学习一套(tao)编程体系,在模型迁移上所花的人工成本高出购買(mai)一个新GPU的成本,那(na)么客户大概率不会选择使用新的芯片。

因此,存算一体在落地过程中是否能将迁移成本降到最低,是客户在选择产品时的关键因素。

目前来看,英伟达凭借着更为通用的GPGPU霸(ba)占了中国AI加速卡的市场。

然而,存算一体芯片凭借着低功耗但高能效比的特性,正成为芯片赛道,冉冉升起的一颗新星。

而存算一体市场,风云未定,仍处于“小荷(he)才露尖尖角”阶段。但我们不可否认的是,存算一体玩家已然构筑了三大高墙,非技术实力雄厚,人才储备扎实者,勿(wu)进。

行业发展趋势

存算一体,算力的下一级

随着人工智能等大数据应用的兴起,存算一体技术得到国内外学界与产界的广泛(fan)研究与应用。在2017年微处理器顶级年会(Micro 2017)上,包括英伟达、英特尔、微软、三星、加州大学圣塔(ta)芭(ba)芭拉分校等都推出他们的存算一体系统原型。

自此,ISSCC上存算/近存算相关的文章数量迅速增加:从20年的6篇上涨到23年的19篇;其中数字存内计算,从21年被首次提出后,22年迅速增加到4篇,23年有6篇。

(ISSCC2023存算一体相关文章 图源:ISSCC2023)

系统级创新,嶄(zhan)露头角

系统级创新正频频现身半导体TOP级会議(yi),展露着打破算力天花板的潜力。

在 AMD 的总裁兼CEO Lisa Su(苏姿(zi)丰)带来的主旨(zhi)演讲“Innovation for the next decade of compute efficiency“(下一个十年计算效率的创新)中,她(ta)提到了AI应用的突飞猛(meng)进,以及它(ta)给芯片带来的需求。

Lisa Su表示,根据目前计算效率每两年提升2.2倍的规律,预计到2035年,如果想要算力达到十万亿亿级,则需要的功率可达500MW,相当于半个核电站能产生的功率,“这是极为离谱、不切合实际的”。

而为了实现这样的效率提升,系统级创新是最关键的思路之一。

(算力与功耗关系 图源:ISSCC2023大会)

在另一个由歐(ou)洲(zhou)最著名(ming)三个的半导体研究机构IMEC/CEA Leti/Fraunhofer带来的主旨演讲中,系统级创新也是其核心关键詞(ci)。

该演讲中提到,随着半导体工艺逐渐接近物理极限,新的应用对于芯片的需求也必须要从系统级考虑才能满足,并且提到了下一代智能汽车和AI作为两个尤其需要芯片从系统级创新才能支持其新需求的核心应用。

“从头到脚”打破算力天花板

系统级创新,是协同设计上中下游多个环节,实现性能的提升。还有一种说法是,系统工艺协同优化。

系统工艺协同优化为一种“由外向内”的发展模式,从产品需支持的工作负载及其软件开始,到系统架构,再到封装中必须包括的芯片类型,最后是半导体制程工艺。

(系统工艺协同优化 图源:ISSCC2023大会)

简单来说,就是把所有环节共同优化,由此尽可能地改进最终产品。

对此,Lisa Su给出了一个经典(dian)案例:在对模型算法层面使用创新数制(例如8位浮点数FP8)的同时,在电路层对算法层面进行优化支持,最终实现计算层面数量级的效率提升:相比传统的32位浮点数(FP32),进行系统级创新的FP8则可以将计算效率提升30倍之多。而如果仅仅是优化FP32计算单元的效率,无论如何也难以实现数量级的效率提升。

(特定域计算支持工作负载优化,从而提高性能和效率 图源:ISSCC2023大会)

这便是系统级创新成为关键路径的原因所在:如果电路设计仅仅停(ting)留(liu)在电路这一层——只是考虑如何进一步优化FP32计算单元的效率,无论如何也难以实现数量级的效率提升。

对此,在未来发展机会模块的演讲中,Lisa Su给出了未来系统级封装架构的大致模样:包含异构计算叢(cong)集,特定加速单元,先进封装技术,高速片间UCIe互联,存算一体等内存技术。

(未来的系统级封装架构 图源:ISSCC2023大会)

百舸争流,创新者先

技术路径、方案已然明确,接下来就是拼(pin)魄力的阶段。

每一个新兴技术的研发厂商,在前期无疑要面临技术探索碰(peng)壁,下游厂商不认同等各个层面的问题。而在早期,谁先预判(pan)到未来的发展趋势,并用于邁(mai)出探索的脚步,鋪(pu)下合理的资源去尝试,就会搶(qiang)到先机。

芯片巨头NVIDIA在这方面做出了很好的榜(bang)样。

当数据中心浪潮还未铺天盖地袭来、人工智能训练还是小众领域之时,英伟达已经投入重金,研发通用计算GPU和统一编程软件CUDA,为英伟达谋一个好差事——计算平台。

而在当时,让GPU可编程,是“无用且虧(kui)本”的:不知道其性能是否能够翻倍,但产品研发会翻倍。为此,没有客户願(yuan)意为此买单。但预判到单一功能图形处理器不是长远之计的英伟达毅(yi)然决定,在所有产品线上都应用CUDA。

在芯东西与英伟达中国区工程和解决方案高级总監(jian)赖俊(jun)傑(jie)博士的采访中,赖俊杰表示:“为了计算平台这一愿景,早期黄仁勋快速调动了英伟达上上下下非常多的资源。”

远见+重金投入,在2012年,英伟达拿(na)到了创新者的獎(jiang)勵(li):2012年,深度学习算法的计算表现轟(hong)动学术圈(quan),作为高算力且更为通用、易用的生产力工具,GPU+CUDA迅速风靡(mi)计算机科学界,成为人工智能开发的“标配”。

现如今,存算一体已显现出强大的性能,在人工智能神经网络、多模态的人工智能计算、类脑计算等大算力场景,有着卓(zhuo)越的表现。

国内厂商也在2019年前后纷纷布局存算一体,同时选择3D封装、chiplet等新兴技术,RRAM、SRAM等新兴存储器,突破算力天花板。

AI大算力芯片的战争,创新者为先。

结语:

ChatGPT火爆来袭,引发AI产业巨浪,国产AI芯片正迎来3.0时代;在3.0时代,更适配大模型的芯片架构——存算一体将崭露头角,同时系统级创新将成为未来的发展趋势,抢先下注的厂商将先吃(chi)到ChatGPT带来的红利。返(fan)回搜(sou)狐(hu),查(zha)看更多

责任编辑:

发布于:福建三明梅列区