北京朗力广告待遇

北京朗力广告,为您提供专业的广告投放服务

北京朗力广告是一家专业的广告公司,致力于为客户提供全面、专业的广告投放服务。公司拥有一支经验丰富、技术精湛的团队,能够为客户量身定制广告方案,帮助客户实现品牌推广、销售提升等目标。

北京朗力广告

公司主要业务包括:互联网广告、电视广告、户外广告、平面媒体广告等。无论是线上还是线下,我们都能够为客户提供最佳的广告投放解决方案。

互联网广告投放,助您实现线上营销目标

随着互联网的快速发展,越来越多的企业开始注重线上营销。作为一家专业的互联网广告投放公司,北京朗力广告拥有一支技术过硬、经验丰富的团队,能够为客户提供最佳的互联网广告投放方案。

互联网广告

我们能够根据客户的需求,精准定位受众群体,制定出最佳的广告投放方案。无论是搜索引擎广告、社交媒体广告、移动应用广告等,我们都能够为客户量身定制最佳的广告投放方案,帮助客户实现线上营销目标。

电视广告,帮助您实现品牌推广目标

电视广告是一种传统的广告投放方式,但仍然是品牌推广的重要手段。作为一家专业的电视广告投放公司,北京朗力广告拥有丰富的经验和优秀的制作团队,能够为客户提供最佳的电视广告投放方案。

电视广告

我们能够根据客户的需求,制作出最佳的电视广告,帮助客户实现品牌推广目标。无论是商业广告、品牌广告、宣传广告等,我们都能够为客户提供最佳的电视广告投放方案。

总之,北京朗力广告是一家专业、优秀的广告投放公司,能够为客户提供最佳的广告投放解决方案。如果您有相关需求,欢迎咨询我们的客服,我们将竭诚为您服务。

北京朗力广告

本文图片来源于Unsplash。

北京朗力广告待遇特色

1、在每一关卡的挑战中,都是需要将汽车停放到停车位上即可闯关成功

2、每个人都只能看自己的成绩。这样更安全可靠吗?

3、注册并启动测试工具

4、不同模式展现出多种剧情故事,自由的玩法模式

5、永恒三职业,打造铁血远征小队,组建核心公会同盟,笑傲玛法大陆;

北京朗力广告待遇亮点

1、更多的游戏功能将会在后续关卡中不断解锁,掌控着整个星球,感受更多美妙的游戏体验!

2、和他们一起发财,在一个复杂的现代社会中,您需要足够灵活以发现彼此的弱点。

3、提供了丰富的多种pve副本和活动任务玩法,还有多种丰富的pvp玩法和攻城战玩法。

4、清理自己的内存空间,防止各种手机病毒。

5、在丰富的内容中,所有的建筑都是藏身的地点,隐藏好自己就是你的任务。

zaimeiyiguankadetiaozhanzhong,doushixuyaojiangqichetingfangdaotingcheweishangjikechuangguanchenggongmeigerendouzhinengkanzijidechengji。zheyanggenganquankekaoma?zhucebingqidongceshigongjubutongmoshizhanxianchuduozhongjuqinggushi,ziyoudewanfamoshiyonghengsanzhiye,dazaotiexueyuanzhengxiaodui,zujianhexingonghuitongmeng,xiaoaomafadalu;爭(zheng)奪(duo) AI 入(ru)場(chang)券(quan):中(zhong)國(guo)大(da)公(gong)司(si)競(jing)逐(zhu) GPU

來(lai)源(yuan)丨(shu)晚(wan)點(dian)LatePost

文(wen)丨張(zhang)家(jia)豪(hao)

全(quan)世(shi)界(jie)都(dou)在(zai)搶(qiang)算(suan)力(li),中国大公司更(geng)急(ji)迫(po)。

2022 年(nian)下(xia)半(ban)年,生(sheng)成(cheng)式(shi) AI 爆(bao)火(huo)的(de)同(tong)時(shi),矽(gui)谷(gu)著(zhu)名(ming)風(feng)險(xian)資(zi)本(ben) a16z 走(zou)訪(fang)了(le)數(shu)十(shi)家 AI 創(chuang)業(ye)公司和(he)大科(ke)技(ji)公司。他(ta)們(men)發(fa)現(xian),创业公司轉(zhuan)手(shou)就(jiu)把(ba) 80%-90% 的早(zao)期(qi)融(rong)资款(kuan)送(song)給(gei)了雲(yun)計(ji)算平(ping)臺(tai),以(yi)訓(xun)練(lian)自(zi)己(ji)的模(mo)型(xing)。他们估(gu)算,即(ji)便(bian)這(zhe)些(xie)公司的產(chan)品(pin)成熟(shu)了,每(mei)年也(ye)得(de)把 10%-20% 的營(ying)收(shou)送给云计算公司。相(xiang)當(dang)於(yu)壹(yi)筆(bi) “AI 稅(shui)”。

这帶(dai)来了在云上(shang)提(ti)供(gong)模型能(neng)力和训练服(fu)務(wu),把算力租(zu)给其(qi)它(ta)客(ke)戶(hu)和创业公司的大市(shi)场。僅(jin)在国內(nei),现在就至(zhi)少(shao)有(you)数十家创业公司和中小(xiao)公司在自制(zhi)復(fu)雜(za)大語(yu)言(yan)模型,他们都得從(cong)云计算平台租 GPU。據(ju) a16z 測(ce)算,一個(ge)公司一年的 AI 運(yun)算開(kai)支(zhi)只(zhi)有超(chao)過(guo) 5000 萬(wan)美(mei)元(yuan),才(cai)有足(zu)夠(gou)的規(gui)模效(xiao)應(ying)支撐(cheng)自己批(pi)量(liang)采(cai)購(gou) GPU。

据《晚点 LatePost》了解(jie),今(jin)年春(chun)節(jie)後(hou),擁(yong)有云计算业务的中国各(ge)互(hu)聯(lian)網(wang)大公司都向(xiang)英(ying)偉(wei)達(da)下了大單(dan)。字(zi)节今年向英伟达訂(ding)购了超过 10 億(yi)美元的 GPU,另(ling)一家大公司的订单也至少超过 10 亿元人(ren)民(min)幣(bi)。

仅字节一家公司今年的订单可(ke)能已(yi)接(jie)近(jin)英伟达去(qu)年在中国銷(xiao)售(shou)的商(shang)用(yong) GPU 總(zong)和。去年 9 月(yue),美国政(zheng)府(fu)发布(bu)對(dui) A100、H100(英伟达最(zui)新(xin)兩(liang)代(dai)数据中心(xin)商用 GPU) 的出(chu)口(kou)限(xian)制时,英伟达曾(zeng)回(hui)应稱(cheng)这可能影(ying)響(xiang)去年四(si)季(ji)度(du)它在中国市场的 4 亿美元(約(yue)合(he) 28 亿元人民币)潛(qian)在销售。以此(ci)推(tui)算,2022 年全年英伟达数据中心 GPU 在中国的销售額(e)约為(wei) 100 亿元人民币。

相比(bi)海(hai)外(wai)巨(ju)頭(tou),中国大科技公司采购 GPU 更为急迫。过去两年的降(jiang)本增(zeng)效中,一些云计算平台減(jian)少了 GPU 采购,儲(chu)備(bei)不(bu)足。此外,誰(shui)也不敢(gan)保(bao)證(zheng),今天(tian)能買(mai)的高(gao)性(xing)能 GPU,明(ming)天會(hui)不会就受(shou)到(dao)新的限制。

从砍(kan)单到加(jia)购,同时内部(bu)騰(teng)挪(nuo)

今年初(chu)之(zhi)前(qian),中国大型科技公司对 GPU 的需(xu)求(qiu)還(hai)不溫(wen)不火。

GPU 在中国大型互联网科技公司中主(zhu)要(yao)有两个用途(tu):一是(shi)对内支持(chi)业务和做(zuo)一些前沿(yan) AI 研(yan)究(jiu),二(er)是把 GPU 放(fang)到云计算平台上对外售賣(mai)。

一名字节人士(shi)告(gao)訴(su)《晚点 LatePost》,2020 年 6 月 OpenAI 发布 GPT-3 后,字节就曾训练了一个数十亿參(can)数的生成式语言大模型,当时主要使(shi)用的 GPU 是 A100 前代产品 V100。由(you)于参数规模有限,这个模型生成能力一般(ban),字节当时看(kan)不到它的商业化(hua)可能性,“ROI(投(tou)资回報(bao)率(lv)) 算不过来”,这次(ci)嘗(chang)試(shi)不了了之。

阿(e)裏(li)也曾在 2018-2019 年積(ji)極(ji)采购 GPU。一位(wei)阿里云人士称,当时阿里的采购量至少达到上万塊(kuai)规模,购买的型號(hao)主要是 V100 和英伟达更早前发布的 T4。不过这批 GPU 中只有约十分(fen)之一给到了达摩(mo)院(yuan)用作(zuo) AI 技術(shu)研发。2021 年发布万亿参数大模型 M6 后,达摩院曾披(pi)露(lu)训练 M6 使用了 480 块 V100。

阿里当时购买的 GPU,更多(duo)给到了阿里云用于对外租賃(lin)。但(dan)包(bao)括(kuo)阿里云在内,一批中国云计算公司都高估了中国市场的 AI 需求。一位科技投资人称,大模型熱(re)潮(chao)之前,国内主要云廠(chang)商上的 GPU 算力不是緊(jin)缺(que),而(er)是愁(chou)卖,云厂商甚(shen)至得降價(jia)卖资源。去年阿里云先(xian)后降价 6 次,GPU 租用价下降超两成。

在降本增效,追(zhui)求 “有質(zhi)量的增長(chang)” 與(yu)利(li)潤(run)的背(bei)景(jing)下,据了解,阿里在 2020 年之后收縮(suo)了 GPU 采购规模,腾訊(xun)也在去年底(di)砍单一批英伟达 GPU。

然(ran)而沒(mei)过多久(jiu)后的 2022 年初,ChatGPT 改(gai)變(bian)了所(suo)有人的看法(fa),共(gong)識(shi)很(hen)快(kuai)达成:大模型是不容(rong)錯(cuo)过的大機(ji)会。

各公司创始(shi)人親(qin)自關(guan)註(zhu)大模型進(jin)展(zhan):字节跳(tiao)動(dong)创始人张一鳴(ming)开始看人工(gong)智(zhi)能論(lun)文;阿里巴(ba)巴董(dong)事(shi)局(ju)主席(xi)张勇(yong)接手阿里云,在阿里云峰(feng)会发布阿里大模型进展时称,“所有行(xing)业、应用、軟(ruan)件(jian)、服务,都值(zhi)得基(ji)于大模型能力重(zhong)做一遍(bian)”。

一名字节人士称,过去在字节内部申(shen)請(qing)采购 GPU 时,要說(shuo)明投入产出比、业务優(you)先級(ji)和重要性。而现在大模型业务是公司戰(zhan)略(lve)级別(bie)新业务,暫(zan)时算不清(qing) ROI 也必(bi)須(xu)投入。

研发自己的通(tong)用大模型只是第(di)一步(bu),各公司的更大目(mu)標(biao)是推出提供大模型能力的云服务,这是真(zhen)正(zheng)可以匹(pi)配(pei)投入的大市场。

微(wei)软的云服务 Azure 在中国云计算市场本没有太(tai)強(qiang)存(cun)在感(gan),入華(hua)十年来主要服务跨(kua)国公司的中国业务。但现在客户得排(pai)隊(dui)等(deng)待(dai),因(yin)为它是 OpenAI 商业化的唯(wei)一云代理(li)商。

阿里在 4 月的云峰会上,再(zai)次强調(tiao) MaaS(模型即服务)是未(wei)来云计算趨(qu)勢(shi),在开放自研的通用基礎(chu)模型 “通義(yi)千(qian)問(wen)” 测试之外,还发布了一系(xi)列(lie)幫(bang)助(zhu)客户在云上训练、使用大模型的工具(ju)。不久后腾讯和字节火山(shan)引(yin)擎(qing)也先后发布自己的新版(ban)训练集(ji)群(qun)服务。腾讯称用新一代集群训练万亿参数的混(hun)元大模型,时間(jian)可被(bei)壓(ya)缩到 4 天;字节称它们的新集群支持万卡(ka)级大模型训练,国内数十家做大模型的企(qi)业,多数已在使用火山引擎。

所有这些平台使用的要麽(me)是英伟达 A100、H100 GPU,要么是去年禁(jin)令(ling)后英伟达專(zhuan)門(men)推出的减配版 A800、H800,这两款處(chu)理器(qi)带寬(kuan)分别是原(yuan)版的约 3/4 和约一半,避(bi)开了高性能 GPU 的限制标準(zhun)。

圍(wei)繞(rao) H800 和 A800,中国科技大公司开始了新一輪(lun)下单竞争。

一名云厂商人士称,字节、阿里等大公司主要是和英伟达原厂直(zhi)接談(tan)采购,代理商和二手市场難(nan)以滿(man)足他们的龐(pang)大需求。

英伟达会按(an)目錄(lu)价,根(gen)据采购规模谈一个折(zhe)扣(kou)。据英伟达官(guan)网,A100 售价为 1 万美元 / 枚(mei)(约 7.1 万元人民币),H100 售价为 3.6 万美元 / 枚(约 25.7 万元人民币);据了解,A800 和 H800 售价略低(di)于原版。

中国公司能否(fou)抢到卡,更多是看商业关系,比如(ru)以往(wang)是不是英伟达的大客户。“妳(ni)是和中国英伟达谈,还是去美国找(zhao)老(lao)黃(huang)(黄仁(ren)勛(xun),英伟达创始人、CEO)直接谈,都有差(cha)别。” 一位云厂商人士说。

部分公司也会和英伟达进行 “业务合作”,在购买抢手的数据中心 GPU 时,也购买其它产品,以争取(qu)优先供应。这就像(xiang)愛(ai)馬(ma)仕(shi)的配貨(huo),如果(guo)你想(xiang)买到热门的包,往往也得搭(da)配幾(ji)万元的衣(yi)服、鞋(xie)履(lv)。

綜(zong)合我(wo)们獲(huo)得的行业信(xin)息(xi),字节今年的新下单动作相对激(ji)进,超过 10 亿美元级别。

一位接近英伟达的人士称,字节到货和没到货的 A100 与 H800 总计有 10 万块。其中 H800 今年 3 月才开始投产,这部分芯(xin)片(pian)应来自今年的加购。据了解,以现在的排产进度,部分 H800 要到今年底才能交(jiao)货。

字节跳动 2017 年开始建(jian)設(she)自己的数据中心。曾經(jing)的数据中心更依(yi)賴(lai)適(shi)应所有计算的 CPU,直到 2020 年,字节采购英特(te)爾(er) CPU 的金(jin)额还高于英伟达 GPU。字节采购量的变化,也反(fan)映(ying)了如今大型科技公司的计算需求中,智能计算对通用计算的趕(gan)超。

据了解,某(mou)互联网大厂今年至少已给英伟达下了万卡级别订单,按目录价估算价值超 10 亿元人民币。

腾讯則(ze)率先宣(xuan)布已用上 H800,腾讯云在今年 3 月发布的新版高性能计算服务中已使用了 H800,並(bing)称这是国内首(shou)发。目前这一服务已对企业客户开放测试申请,这快于大部分中国公司的进度。

据了解,阿里云也在今年 5 月对内提出把 “智算战役(yi)” 作为今年的头号战役,并设立(li)三(san)大目标:机器规模、客户规模和营收规模;其中机器规模的重要指(zhi)标就是 GPU 数量。

新的 GPU 到货前,各公司也在通过内部腾挪,优先支持大模型研发。

能一次釋(shi)放較(jiao)多资源的做法是砍掉(diao)一些没那(na)么重要,或(huo)短(duan)期看不到明確(que)前景的方(fang)向。“大公司有好(hao)多半死(si)不活(huo)的业务占(zhan)著(zhe)资源。” 一位互联网大公司 AI 从业者(zhe)说。

今年 5 月,阿里达摩院裁(cai)撤(che)自动駕(jia)駛(shi)實(shi)驗(yan)室(shi):300 多名員(yuan)工中,约 1/3 劃(hua)歸(gui)菜(cai)鳥(niao)技术團(tuan)队,其余(yu)被裁,达摩院不再保留(liu)自动驾驶业务。研发自动驾驶也需要用高性能 GPU 做训练。这一调整(zheng)可能与大模型無(wu)直接关系,但确实讓(rang)阿里获得了一批 “自由 GPU”。

字节和美团,则直接从给公司带来廣(guang)告收入的商业化技术团队那里勻(yun) GPU。

据《晚点 LatePost》了解,今年春节后不久,字节把一批原计划新增给字节商业化技术团队的 A100 匀给了 TikTok 产品技术負(fu)責(ze)人朱(zhu)文佳(jia)。朱文佳正在領(ling)導(dao)字节大模型研发。而商业化技术团队是支持抖(dou)音(yin)广告推薦(jian)算法的核(he)心业务部门。

美团在今年一季度左(zuo)右(you)开始开发大模型。据了解,美团不久前从多个部门调走了一批 80G 顯(xian)存頂(ding)配版 A100,优先供给大模型,让这些部门改用配置(zhi)更低的 GPU。

財(cai)力遠(yuan)不如大平台充(chong)裕(yu)的 B 站(zhan)对大模型也有规划。据了解,B 站此前已储备了数百(bai)块 GPU。今年,B 站一方面(mian)持續(xu)加购 GPU,一方面也在協(xie)调各部门匀卡给大模型。“有的部门给 10 张,有的部门给 20 张。” 一位接近 B 站的人士称。

字节、美团、B 站等互联网公司,原本支持搜(sou)索(suo)、推荐的技术部门一般会有一些 GPU 资源冗(rong)余,在不傷(shang)害(hai)原有业务的前提下,他们现在都在 “把算力水(shui)份(fen)擠(ji)出来”。

不过这種(zhong)拆(chai)東(dong)補(bu)西(xi)的做法能获得的 GPU 数量有限,训练大模型所需的大头 GPU 还是得靠(kao)各公司过去的积累(lei)和等待新 GPU 到货。

全世界都在抢算力

对英伟达数据中心 GPU 的竞賽(sai)也发生在全球(qiu)範(fan)围。不过海外巨头大量购买 GPU 更早,采购量更大,近年的投资相对連(lian)续。

2022 年,Meta 和甲(jia)骨(gu)文就已有对 A100 的大投入。Meta 在去年 1 月与英伟达合作建成 RSC 超级计算集群,它包含(han) 1.6 万块 A100。同年 11 月,甲骨文宣布购买数万块 A100 和 H100 搭建新计算中心。现在該(gai)计算中心已部署(shu)了超 3.27 万块 A100,并陸(lu)续上線(xian)新的 H100。

微软自从 2019 年第一次投资 OpenAI 以来,已为 OpenAI 提供数万块 GPU。今年 3 月,微软又(you)宣布已帮助 OpenAI 建设了一个新计算中心,其中包括数万块 A100。Google 在今年 5 月推出了一个拥有 2.6 万块 H100 的计算集群 Compute Engine A3,服务想自己训练大模型的公司。

中国大公司现在的动作和心態(tai)都比海外巨头更急迫。以百度为例(li),它今年向英伟达新下的 GPU 订单高达上万块。数量级与 Google 等公司相当,雖(sui)然百度的體(ti)量小得多,其去年营收为 1236 亿元人民币,只有 Google 的 6%。

据了解,字节、腾讯、阿里、百度这四家中国投入 AI 和云计算最多的科技公司,过去 A100 的积累都达到上万块。其中字节的 A100 絕(jue)对数最多。不算今年的新增订单,字节 A100 和前代产品 V100 总数接近 10 万块。

成长期公司中,商湯(tang)今年也宣称,其 “AI 大裝(zhuang)置” 计算集群中已总共部署了 2.7 万块 GPU,其中有 1 万块 A100。连看似(si)和 AI 不搭邊(bian)的量化投资公司幻(huan)方之前也购买了 1 万块 A100。

仅看总数,这些 GPU 供各公司训练大模型似乎(hu)綽(chuo)绰有余——据英伟达官网案(an)例,OpenAI 训练 1750 亿参数的 GPT-3 时用了 1 万块 V100 ,训练时长未公开;英伟达测算,如果用 A100 来训练 GPT-3 ,需要 1024 块 A100 训练 1 个月,A100 相比 V100 有 4.3 倍(bei)性能提升(sheng)。但中国大公司过去采购的大量 GPU 要支撑现有业务,或放在云计算平台上售卖,并不能自由地(di)用于大模型开发和对外支持客户的大模型需求。

这也解释了中国 AI 从业者对算力资源估算的巨大差别。清华智能产业研究院院长张亞(ya)勤(qin) 4 月底参加清华论壇(tan)时说,“如果把中国的算力加一块,相当于 50 万块 A100,训练五(wu)个模型没问題(ti)。”AI 公司曠(kuang)視(shi)科技 CEO 印(yin)奇(qi)接受《财新》采访时则说:中国目前可用作大模型训练的 A100 总共只有约 4 万块。

主要反映对芯片、服务器和数据中心等固(gu)定(ding)资产投资的资本开支,可以直觀(guan)说明中外大公司计算资源的数量级差距(ju)。

最早开始测试類(lei) ChatGPT 产品的百度,2020 年以来的年资本开支在 8 亿到 20 亿美元之间,阿里在 60-80 亿美元之间,腾讯在 70-110 亿美元之间。同期,亚马遜(xun)、Meta、Google、微软这四家自建数据中心的美国科技公司的年资本开支最少均(jun)超过 150 亿美元。

疫(yi)情(qing)三年中,海外公司资本开支繼(ji)续上漲(zhang)。亚马逊去年的资本开支已来到 580 亿美元,Meta、Google 均为 314 亿美元,微软接近 240 亿美元。中国公司的投资在 2021 年之后则在收缩。腾讯、百度去年的资本开支均同比下滑(hua)超 25%。

训练大模型的 GPU 已不算充足,各家中国公司如果真的要长期投入大模型,并賺(zhuan)到给其它模型需求 “卖鏟(chan)子(zi)” 的錢(qian),未来还需要持续增加 GPU 资源。

走得更快 OpenAI 已遇(yu)到了这一挑(tiao)战。5 月中旬(xun),OpenAI CEO SamAltman 在与一群开发者的小范围交流(liu)中说,由于 GPU 不够,OpenAI 现在的 API 服务不够穩(wen)定,速(su)度也不够快,在有更多 GPU 前,GPT-4 的多模态能力还无法拓(tuo)展给每个用户,他们近期也不准备发布新的消(xiao)費(fei)级产品。技术咨(zi)詢(xun)机構(gou) TrendForce 今年 6 月发布报告称,OpenAI 需要约 3 万块 A100 来持续优化和商业化 ChatGPT。

与 OpenAI 合作頗(po)深(shen)的微软也面臨(lin)类似情境(jing):今年 5 月,有用户吐(tu)槽(cao) New Bing 回答(da)速度变慢(man),微软回应,这是因为 GPU 补充速度跟(gen)不上用户增长速度。嵌(qian)入了大模型能力的微软 Office 365 Copilot 目前也没有大规模开放,最新数字是有 600 多家企业在试用——Office 365 的全球总用户数接近 3 亿。

中国大公司如果不是仅把训练并发布一个大模型作为目标,而是真想用大模型创造(zao)服务更多用户的产品,并进一步支持其它客户在云上训练更多大模型,就需要提前储备更多 GPU。

为什(shen)么只能是那四款卡?

在 AI 大模型训练上,现在 A100、H100 及(ji)其特供中国的减配版 A800、H800 找不到替(ti)代品。据量化对沖(chong)基金 Khaveen Investments 测算,英伟达数据中心 GPU 2022 年市占率达 88%,AMD 和英特尔瓜(gua)分剩(sheng)下的部分。

2020 年的 GTC 大会上,黄仁勋攜(xie) A100 第一次亮(liang)相。

英伟达 GPU 目前的不可替代性,源自大模型的训练机制,其核心步驟(zhou)是預(yu)训练(pre-training)和微调(fine-tuning),前者是打(da)基座(zuo),相当于接受通识教(jiao)育(yu)至大學(xue)畢(bi)业;后者则是針(zhen)对具体场景和任(ren)务做优化,以提升工作表(biao)现。

预训练環(huan)节尤(you)其消耗(hao)算力,它对单个 GPU 的性能和多卡间的数据傳(chuan)輸(shu)能力有极高要求。

现在只有 A100、H100 能提供预训练所需的计算效率,它们看起(qi)来昂(ang)貴(gui),反倒(dao)是最低廉(lian)的選(xuan)擇(ze)。今天 AI 还在商用早期,成本直接影响一个服务是否可用。

过去的一些模型,如能识别貓(mao)是猫的 VGG16,参数量只有 1.3 亿,当时一些公司会用玩(wan)遊(you)戲(xi)的 RTX 系列消费级显卡来跑(pao) AI 模型。而两年多前发布的 GPT-3 的参数规模已达到 1750 亿。

大模型的庞大计算需求下,用更多低性能 GPU 共同組(zu)成算力已行不通了。因为使用多个 GPU 训练时,需要在芯片与芯片间传输数据、同步参数信息,这时部分 GPU 会閑(xian)置,无法一直飽(bao)和工作。所以单卡性能越(yue)低,使用的卡越多,算力損(sun)耗就越大。OpenAI 用 1 万块 V100 训练 GPT-3 时的算力利用率不到 50%。

A100 、H100 则既(ji)有单卡高算力,又有提升卡间数据传输的高带宽。A100 的 FP32(指用 4 字节进行編(bian)碼(ma)存储的计算)算力达到 19.5 TFLOPS(1 TFLOPS 即每秒(miao)进行一万亿次浮(fu)点运算),H100 的 FP32 算力更高达 134 TFLOPS,是竞品 AMD MI250 的约 4 倍。

A100、H100 还提供高效数据传输能力,盡(jin)可能减少算力闲置。英伟达的獨(du)家秘(mi)籍(ji)是自 2014 年起陆续推出的 NVLink、NVSwitch 等通信协議(yi)技术。用在 H100 上的第四代 NVLink 可將(jiang)同一服务器内的 GPU 雙(shuang)向通信带宽提升至 900 GB/s(每秒传输 900GB 数据),是最新一代 PCle(一种点对点高速串(chuan)行传输标准)的 7 倍多。

去年美国商务部对 GPU 的出口规定也正是卡在算力和带宽这两條(tiao)线上:算力上线为 4800 TOPS,带宽上线为 600 GB/s。

A800 和 H800 算力和原版相当,但带宽打折。A800 的带宽从 A100 的 600GB/s 降为 400GB/s,H800 的具体参数尚(shang)未公开,据彭(peng)博(bo)社(she)报道(dao),它的带宽只有 H100(900 GB/s) 的约一半,執(zhi)行同樣(yang)的 AI 任务时,H800 会比 H100 多花(hua) 10% -30% 的时间。一名 AI 工程(cheng)師(shi)推测,H800 的训练效果可能还不如 A100,但更贵。

即使如此,A800 和 H800 的性能依然超过其他大公司和创业公司的同类产品。受限于性能和更专用的架(jia)构,各公司推出的 AI 芯片或 GPU 芯片,现在主要用来做 AI 推理,难以勝(sheng)任大模型预训练。簡(jian)单来说,AI 训练是做出模型,AI 推理是使用模型,训练对芯片性能要求更高。

性能差距外,英伟达的更深護(hu)城(cheng)河(he)是软件生态。

早在 2006 年,英伟达就推出计算平台 CUDA,它是一个并行计算软件引擎,开发者可使用 CUDA 更高效地进行 AI 训练和推理,用好 GPU 算力。CUDA 今天已成为 AI 基础设施(shi),主流的 AI 框(kuang)架、庫(ku)、工具都以 CUDA 为基础进行开发。

英伟达之外的 GPU 和 AI 芯片如要接入 CUDA,需要自己提供适配软件,但只有 CUDA 部分性能,更新疊(die)(die)代也更慢。PyTorch 等 AI 框架正试圖(tu)打破(po) CUDA 的软件生态壟(long)斷(duan),提供更多软件能力以支持其它厂商的 GPU,但这对开发者吸(xi)引力有限。

一位 AI 从业者称,他所在的公司曾接觸(chu)一家非(fei)英伟达 GPU 厂商,对方的芯片和服务报价比英伟达更低,也承(cheng)諾(nuo)提供更及时的服务,但他们判(pan)断,使用其它 GPU 的整体训练和开发成本会高于英伟达,还得承擔(dan)結(jie)果的不确定性和花更多时间。

“虽然 A100 价格(ge)贵,但其实用起来是最便宜(yi)的。” 他说。对有意(yi)抓(zhua)住(zhu)大模型机会的大型科技公司和头部创业公司来说,钱往往不是问题,时间才是更寶(bao)贵的资源。

短期内,唯一影响英伟达数据中心 GPU 销量的可能只有台积電(dian)的产能。

H100/800 为 4 nm 制程,A100/800 为 7 nm 制程,这四款芯片均由台积电代工生产。据中国台灣(wan)媒(mei)体报道,英伟达今年向台积电新增了 1 万片数据中心 GPU 订单,并下了超急件 ,生产时间最多可缩短 50%。正常(chang)情況(kuang)下,台积电生产 A100 需要数月。目前的生产瓶(ping)頸(jing)主要在先进封(feng)装产能不够,缺口达一至两成,需要 3-6 个月逐步提升。

自从适用于并行计算的 GPU 被引入深度学習(xi),十多年来,AI 发展的动力就是硬(ying)件与软件,GPU 算力与模型和算法的交叠向前:模型发展拉(la)动算力需求;算力增长,又使原本难以企及的更大规模训练成为可能。

在上一波(bo)以图像识别为代表的深度学习热潮中,中国 AI 软件能力比肩(jian)全球最前沿水平;算力是目前的难点——设计与制造芯片需要更长的积累,涉(she)及漫(man)长供应鏈(lian)和浩(hao)繁(fan)专利壁(bi)壘(lei)。

大模型是模型与算法層(ceng)的又一次大进展,没时间慢慢来了,想做大模型,或提供大模型云计算能力的公司必须尽快获得足够多的先进算力。在这轮热潮使第一批公司振(zhen)奮(fen)或失(shi)望(wang)前,围绕 GPU 的抢夺不会停(ting)止(zhi)。返(fan)回搜狐(hu),查(zha)看更多

责任编輯(ji):

发布于:福建漳州平和县