成都地铁广告:投资前景与市场趋势

成都地铁广告:投资前景与市场趋势

成都地铁广告是一种广告形式,在成都的地铁站、车厢内以及车身外进行投放,以达到品牌推广、产品宣传、商家营销等目的。随着成都地铁的发展,越来越多的广告商开始重视成都地铁广告的投放效果,那么成都地铁广告的投资前景和市场趋势又是怎样的呢?

成都地铁广告的投资前景

成都地铁是一座新兴城市的交通骨架,在未来的几年里,成都地铁的线路将会逐渐增多,车站数量也会不断增加。这也为成都地铁广告投放带来了非常好的机会。广告商可以通过成都地铁广告,快速地将自己的产品或品牌展示给更多的人。同时,成都地铁广告的覆盖面比较大,能够覆盖到不同年龄、不同职业、不同文化背景的人群,是其他广告形式所不具备的优势之一。

在投放成都地铁广告时,广告商需要考虑到潜在客户的需求,针对性地制作广告内容,这不仅能够提升广告的转化率,还能够增加广告主的收益。

成都地铁广告的市场趋势

目前,成都地铁广告市场还处于初步发展阶段。成都地铁广告的投放形式和媒体渠道还没有完全成熟,同时也需要符合中国广告法的规范要求。因此,广告商需要在成都地铁广告投放前,仔细研究市场趋势,了解广告投放的规范要求,根据广告投放的目的和受众人群,选择合适的投放方式和媒体渠道。

未来,随着成都地铁的不断发展与壮大,成都地铁广告的市场前景将会越来越广阔。随着科技的发展,成都地铁广告投放的形式也将会不断创新,成为各行业企业品牌推广的重要渠道之一。

结论

总之,成都地铁广告是一种非常有前途的广告形式,能够帮助广告商更加便捷地宣传自己的品牌和产品。未来,成都地铁广告的投资前景和市场趋势都是非常乐观的,但是广告商需要了解市场规律和投放要求,制定更科学的广告投放策略。相信在不久的将来,成都地铁广告将会成为中国广告行业中的重要一员。

成都地铁广告:投资前景与市场趋势随机日志

点击Licence下的EnterLicence,将注册机内的内容复制到软件对应位置,点击确定

1、右击收藏夹里的资源,可选择“移出收藏”来删除该条资源信息,选择“清空收藏”可清空收藏夹所有资源信息

2、进入后,使用鼠标左键,长按下载好的谷歌访问助手插件。拖动至谷歌浏览器的扩展程序页面;

3、新增支持最新的处理器,包括Intel的CoreiCorei和Corei7

4、双击颜色框以通过标准Windows颜色选择对话框更改所选颜色条目。

5、制作包括标签、三维绘图和注释在内的的三维视图和教程,并在需要时随时进行编辑。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>a16z:巨(ju)額(e)計(ji)算(suan)成(cheng)本(ben)壓(ya)力(li)下(xia),不(bu)同(tong)企(qi)業(ye)該(gai)如(ru)何(he)選(xuan)擇(ze) AI 基(ji)礎(chu)設(she)施(shi)?

撰(zhuan)文(wen): Guido Appenzeller、Matt Bornstein 和(he) Martin Casado

來(lai)源(yuan):a16z

圖(tu)片(pian)来源:由(you)無(wu)界(jie) AI工(gong)具(ju)生(sheng)成

生成式(shi)人(ren)工智(zhi)能(neng)的(de)熱(re)潮(chao)是(shi)以(yi)计算為(wei)基础的。它(ta)的壹(yi)個(ge)特(te)性(xing)是,增(zeng)加(jia)更(geng)多(duo)的计算量(liang)會(hui)直(zhi)接(jie)導(dao)致(zhi)更好(hao)的產(chan)品(pin)。通(tong)常(chang)情(qing)況(kuang)下,研(yan)發(fa)投(tou)資(zi)與(yu)产品的價(jia)值(zhi)更直接相(xiang)關(guan),而(er)且(qie)這(zhe)種(zhong)关系(xi)明(ming)顯(xian)是次(ci)線(xian)性的。但(dan)目(mu)前(qian)人工智能的情况並(bing)非(fei)如此(ci),今(jin)天(tian)推(tui)動(dong)该行(xing)业发展(zhan)的主(zhu)要(yao)因(yin)素(su)僅(jin)仅是訓(xun)練(lian)和推理(li)的成本。

雖(sui)然(ran)我(wo)們(men)不知(zhi)道(dao)真(zhen)實(shi)的數(shu)字(zi),但我们從(cong)可(ke)靠(kao)的消(xiao)息(xi)来源聽(ting)說(shuo),算力的供(gong)應(ying)十(shi)分(fen)緊(jin)張(zhang),需(xu)求(qiu)超(chao)過(guo)了(le) 10 倍(bei)!所(suo)以我们認(ren)为,現(xian)在(zai),以最(zui)低(di)的總(zong)成本獲(huo)得(de)计算资源已(yi)經(jing)成为人工智能公(gong)司(si)成功(gong)的決(jue)定(ding)因素。

事(shi)实上(shang),我们已经看(kan)到(dao)許(xu)多公司在计算资源上花(hua)費(fei)的资金(jin)占(zhan)其(qi)总籌(chou)资额的 80% 以上。

在这篇(pian)文章(zhang)中(zhong),我们試(shi)图分解(jie) AI 公司的成本因素。絕(jue)對(dui)数字當(dang)然会隨(sui)著(zhe)時(shi)間(jian)的推移(yi)而變(bian)化(hua),但我们不然我 AI 公司受(shou)计算资源的訪(fang)問(wen)限(xian)制(zhi)將(jiang)立(li)即(ji)緩(huan)解。因此,希(xi)望(wang)这是一个有(you)助(zhu)於(yu)思(si)考(kao)的框(kuang)架(jia)。

为什(shen)麽(me)AI 模(mo)型(xing)的计算成本如此之(zhi)高(gao)?

生成式人工智能模型种類(lei)繁(fan)多,推理和训练成本取(qu)决于模型的大(da)小(xiao)和类型。幸(xing)運(yun)的是,今天最流(liu)行的模型大多是基于 Transformer 的架構(gou),其中包(bao)括(kuo)热門(men)的大型語(yu)言(yan)模型(LLM),如 GPT-3、GPT-J 或(huo) BERT。虽然 transformer 的推理和學(xue)習(xi)操(cao)作(zuo)的確(que)切(qie)数量是特定于模型的(請(qing)參(can)閱(yue)),但有一个相当準(zhun)确的经驗(yan)法(fa)則(ze)仅取决于参数的数量(即神(shen)经網(wang)絡(luo)的權(quan)重(zhong))模型以及(ji)輸(shu)入(ru)和输出(chu) Token 的数量。

Token 基本上是幾(ji)个字符(fu)的短(duan)序(xu)列(lie)。它们对应于單(dan)詞(ci)或单词的一部(bu)分。获得对 token 的直覺(jiao)的最好方(fang)法是使(shi)用(yong)公開(kai)的在线標(biao)記(ji)器(qi)(如 )嘗(chang)试标记化。对于 GPT-3,一个 token 的平(ping)均(jun)長(chang)度(du)是 。

Transformer 的经验法则是,对于一个具有 p 个参数的输入和一个长度为 n 个 token 的输出序列的模型,前向(xiang)通过(即推理)大約(yue)需要 2*n*p 浮(fu)點(dian)运算(FLOPS)1。对同一模型的训练,每(mei)个 token 大约需要 6*p 浮点运算(即,额外(wai)的後(hou)向傳(chuan)遞(di)需要多四(si)次运算 2)。妳(ni)可以通过将其乘(cheng)以训练数據(ju)中的 token 量来估(gu)算总的训练成本。

Transformer 的內(nei)存(cun)需求也(ye)取决于模型大小。对于推理,我们需要 p 个模型参数来適(shi)应内存。对于学习(即反(fan)向传播(bo)),我们需要在前向和后向传递之间存儲(chu)每个参数的额外中间值。假(jia)设我们使用 32 位(wei)浮点数,这就(jiu)是每个参数需要额外的 8 个字節(jie)。对于训练一个 1750 億(yi)个参数的模型,我们需要在内存中保(bao)留(liu)超过一兆(zhao)字节的数据 -- 这超过了目前存在的任(ren)何 GPU,需要我们将模型分割(ge)到不同的卡(ka)上。推理和训练的内存需求可以通过使用更短长度的浮点值来優(you)化,16 位已成为普(pu)遍(bian)现象(xiang),預(yu)计在不久(jiu)的将来会有 8 位。

上表(biao)是几个流行模型的規(gui)模和计算成本。GPT-3 有大约 1750 亿个参数,对应 1,024 个 token 的输入和输出,计算成本大约为 350 萬(wan)亿次浮点运算(即 Teraflops 或 TFLOPS)。训练一个像(xiang) GPT-3 这樣(yang)的模型需要大约 3.14*10^23 的浮点运算。其他(ta)模型如 Meta 的 LLaMA 有更高的计算要求。训练这样的模型是人类迄(qi)今为止(zhi)承(cheng)擔(dan)的计算量較(jiao)大的任務(wu)之一。

总結(jie)一下:人工智能基础设施之所以昂(ang)貴(gui),是因为底(di)層(ceng)的算法问題(ti)在计算上極(ji)其困(kun)難(nan)。与用 GPT-3 生成一个单词的復(fu)雜(za)性相比(bi),对一个有一百(bai)万个條(tiao)目的数据庫(ku)表進(jin)行排(pai)序的算法复杂性是微(wei)不足(zu)道的。这意(yi)味(wei)着你要选择能夠(gou)解决你的用例(li)的最小模型。

好消息是,对于 transformer,我们可以很(hen)容(rong)易(yi)地(di)估计出一个特定大小的模型将消耗(hao)多少(shao)计算和内存。因此,选择合(he)适的硬(ying)件(jian)成为下一个考慮(lv)因素。

GPU 的时间和成本爭(zheng)論(lun)

计算复杂性是如何轉(zhuan)化为时间的?一个處(chu)理器核(he)心(xin)通常可以在每个周(zhou)期(qi)執(zhi)行 1-2 条指(zhi)令(ling),由于 Dennard Scaling 的结束(shu),在过去(qu)的 15 年(nian)中,处理器的时鐘(zhong)速(su)率(lv)一直穩(wen)定在 3 GHz 左(zuo)右(you)。在不利(li)用任何并行架构的情况下,执行单个 GPT-3 推理操作将需要 350 TFLOPS/(3 GHz*1 FLOP)或 116,000 秒(miao),或 32 小时。这是非常不切实際(ji)的;相反,我们需要專(zhuan)门的芯(xin)片来加速这項(xiang)任务。

实际上,今天所有的 AI 模型都(dou)在使用大量专用内核的卡上运行。例如,英(ying)偉(wei)達(da) A100 图形(xing)处理器有 512 个"张量核心",可以在一个周期内完(wan)成 4×4 矩(ju)陣(zhen)乘法(相当于 64 次乘法和加法,或 128 个 FLOPS)。人工智能加速器卡通常被(bei)稱(cheng)为 GPU(图形处理单元(yuan)),因为该架构最初(chu)是为桌(zhuo)面(mian)遊(you)戲(xi)开发的。在未(wei)来,我们预计人工智能将日(ri)益(yi)成为一个獨(du)特的产品系列。

A100 的标称性能为 312 TFLOPS,理论上可以将 GPT-3 的推理时间縮(suo)短到 1 秒左右。然然而,由于多种原(yuan)因,这是一个过于簡(jian)化的计算。首(shou)先(xian),对于大多数用例来说,瓶(ping)頸(jing)不是 GPU 的计算能力,而是将数据从专门的图形存储器送(song)到张量核心的能力。其次,1750 亿个权重将占用 700 GB,无法放(fang)入任何 GPU 的图形存储器中。需要使用分區(qu)和权重流等(deng)技(ji)術(shu)。第(di)三(san),有一些(xie)优化(例如,使用更短的浮点表示(shi),如 FP16、FP8 或稀(xi)疏(shu)矩阵),正(zheng)在被用来加速计算。但是,总的来说,上面的数字讓(rang)我们对当今 LLM 的总體(ti)计算成本有了直觀(guan)的了解。

训练一个 transformer 模型每个标记花费的时间大约是进行推理的三倍。然而,考虑到训练数据集(ji)比推理提(ti)示大 3 亿倍,训练需要 10 亿倍的时间。在单个 GPU 上,训练需要数十年;在实踐(jian)中,这是在专用数据中心的大型计算集群(qun)上进行的,或者(zhe)更有可能是在雲(yun)端(duan)。训练也比推理更难并行化,因为更新(xin)的权重必(bi)須(xu)在节点之间进行交(jiao)換(huan)。GPU 之间的内存和帶(dai)寬(kuan)往(wang)往成为一个更重要的因素,高速互(hu)連(lian)和专用结构是很常見(jian)的。对于训练非常大的模型,創(chuang)建(jian)一个合适的网络设置(zhi)可能是首要挑(tiao)戰(zhan)。展望未来,AI 加速器将在卡上甚(shen)至(zhi)芯片上具備(bei)聯(lian)网能力。

那(na)么,这种计算复杂性如何转化为成本?正如我们在上面看到的,一个 GPT-3 推理,在 A100 上大约需要 1 秒钟,对于 1000 个 token 的原始(shi)计算成本在 0.0002 美(mei)元到 0.0014 美元之间(相比之下,OpenAI 的定价为 0.002 美元/1000 个 token)。这是一个非常低的价格(ge)点,使得大多数基于文本的人工智能用例在经濟(ji)上是可行的。

另(ling)一方面,训练 GPT-3 则要昂贵得多。在上述(shu)速率下,再(zai)次仅计算 3.14*10^23 FLOPS 的计算成本,我们可以估计到 A100 卡上的单次训练费用为 56 万美元。在实践中,对于训练,我们不会在 GPU 上获得近(jin) 100% 的效(xiao)率;但是我们也可以使用优化来減(jian)少训练时间。其他对 GPT-3 训练成本的估计从 到 不等,取决于硬件假设。请註(zhu)意,这是一次运行的成本,而不是整(zheng)体成本。可能需要多次运行,而云供应商(shang)将希望得到长期的承諾(nuo)(下文有更多这方面的内容)。训练頂(ding)級(ji)的模型仍(reng)然很昂贵,但对于资金充(chong)足的初创公司来说是可以承受的。

总而言之,当今的生成式人工智能需要对人工智能基础设施进行大量投资。沒(mei)有理由相信(xin)这会在不久的将来发生改(gai)变。训练像 GPT-3 这样的模型是人类有史(shi)以来计算量最大的任务之一。虽然 GPU 变得越(yue)来越快(kuai),而且我们找(zhao)到了优化训练的方法,但人工智能的快速擴(kuo)张抵(di)消了这兩(liang)种影(ying)響(xiang)。

AI 基础设施的考虑因素

至此,我们已尝试让您(nin)对进行 AI 模型训练和推理所需的规模以及驅(qu)动它们的底层参数有了一定的了解。在这种背(bei)景(jing)下,我们现在想(xiang)就如何决定使用哪(na)种 AI 基础设施提供一些实用指南(nan)。

外部与内部基础设施

GPU 很酷(ku)。许多工程(cheng)師(shi)和有工程意識(shi)的创始人都偏(pian)向于配(pei)置自(zi)己(ji)的人工智能硬件,这不仅是因为它可以对模型训练进行細(xi)粒(li)度控(kong)制,還(hai)因为利用大量计算能力会带来一些樂(le)趣(qu)(附(fu)件 A)。

然而,现实是,许多初创公司 -- 尤(you)其是应用程序公司 -- 不需要在第一天就建立自己的人工智能基础设施。相反,像 OpenAI 或 Hugging Face(用于语言)和 Replicate(用于图像生成)这样的托(tuo)管(guan)模型服(fu)务使创始人能够迅(xun)速搜(sou)索(suo)产品与市(shi)場(chang)的契(qi)合度,而不需要管理底层基础设施或模型。

这些服务已经变得如此之好,以至于许多公司可以直接依(yi)附于它们。开发人員(yuan)可以通过提示工程和高階(jie)微調(tiao)抽(chou)象(即通过 API 调用进行微调)实现对模型性能的有意義(yi)的控制。这些服务的定价是基于消费的,所以它也经常比运行单独的基础设施更便(bian)宜(yi)。我们已经看到一些应用程序公司产生了超过 5000 万美元的 ARR,估值超过 10 亿美元,它们在后臺(tai)运行托管模型服务。

另一方面,一些初创公司 -- 特別(bie)是那些训练新的基础模型或建立垂(chui)直整合的人工智能应用 -- 无法避(bi)免(mian)直接在 GPU 上运行自己的模型。要么是因为模型实际上是产品并且團(tuan)隊(dui)正在尋(xun)找“模型 - 市场契合度”,要么是因为需要对训练和/或推理进行细粒度控制才(cai)能实现某(mou)些功能或大规模降(jiang)低邊(bian)际成本。无论哪种方式,管理基础架构都可以成为競(jing)争优勢(shi)的来源。

云与数据中心的构建

在大多数情况下,云是你的 AI 基础设施的正确位置。对大多数初创企业和大公司来说,较少的前期成本,扩大和缩小规模的能力,区域(yu)可用性,以及较少因建立自己的数据中心而分心,是具有吸(xi)引(yin)力的。

但这一规则也有几个例外:

如果(guo)你的运營(ying)规模非常大,运行你自己的数据中心可能会变得更有成本效益。确切的价位根(gen)据地理位置和设置而不同,但通常需要每年超过 5000 万美元的基础设施支(zhi)出。 你需要非常具体的硬件,而这些硬件你无法从云供应商那裏(li)获得。例如,没有廣(guang)泛(fan)使用的 GPU 类型,以及不寻常的内存、存储或网络要求。 出于地緣(yuan)政(zheng)治(zhi)的考虑,你无法找到一个可以接受的云。

如果你确实想建立自己的数据中心,对于自己的设置,已经有了全(quan)面的 GPU 价格/性能分析(xi)(例如,Tim Dettmer 的分析)。除(chu)了卡本身(shen)的成本和性能外,硬件的选择还取决于電(dian)源、空(kong)间和冷(leng)卻(que)。例如,两塊(kuai) RTX 3080 Ti 卡加在一起(qi)的原始计算能力与 A100 相似(si),但各(ge)自的功耗是 700 W 与 300 W。在三年的生命(ming)周期内,以 0.10 美元/千(qian)瓦(wa)时的市场价格计算,3500 千瓦时的功率差(cha)異(yi)使 RTX3080 Ti 的成本增加了近 2 倍(约 1000 美元)。

綜(zong)上所述,我们预计绝大部分初创企业都会使用云计算。

比较云服务提供商

亞(ya)馬(ma)遜(xun)网络服务(AWS)、微軟(ruan) Azure 和谷(gu)歌(ge)云平台(GCP)都提供 GPU 实例,但也出现了新的供应商,专门专注于人工智能工作負(fu)載(zai)。下面是我们看到的许多创始人用来选择云供应商的框架:

价格:下表显示了截(jie)至 2023 年 4 月(yue) 7 日一些主要和较小的专业云的价格。该数据仅供参考,因为实例在网络带宽、数据出口(kou)成本、CPU 和网络的额外成本、可用折(zhe)扣(kou)和其他因素方面有很大的不同。

特定硬件的计算能力是一种商品。直截了当地講(jiang),我们会期望价格相当統(tong)一,但事实并非如此。虽然云计算之间存在着实質(zhi)性的功能差异,但它们不足以解釋(shi)按(an)需 NVIDIA A100 的定价在供应商之间相差近 4 倍。

在价格範(fan)圍(wei)的顶端,大型公共(gong)云根据品牌(pai)聲(sheng)譽(yu)、经过验證(zheng)的可靠性以及管理各种工作负载的需要收(shou)取溢(yi)价。较小的专业 AI 提供商通过运行专用数据中心(例如 Coreweave)或套(tao)利其他云(例如 Lambda Labs)来提供较低的价格。

实际上,大多数大型買(mai)家(jia)直接与云供应商談(tan)判(pan)价格,通常承诺一些最低支出要求以及最低时间承诺(我们看到的是 1-3 年)。谈判之后,云计算之间的价格差异会有所缩小,但我们看到上表中的排名(ming)保持(chi)相对稳定。同样重要的是要注意,小公司可以从专业云中获得積(ji)极的定价,而不需要大量的支出承诺。

可用性:最強(qiang)大的 GPU(如 Nvidia A100 s)在过去 12 个多月里一直供不应求。

考虑到前三大云计算供应商的巨大購(gou)买力和资源池(chi),认它们擁(yong)有最佳(jia)可用性是合乎(hu)邏(luo)輯(ji)的。但是,有点令人驚(jing)訝(ya)的是,许多初创企业并没有发现这是真的。大的云服务商有大量的硬件,但也有大量的客(ke)戶(hu)需求需要滿(man)足 -- 例如,Azure 是 ChatGPT 的主要主機(ji) -- 并且不斷(duan)增加/释放容量以满足需求。同时,Nvidia 已经承诺在整个行业广泛提供硬件,包括为新的专业供应商分配。(他们这样做(zuo)既(ji)是为了公平,也是为了减少对几个大客户的依賴(lai),这些客户也在与他们竞争)。

因此,许多初创公司在较小的云计算供应商那里发现了更多可用的芯片,包括尖(jian)端的 Nvidia H100 s。如果你願(yuan)意与较新的基础设施公司合作,你可能会减少硬件的等待(dai)时间,并可能在这个过程中节省(sheng)资金。

计算交付(fu)模式:今天的大型云只(zhi)提供带有专用 GPU 的实例,原因是 GPU 虛(xu)擬(ni)化仍是一个未解决的问题。专业的人工智能云提供其他模式,如容器或批(pi)处理作业,可以处理单个任务,而不产生实例的啟(qi)动和拆(chai)卸(xie)成本。如果你对这种模式感(gan)到满意,它可以大大降低成本。

网络互连:具体到培(pei)训方面,网络带宽是选择供应商的一个主要因素。训练某些大型模型时,需要在节点之间使用专用网络的集群,如 NVLink。对于图像生成,出口流量费用也是一个主要的成本驱动因素。

客户支持:大型云供应商为数以千计的产品 SKU 中的大量客户提供服务。除非你是一个大客户,否(fou)则很难得到客户支持的关注,或得到问题解决。另一方面,许多专门的人工智能云,甚至为小客户提供快速和响应的支持。这部分是因为他们的运营规模较小,但也因为他们的工作负载更加同质化,所以他们更有动力去关注人工智能的具体功能和錯(cuo)誤(wu)。

比较GPU

在其他条件相同的情况下,最高端的 GPU 在几乎所有的工作负载上都会表现最好。然而,正如你在下面的表格中所看到的,最好的硬件也是相当昂贵的。为你的特定应用选择正确类型的 GPU 可以大大降低成本,并可能在可行和不可行的商业模式之间产生差异。

决定在列表中走(zou)多遠(yuan)——即为您的应用程序确定最具成本效益的 GPU 选择——主要是一个技术决策(ce),超出了本文的范围。但我们将在下面分享(xiang)一些我们认为最重要的选择标准:

训练与推理:正如我们在上面第一节中所看到的,训练一个 Transformer 模型需要我们存储 8 个字节的数据用于训练,此外还有模型权重。这意味着一个典(dian)型的拥有 12 GB 内存的高端消费级 GPU 几乎不能用来训练一个 40 亿参数的模型。在实践中,训练大型模型是在机器集群上进行的,每台服务器最好有许多 GPU,大量的 VRAM,以及服务器之间的高带宽连接(即,使用顶级数据中心 GPU 建立的集群)。

具体来说,许多模型在英伟达 H100 上的成本效益最高,但就目前而言,它很难找到,通常需要一年以上的长期承诺。而英伟达 A100 运行着大多数模型训练;它更容易找到,但对于大型集群,可能也需要长期承诺。

内存要求:大型 LLM 的参数数量太(tai)多,无法裝(zhuang)入任何卡中。它们需要被分割到多个卡中,并需要一个类似于训练的设置。换句(ju)話(hua)说,即使是 LLM 推理,您也可能需要 H100 或 A100。但是较小的模型(例如,Stable Diffusion)需要更少的 VRAM。虽然 A100 仍然很受歡(huan)迎(ying),但我们已经看到初创公司使用 A10、A40、A4000、A5000 和 A6000,甚至是 RTX 卡。

硬件支持:虽然与我们交谈过的公司中的绝大多数工作负载都在英伟达上运行,但也有一些公司开始尝试使用其他供应商。最常见的是谷歌的 TPU,而英特爾(er)的 Gaudi 2 似乎也得到了一些关注。这些供应商所面臨(lin)的挑战是,你的模型的性能往往高度依赖于这些芯片的软件优化的可用性。你可能必须做一个 PoC,以了解性能。

延(yan)遲(chi)要求:一般(ban)来说,对延迟不太敏(min)感的工作负载(例如,批量数据处理或不需要交互式用户界面响应的应用程序)可以使用功率较小的 GPU。这可以减少 3-4 倍的计算成本(例如,比较 AWS 上的 A100 s 与 A10 s)。另一方面,面向用户的应用程序往往需要高端卡来提供有吸引力的实时用户体验。优化模型往往是必要的,以使成本达到一个可控的范围。

峰(feng)值:生成式人工智能公司经常看到需求的急(ji)劇(ju)上升(sheng),因为这项技术是如此新穎(ying)且令人興(xing)奮(fen)。在新产品发布(bu)的基础上,请求量在一天内增加 10 倍,或每周持續(xu)增长 50%,这是很正常的。在低端 GPU 上处理这些峰值通常更容易,因为更多的计算节点可能会按需提供。如果这种流量来自参与度较低或留存率较低的用户,那么以犧(xi)牲(sheng)性能为代(dai)价,以较低成本的资源为此类流量提供服务通常也是有意义的。

优化和调度模型

软件优化可以极大地影响模型的运行时间 - 10 倍的收益并不罕(han)见。然而,你需要确定哪些方法对你的特定模型和系统最有效。

有些技术对相当广泛的模型有效。使用较短的浮点表示(即 FP16 或 FP8 与原始的 FP32 相比)或量化(INT8、INT4、INT2)实现的加速通常与位数的减少成线性关系。这有时需要修(xiu)改模型,但现在有越来越多的技术可以实现混(hun)合或更短精(jing)度的自动工作。修剪(jian)神经网络通过忽(hu)略(lve)低值的权重来减少权重的数量。结合高效的稀疏矩阵乘法,这可以在现代 GPU 上实现大幅(fu)提速。此外,另一組(zu)优化技术解决了内存带宽瓶颈(例如,通过流式模型权重)。

其他的优化是高度針(zhen)对模型的。例如,Stable Diffusion 在推理所需的 VRAM 量方面取得了重大进展。还有一类优化是针对硬件的。英伟达的 TensorML 包括一些优化,但只能在英伟达的硬件上运行。最后,但同样重要的是,人工智能任务的调度可以创造(zao)巨大的性能瓶颈或改进。将模型分配到 GPU 上,以盡(jin)量减少权重的交换,如果有多个 GPU 可用,则为任务挑选最佳 GPU,以及通过提前批处理工作负载来尽量减少停(ting)机时间,这些都是常见的技术。

最后,模型优化仍然是一门黑(hei)魔(mo)法,我们接觸(chu)过的大多数初创公司都与第三方合作,以幫(bang)助解决其中一些软件方面的问题。通常,这些不是传统的 MLops 供应商,而是专门针对特定生成模型(例如 OctoML 或 SegMind)进行优化的公司。

人工智能基础设施成本将如何演(yan)变?

在过去的几年里,我们看到和 都呈(cheng)指数级增长。目前还不清(qing)楚(chu)这种趨(qu)势是否会繼(ji)续。

今天,人们普遍认为,在最佳参数数量和训练数据集的大小之间存在着一种关系(关于这一点,请参阅 Deepmind 的 的研究(jiu))。今天最好的 LLM 是在 (45 亿个网頁(ye)的集合,或者说约占现存所有网页的 10%)上训练的。训练语料(liao)库还包括維(wei)基百科(ke)和一个图書(shu)集,尽管两者都要小得多(现存的图书总数估计只有约)。其他想法,如转錄(lu)視(shi)頻(pin)或音(yin)频内容,也被提出来,但这些都没有接近的规模。目前还不清楚我们是否能获得一个比已经使用的数据集大 10 倍的非合成训练数据集。

GPU 性能将继续提高,但速度也会变慢(man)。摩(mo)尔定律(lv)仍然完好无損(sun),允(yun)许更多的晶(jing)体管和更多的内核,但功率和 I/O 正在成为限制因素。此外,许多用于优化的低垂果实已经被摘(zhai)下。

然而,这并不意味着我们预计对计算容量的需求不会增加。即使模型和训练集的增长放缓,人工智能行业的增长和人工智能开发者数量的增加将推动对更多更快的 GPU 的需求。在模型的开发阶段(duan),很大一部分 GPU 容量被开发人员用于測(ce)试,而这种需求随着人数的增加而线性增长。没有跡(ji)象表明,我们今天的 GPU 短缺(que)将在不久的将来减輕(qing)。

这种持续的人工智能基础设施的高成本是否会形成護(hu)城(cheng)河(he),使新进入者无法追(zhui)趕(gan)资金充足的在位者?我们还不知道这个问题的答(da)案(an)。今天,LLM 的训练成本可能看起来像护城河,但 Alpaca 或 Stable Diffusion 等开源模型表明这些市场仍处于早(zao)期阶段并且可能会迅速变化。随着时间的推移,新兴 AI 软件堆(dui)棧(zhan)的成本结构(请参阅我们之前的帖(tie)子(zi))可能开始看起来更像传统软件行业。

最終(zhong),这将是一件好事:歷(li)史表明,这会带来充满活(huo)力的生態(tai)系统,并为创业者提供快速创新和大量机会。

感謝(xie) Moin Nadeem 和 Shangda Xu 在寫(xie)作过程中的投入和指导。返(fan)回(hui)搜狐(hu),查(zha)看更多

責(ze)任編(bian)辑:

发布于:安徽六安金寨县