每一瓶啤酒创意广告

瓶装啤酒广告:享受最纯正的啤酒口感

瓶装啤酒,堪称啤酒中的经典款,无论是下班后的小清新,还是周末的狂欢派对,瓶装啤酒都能带给你最纯正的啤酒口感。在这个快节奏的现代化生活中,人们的生活压力越来越大,每一个人都需要有一个放松自己的方式,瓶装啤酒无疑是其中的一种选择。

瓶装啤酒

不同于罐装啤酒,瓶装啤酒的质感更为清新自然,色泽更加清澈透明,更加高雅贵气。作为啤酒中的精品,瓶装啤酒成为啤酒爱好者们的必选之品。喝啤酒并不是单纯为了解渴,更多的是为了品尝啤酒的口感,瓶装啤酒会给你一次不一样的口感体验。

瓶装啤酒在酒吧

在酒吧,你可以享受到酒吧老板为你精心准备的瓶装啤酒,你可以和朋友一起谈笑风生,享受啤酒的欢愉;在家,你可以品尝自己喜欢的瓶装啤酒,轻松度过一个个美好的周末。瓶装啤酒,不仅仅是一种饮料,更是一种生活方式。在你的生活中,让瓶装啤酒成为你的伴侣,享受快乐的生活。

结论

瓶装啤酒,不仅仅是一种饮料,更是一种生活方式,一种享受人生的方式。在这个多彩而又繁忙的现代世界里,我们需要有一个放松自己的方式,瓶装啤酒能成为我们的选择。让我们一起品尝这款不同于其他啤酒的精品,感受最纯正的啤酒口感。

瓶装啤酒瓶子

每一瓶啤酒创意广告特色

1、轻松互动,惊喜福利

2、简单的在线阅读方式等你来体验,轻松点击小说来进行阅读,带来不错的仿真翻页玩法。

3、擂台竞技,多重挑战引爆激情

4、商品详情一目了然

5、内置英汉词典,点击单词即可查看详细的释义,长按还可以查看例句以及用法;

每一瓶啤酒创意广告亮点

1、多种模式娱乐性强。多层次设计,富有挑战性。

2、查阅了很多疾病和用药的相关知识;

3、在这里大家可以更加轻松的了解到很多的招聘信息,还能够享受到简历自动生成的便捷。

4、游戏的非常的可爱,而且拥有更多的策略战斗玩法;

5、丰富的角色设定,玩家可以自定义选择,感受不一样的冒险;

qingsonghudong,jingxifulijiandandezaixianyuedufangshidengnilaitiyan,qingsongdianjixiaoshuolaijinxingyuedu,dailaibucuodefangzhenfanyewanfa。leitaijingji,duozhongtiaozhanyinbaojiqingshangpinxiangqingyimuleranneizhiyinghancidian,dianjidancijikezhakanxiangxideshiyi,changanhaikeyizhakanlijuyijiyongfa;深(shen)度(du)學(xue)習(xi)GPU選(xuan)購(gou)指(zhi)南(nan):哪(na)款(kuan)顯(xian)卡(ka)配(pei)得(de)上(shang)我(wo)的(de)煉(lian)丹(dan)爐(lu)?

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji):Joey David

【新智元導(dao)讀(du)】最(zui)近(jin),曾(zeng)拿(na)到(dao)斯(si)坦(tan)福(fu)、UCL、CMU、NYU博(bo)士(shi)offer、目(mu)前(qian)在(zai)華(hua)盛(sheng)頓(dun)大(da)学读博的知(zhi)名(ming)測(ce)評(ping)博主(zhu)Tim Dettmers在自(zi)己(ji)的網(wang)站(zhan)又(you)上線(xian)了(le)深度学习領(ling)域(yu)的GPU深度测评,到底(di)誰(shui)才(cai)是(shi)性(xing)能(neng)和(he)性價(jia)比(bi)之(zhi)王(wang)?

眾(zhong)所(suo)周(zhou)知,在處(chu)理(li)深度学习和神(shen)經(jing)网絡(luo)任(ren)務(wu)時(shi),最好(hao)使(shi)用(yong)GPU而(er)不(bu)是CPU來(lai)处理,因(yin)為(wei)在神经网络方(fang)面(mian),即(ji)使是壹(yi)個(ge)比較(jiao)低(di)端(duan)的GPU,性能也(ye)會(hui)勝(sheng)過(guo)CPU。

深度学习是一个對(dui)計(ji)算(suan)有(you)著(zhe)大量(liang)需(xu)求(qiu)的领域,從(cong)一定(ding)程(cheng)度上来說(shuo),GPU的选擇(ze)將(jiang)从根(gen)本(ben)上決(jue)定深度学习的體(ti)驗(yan)。

但(dan)問(wen)題(ti)来了,如(ru)何(he)选购合(he)適(shi)的GPU也是件(jian)頭(tou)疼(teng)燒(shao)腦(nao)的事(shi)。

怎(zen)麽(me)避(bi)免(mian)踩(cai)雷(lei),如何做(zuo)出(chu)性价比高(gao)的选择?

曾经拿到过斯坦福、UCL、CMU、NYU、UW 博士 offer、目前在华盛顿大学读博的知名评测博主Tim Dettmers就(jiu)針(zhen)对深度学习领域需要(yao)怎樣(yang)的GPU,結(jie)合自身(shen)经验撰(zhuan)寫(xie)了萬(wan)字(zi)長(chang)文(wen),最後(hou)給(gei)出了DL领域的推(tui)薦(jian)GPU。

Tim Dettmers此(ci)人(ren)的研(yan)究(jiu)方向(xiang)是表(biao)征(zheng)学习、硬(ying)件優(you)化(hua)的深度学习,他(ta)自己創(chuang)建(jian)的网站在深度学习和计算機(ji)硬件领域也是小(xiao)有名氣(qi)。

Tim Dettmers此文推荐的GPU全(quan)部(bu)来自N廠(chang),他显然(ran)也認(ren)为,搞(gao)机器(qi)学习,AMD目前還(hai)不配擁(yong)有姓(xing)名。

原(yuan)文鏈(lian)接(jie)小编也貼(tie)在下(xia)面啦(la)。

原文链接:https://timdettmers.com/2023/01/16/which-gpu-for-deep-learning/#GPU_Deep_Learning_Performance_per_Dollar

RTX40和30系(xi)的优缺(que)點(dian)

與(yu)英(ying)偉(wei)達(da)圖(tu)靈(ling)架(jia)構(gou)RTX 20系列(lie)相(xiang)比,新的英伟达安(an)培(pei)架构RTX 30系列具(ju)有更(geng)多(duo)优勢(shi),如稀(xi)疏(shu)网络訓(xun)練(lian)和推理。其(qi)他功(gong)能,如新的數(shu)據(ju)類(lei)型(xing),應(ying)更多地(di)被(bei)看(kan)作(zuo)是一種(zhong)易(yi)用化功能,因为它(ta)們(men)提(ti)供(gong)了与图灵架构相同(tong)的性能提升(sheng),但不需要任何額(e)外(wai)的编程要求。

Ada RTX 40系列甚(shen)至(zhi)有更多的進(jin)步(bu),比如上面介(jie)紹(shao)的張(zhang)量內(nei)存(cun)加(jia)速(su)器(TMA)和8位(wei)浮(fu)点運(yun)算(FP8)。与RTX 30相比,RTX 40系列也有类似(si)的電(dian)源(yuan)和溫(wen)度问题。RTX 40的电源連(lian)接器电纜(lan)融(rong)化的问题可(ke)以(yi)通(tong)过正(zheng)確(que)连接电源电缆而輕(qing)松(song)避免。

稀疏的网络训练

安培允(yun)許(xu)在密(mi)集(ji)的速度下进行(xing)細(xi)粒(li)度结构的自動(dong)稀疏矩(ju)陣(zhen)乘(cheng)法(fa)。這(zhe)是如何做到的?以一个權(quan)重(zhong)矩阵为例(li),把(ba)它切(qie)成(cheng)4个元素(su)的碎(sui)片(pian)。現(xian)在想(xiang)象(xiang)这4个元素中(zhong)的2个元素为零(ling)。图1显示(shi)了这种情(qing)況(kuang)的样子(zi)。

图1:Ampere架构GPU中的稀疏矩阵乘法功能所支(zhi)持(chi)的结构

當(dang)妳(ni)将这个稀疏权重矩阵与一些(xie)密集輸(shu)入(ru)相乘时,安培的稀疏矩阵张量核(he)心(xin)功能会自动将稀疏矩阵壓(ya)縮(suo)为密集表示,其大小为图2所示的一半(ban)。

在压缩之后,密集压缩的矩阵瓦(wa)片被送(song)入张量核心,张量核心计算的矩阵乘法是通常(chang)大小的兩(liang)倍(bei)。这有效(xiao)地產(chan)生(sheng)了2倍的速度,因为在共(gong)享(xiang)内存的矩阵乘法过程中,帶(dai)寬(kuan)要求減(jian)半。

图2:在进行矩阵乘法之前,稀疏矩阵被压缩为密集表示。

我在研究中致(zhi)力(li)於(yu)稀疏网络训练,我还写了一篇(pian)關(guan)于稀疏训练的博文。对我的工(gong)作的一个批(pi)评是:"你减少(shao)了网络所需的FLOPS,但並(bing)沒(mei)有产生速度的提升,因为GPU不能进行快(kuai)速的稀疏矩阵乘法"。

隨(sui)着Tensor Cores的稀疏矩阵乘法功能的增(zeng)加,我的算法或(huo)其他稀疏训练算法,现在實(shi)際(ji)上在训练期(qi)間(jian)提供了高达2倍的速度。

開(kai)發(fa)的稀疏训练算法有三(san)个階(jie)段(duan):(1)确定每(mei)層(ceng)的重要性。(2) 刪(shan)除(chu)最不重要的权重。(3) 提升与每层的重要性成比例的新权重。

雖(sui)然这一功能仍(reng)处于实验阶段,而且(qie)训练稀疏网络还不普(pu)遍(bian),但在你的GPU上拥有这一功能意(yi)味(wei)着你已(yi)经为稀疏训练的未(wei)来做好了準(zhun)備(bei)。

低精(jing)度计算

在我的工作中,我之前已经表明(ming),新的数据类型可以提高低精度反(fan)向傳(chuan)播(bo)期间的穩(wen)定性。

图4:低精度深度学习8位数据类型。深度学习训练得益(yi)于高度專(zhuan)業(ye)化的数据类型

目前,如果(guo)你想用16位浮点数(FP16)进行稳定的反向传播,最大的问题是普通FP16数据类型只(zhi)支持[-65,504, 65,504]範(fan)圍(wei)内的数字。如果你的梯(ti)度滑(hua)过这个范围,你的梯度就会爆(bao)炸(zha)成NaN值(zhi)。

为了防(fang)止(zhi)在FP16训练中出现这种情况,我们通常会进行損(sun)失(shi)缩放(fang),即在反向传播之前将损失乘以一个小数字,以防止这种梯度爆炸。

Brain Float 16格(ge)式(shi)(BF16)对指数使用了更多的比特(te),这样可能的数字范围与FP32相同,BF16的精度较低,也就是有效数字,但梯度精度对学习来说并不那(na)么重要。

所以BF16所做的是,你不再(zai)需要做任何损失缩放,也不需要擔(dan)心梯度会迅(xun)速爆炸。因此,我们应該(gai)看到,通过使用BF16格式,训练的稳定性有所提高,因为精度略(lve)有损失。

这对你意味着什(shen)么。使用BF16精度,训练可能比使用FP16精度更稳定,同时提供相同的速度提升。使用TF32精度,你可以得到接近FP32的稳定性,同时提供接近FP16的速度提升。

好的是,要使用这些数据类型,你只需用TF32取(qu)代(dai)FP32,用BF16取代FP16--不需要修(xiu)改(gai)代碼(ma)。

不过總(zong)的来说,这些新的数据类型可以被看作是懶(lan)惰(duo)的数据类型,因为你可以通过一些额外的编程努(nu)力(适当的损失缩放、初(chu)始(shi)化、規(gui)范化、使用Apex)来獲(huo)得舊(jiu)数据类型的所有好处。

因此,这些数据类型并没有提供速度,而是改善(shan)了训练中低精度的使用便(bian)利(li)性。

風(feng)扇(shan)設(she)计和GPU温度

虽然RTX 30系列的新风扇设计在冷(leng)卻(que)GPU方面表现非(fei)常好,但非创始版(ban)GPU的不同风扇设计可能会出现更多问题。

如果你的GPU发熱(re)超(chao)过80C,它就会自我節(jie)流(liu),减慢(man)其计算速度/功率(lv)。解(jie)决这个问题的辦(ban)法是使用PCIe擴(kuo)展(zhan)器,在GPU之间创造(zao)空(kong)间。

用PCIe扩展器分(fen)散(san)GPU对散热非常有效,华盛顿大学的其他博士生和我都(dou)使用这种设置(zhi),并取得了巨(ju)大的成功。它看起(qi)来并不漂(piao)亮(liang),但它能使你的GPU保(bao)持涼(liang)爽(shuang)!

下面这套(tao)系統(tong)已经运行了4年(nian),完(wan)全没有问题。如果你没有足(zu)夠(gou)的空间在PCIe插(cha)槽(cao)中安裝(zhuang)所有的GPU,也可以这么用。

图5: 带PCIE扩展口(kou)的4显卡系统,看起来一團(tuan)亂(luan),但散热效率很(hen)高。

优雅(ya)地解决功耗(hao)限(xian)制(zhi)问题

在你的GPU上设置一个功率限制是可能的。因此,你将能够以编程方式将RTX 3090的功率限制设置为300W,而不是其標(biao)准的350W。在4个GPU系统中,这相当于节省(sheng)了200W,这可能剛(gang)好足够用1600W PSU建立(li)一个4x RTX 3090系统的可行性。

这还有助(zhu)于保持GPU的冷却。因此,设置功率限制可以同时解决4x RTX 3080或4x RTX 3090设置的两个主要问题,冷却和电源。对于4倍的设置,你仍然需要高效散热风扇的 GPU,但这解决了电源的问题。

图6:降(jiang)低功率限制有轻微(wei)的冷却效果。将RTX 2080 Ti的功率限制降低50-60W,温度略有下降,风扇运行更加安靜(jing)

你可能会问,「这不会降低GPU的速度嗎(ma)?」 是的,确实会降,但问题是降了多少。

我对图5所示的4x RTX 2080 Ti系统在不同功率限制下进行了基(ji)准测試(shi)。我对推理过程中BERT Large的500个小批次(ci)的时间进行了基准测试(不包(bao)括(kuo)softmax层)。选择BERT Large推理,对GPU的压力最大。

图7:在RTX 2080 Ti上,在给定的功率限制下测得的速度下降

我们可以看到,设置功率限制并不嚴(yan)重影(ying)響(xiang)性能。将功率限制在50W,性能僅(jin)下降7%。

RTX 4090接头起火(huo)问题

有一种誤(wu)解,认为RTX 4090电源线起火是因为被彎(wan)折(zhe)过度了。实际上只有0.1%的用戶(hu)是这个原因,主要问题是电缆没有正确插入。

因此,如果你遵(zun)循(xun)以下安装说明,使用RTX 4090是完全安全的。

1. 如果你使用旧的电缆或旧的GPU,确保觸(chu)点没有碎片/灰(hui)塵(chen)。

2.使用电源连接器,并将其插入插座(zuo),直(zhi)到你聽(ting)到哢(ka)嚓(ca)一聲(sheng)--这是最重要的部分。

3. 通过从左(zuo)到右(you)扭(niu)动电源线来测试是否(fou)合适。电缆不应该移(yi)动。

4.目視(shi)檢(jian)查(zha)与插座的接触情况,电缆和插座之间無(wu)间隙(xi)。

H100和RTX40中的8位浮点支持

对8位浮点(FP8)的支持是RTX 40系列和H100 GPU的一个巨大优势。

有了8位输入,它允许你以两倍的速度加載(zai)矩阵乘法的数据,你可以在緩(huan)存中存儲(chu)两倍的矩阵元素,而在Ada和Hopper架构中,缓存是非常大的,现在有了FP8张量核心,你可以为RTX 4090获得0.66 PFLOPS的计算量。

这比2007年世(shi)界(jie)上最快的超級(ji)计算机的全部算力还要高。4倍于FP8计算的RTX 4090,可与2010年世界上最快的超级计算机相媲(pi)美(mei)。

可以看到,最好的8位基线未能提供良(liang)好的零点性能。我开发的方法LLM.int8可以进行Int8矩阵乘法,结果与16位基线相同。

但是Int8已经被RTX 30 / A100 / Ampere这一代GPU所支持,为什么FP8在RTX 40中又是一个大升级呢(ne)?FP8数据类型比Int8数据类型要稳定得多,而且很容(rong)易在层规范或非线性函(han)数中使用,这在整(zheng)型数据类型中是很難(nan)做到的。

这将使它在训练和推理中的使用變(bian)得非常簡(jian)單(dan)明了。我认为这将使FP8的训练和推理在幾(ji)个月(yue)后变得相对普遍。

下面你可以看到这篇論(lun)文中关于Float vs Integer数据类型的一个相关主要结果。我们可以看到,逐(zhu)个比特,FP4数据类型比Int4数据类型保留(liu)了更多的信(xin)息(xi),从而提高了4个任务的平(ping)均(jun)LLM零点准确性。

GPU深度学习性能排(pai)行

先(xian)上一张图来看GPU的原始性能排行,看看谁最能打(da)。

我们可以看到H100 GPU的8位性能与针对16位性能优化的旧卡存在巨大差(cha)距(ju)。

上图显示的是GPU的原始相对性能,比如对于8位推理,RTX 4090的性能大約(yue)是 H100 SMX 的 0.33 倍。

換(huan)句(ju)話(hua)说,与RTX 4090相比,H100 SMX的8位推理速度快三倍。

对于此数据,他没有为旧GPU建模(mo)8位计算。

因为8位推理和训练在Ada/Hopper GPU上更有效,而张量内存加速器 (TMA) 节省了大量寄(ji)存器,这些寄存器在 8 位矩阵乘法中非常精确。

Ada/Hopper 也有 FP8 支持,这使得特別(bie)是 8 位训练更加有效,在Hopper/Ada上,8位训练性能很可能是16位训练性能的3-4倍。

对于旧GPU,旧GPU的Int8推理性能則(ze)接近16位推理性能。

每一美元能買(mai)到多少算力

那么问题来了,GPU性能強(qiang)可是我买不起啊(a)......

针对預(yu)算不充(chong)足的小夥(huo)伴(ban),接下来的图表是他根据各(ge)个GPU的价格和性能统计的每美元性能排名(Performance per Dollar),側(ce)面反映(ying)了GPU性价比。

选择一个完成深度学习任务并且符(fu)合预算的GPU,可分为以下几个步驟(zhou):

首(shou)先确定你需要多大的GPU内存(至少12GB用于图像(xiang)生成,至少24GB用于处理变压器);

针对选8位还是16位(8-bit or 16-bit),建議(yi)是能上16位就上,8位在处理復(fu)雜(za)编码任务时还是会有困(kun)难;

根据上图中的指标,找(zhao)到具有最高相对性能/成本的GPU。

我们可以看到,RTX4070Ti 对于8位和16位推理的成本效益最高,而RTX3080对于16位训练的成本效益最高。

虽然这些GPU最具成本效益,但他们的内存也是个短(duan)板(ban),10GB和12GB的内存可能无法滿(man)足所有需求。

但对于刚入坑(keng)深度学习的新手(shou)来说可能是理想GPU。

其中一些GPU非常适合Kaggle競(jing)賽(sai),在Kaggle比赛中取得好成績(ji),工作方法比模型大小更重要,因此许多较小的 GPU非常适合。

Kaggle號(hao)稱(cheng)是全球(qiu)最大的数据科(ke)学家(jia)匯(hui)聚(ju)的平臺(tai),高手雲(yun)集,同时对萌(meng)新也很友(you)好。

如果用作学術(shu)研究和服(fu)务器运營(ying)的最佳(jia)GPU似乎(hu)是 A6000 Ada GPU。

同时H100 SXM的性价比也很高,内存大性能强。

个人经验来说,如果我要为公(gong)司(si)/学术实验室(shi)构建一个小型集群(qun),我推荐66-80%的A6000 GPU 和20-33%的 H100 SXM GPU。

綜(zong)合推荐

说了这么多,終(zhong)于到了GPU安利環(huan)节。

Tim Dettmers专門(men)制作了一个「GPU选购流程图」,预算充足就可以上更高配置,预算不足請(qing)參(can)考(kao)性价比之选。

这裏(li)首先强調(tiao)一点:无论你选哪款 GPU,首先要确保它的内存能满足你的需求。为此,你要问自己几个问题:

我要拿GPU做什么?是拿来参加 Kaggle 比赛、学深度学习、做CV/NLP研究还是玩(wan)小項(xiang)目?

预算充足的情况下,可以查看上面的基准测试并选择适合自己的最佳GPU。

还可以通过在vast.ai或Lambda Cloud中运行您(nin)的问题一段时间来估(gu)算所需的GPU内存,以便了解它是否能满足你的需求。

如果只是偶(ou)爾(er)需要一个GPU(每隔(ge)几天(tian)持續(xu)几个小时)并且不需要下载和处理大型数据集,那么vast.ai或 Lambda Cloud也能很好地工作。

但是,如果一个月每天都使用GPU且使用頻(pin)率很高(每天12小时),云GPU通常不是一个好的选择。

参考資(zi)料(liao):

https://timdettmers.com/2023/01/16/which-gpu-for-deep-learning/#more-6

https://timdettmers.com/返(fan)回(hui)搜(sou)狐(hu),查看更多

責(ze)任编辑:

发布于:江苏南京鼓楼区