每一瓶啤酒创意广告

瓶装啤酒广告：享受最纯正的啤酒口感

瓶装啤酒，堪称啤酒中的经典款，无论是下班后的小清新，还是周末的狂欢派对，瓶装啤酒都能带给你最纯正的啤酒口感。在这个快节奏的现代化生活中，人们的生活压力越来越大，每一个人都需要有一个放松自己的方式，瓶装啤酒无疑是其中的一种选择。

不同于罐装啤酒，瓶装啤酒的质感更为清新自然，色泽更加清澈透明，更加高雅贵气。作为啤酒中的精品，瓶装啤酒成为啤酒爱好者们的必选之品。喝啤酒并不是单纯为了解渴，更多的是为了品尝啤酒的口感，瓶装啤酒会给你一次不一样的口感体验。

在酒吧，你可以享受到酒吧老板为你精心准备的瓶装啤酒，你可以和朋友一起谈笑风生，享受啤酒的欢愉；在家，你可以品尝自己喜欢的瓶装啤酒，轻松度过一个个美好的周末。瓶装啤酒，不仅仅是一种饮料，更是一种生活方式。在你的生活中，让瓶装啤酒成为你的伴侣，享受快乐的生活。

结论

瓶装啤酒，不仅仅是一种饮料，更是一种生活方式，一种享受人生的方式。在这个多彩而又繁忙的现代世界里，我们需要有一个放松自己的方式，瓶装啤酒能成为我们的选择。让我们一起品尝这款不同于其他啤酒的精品，感受最纯正的啤酒口感。

每一瓶啤酒创意广告特色

1、轻松互动，惊喜福利

2、简单的在线阅读方式等你来体验，轻松点击小说来进行阅读，带来不错的仿真翻页玩法。

3、擂台竞技，多重挑战引爆激情

4、商品详情一目了然

5、内置英汉词典，点击单词即可查看详细的释义，长按还可以查看例句以及用法;

每一瓶啤酒创意广告亮点

1、多种模式娱乐性强。多层次设计，富有挑战性。

2、查阅了很多疾病和用药的相关知识；

3、在这里大家可以更加轻松的了解到很多的招聘信息，还能够享受到简历自动生成的便捷。

4、游戏的非常的可爱，而且拥有更多的策略战斗玩法；

5、丰富的角色设定，玩家可以自定义选择，感受不一样的冒险；

qingsonghudong，jingxifulijiandandezaixianyuedufangshidengnilaitiyan，qingsongdianjixiaoshuolaijinxingyuedu，dailaibucuodefangzhenfanyewanfa。leitaijingji，duozhongtiaozhanyinbaojiqingshangpinxiangqingyimuleranneizhiyinghancidian，dianjidancijikezhakanxiangxideshiyi，changanhaikeyizhakanlijuyijiyongfa;深(shen)度(du)學(xue)習(xi)GPU選(xuan)購(gou)指(zhi)南(nan)：哪(na)款(kuan)顯(xian)卡(ka)配(pei)得(de)上(shang)我(wo)的(de)煉(lian)丹(dan)爐(lu)？

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：Joey David

【新智元導(dao)讀(du)】最(zui)近(jin)，曾(zeng)拿(na)到(dao)斯(si)坦(tan)福(fu)、UCL、CMU、NYU博(bo)士(shi)offer、目(mu)前(qian)在(zai)華(hua)盛(sheng)頓(dun)大(da)学读博的知(zhi)名(ming)測(ce)評(ping)博主(zhu)Tim Dettmers在自(zi)己(ji)的網(wang)站(zhan)又(you)上線(xian)了(le)深度学习領(ling)域(yu)的GPU深度测评，到底(di)誰(shui)才(cai)是(shi)性(xing)能(neng)和(he)性價(jia)比(bi)之(zhi)王(wang)？

眾(zhong)所(suo)周(zhou)知，在處(chu)理(li)深度学习和神(shen)經(jing)网絡(luo)任(ren)務(wu)時(shi)，最好(hao)使(shi)用(yong)GPU而(er)不(bu)是CPU來(lai)处理，因(yin)為(wei)在神经网络方(fang)面(mian)，即(ji)使是壹(yi)個(ge)比較(jiao)低(di)端(duan)的GPU，性能也(ye)會(hui)勝(sheng)過(guo)CPU。

深度学习是一个對(dui)計(ji)算(suan)有(you)著(zhe)大量(liang)需(xu)求(qiu)的领域，從(cong)一定(ding)程(cheng)度上来說(shuo)，GPU的选擇(ze)將(jiang)从根(gen)本(ben)上決(jue)定深度学习的體(ti)驗(yan)。

但(dan)問(wen)題(ti)来了，如(ru)何(he)选购合(he)適(shi)的GPU也是件(jian)頭(tou)疼(teng)燒(shao)腦(nao)的事(shi)。

怎(zen)麽(me)避(bi)免(mian)踩(cai)雷(lei)，如何做(zuo)出(chu)性价比高(gao)的选择？

曾经拿到过斯坦福、UCL、CMU、NYU、UW 博士 offer、目前在华盛顿大学读博的知名评测博主Tim Dettmers就(jiu)針(zhen)对深度学习领域需要(yao)怎樣(yang)的GPU，結(jie)合自身(shen)经验撰(zhuan)寫(xie)了萬(wan)字(zi)長(chang)文(wen)，最後(hou)給(gei)出了DL领域的推(tui)薦(jian)GPU。

Tim Dettmers此(ci)人(ren)的研(yan)究(jiu)方向(xiang)是表(biao)征(zheng)学习、硬(ying)件優(you)化(hua)的深度学习，他(ta)自己創(chuang)建(jian)的网站在深度学习和计算機(ji)硬件领域也是小(xiao)有名氣(qi)。

Tim Dettmers此文推荐的GPU全(quan)部(bu)来自N廠(chang)，他显然(ran)也認(ren)为，搞(gao)机器(qi)学习，AMD目前還(hai)不配擁(yong)有姓(xing)名。

原(yuan)文鏈(lian)接(jie)小编也貼(tie)在下(xia)面啦(la)。

原文链接：https://timdettmers.com/2023/01/16/which-gpu-for-deep-learning/#GPU_Deep_Learning_Performance_per_Dollar

RTX40和30系(xi)的优缺(que)點(dian)

與(yu)英(ying)偉(wei)達(da)圖(tu)靈(ling)架(jia)構(gou)RTX 20系列(lie)相(xiang)比，新的英伟达安(an)培(pei)架构RTX 30系列具(ju)有更(geng)多(duo)优勢(shi)，如稀(xi)疏(shu)网络訓(xun)練(lian)和推理。其(qi)他功(gong)能，如新的數(shu)據(ju)類(lei)型(xing)，應(ying)更多地(di)被(bei)看(kan)作(zuo)是一種(zhong)易(yi)用化功能，因为它(ta)們(men)提(ti)供(gong)了与图灵架构相同(tong)的性能提升(sheng)，但不需要任何額(e)外(wai)的编程要求。

Ada RTX 40系列甚(shen)至(zhi)有更多的進(jin)步(bu)，比如上面介(jie)紹(shao)的張(zhang)量內(nei)存(cun)加(jia)速(su)器（TMA）和8位(wei)浮(fu)点運(yun)算（FP8）。与RTX 30相比，RTX 40系列也有类似(si)的電(dian)源(yuan)和溫(wen)度问题。RTX 40的电源連(lian)接器电纜(lan)融(rong)化的问题可(ke)以(yi)通(tong)过正(zheng)確(que)连接电源电缆而輕(qing)松(song)避免。

稀疏的网络训练

安培允(yun)許(xu)在密(mi)集(ji)的速度下进行(xing)細(xi)粒(li)度结构的自動(dong)稀疏矩(ju)陣(zhen)乘(cheng)法(fa)。這(zhe)是如何做到的？以一个權(quan)重(zhong)矩阵为例(li)，把(ba)它切(qie)成(cheng)4个元素(su)的碎(sui)片(pian)。現(xian)在想(xiang)象(xiang)这4个元素中(zhong)的2个元素为零(ling)。图1显示(shi)了这种情(qing)況(kuang)的样子(zi)。

图1：Ampere架构GPU中的稀疏矩阵乘法功能所支(zhi)持(chi)的结构

當(dang)妳(ni)将这个稀疏权重矩阵与一些(xie)密集輸(shu)入(ru)相乘时，安培的稀疏矩阵张量核(he)心(xin)功能会自动将稀疏矩阵壓(ya)縮(suo)为密集表示，其大小为图2所示的一半(ban)。

在压缩之后，密集压缩的矩阵瓦(wa)片被送(song)入张量核心，张量核心计算的矩阵乘法是通常(chang)大小的兩(liang)倍(bei)。这有效(xiao)地產(chan)生(sheng)了2倍的速度，因为在共(gong)享(xiang)内存的矩阵乘法过程中，帶(dai)寬(kuan)要求減(jian)半。

图2：在进行矩阵乘法之前，稀疏矩阵被压缩为密集表示。

我在研究中致(zhi)力(li)於(yu)稀疏网络训练，我还写了一篇(pian)關(guan)于稀疏训练的博文。对我的工(gong)作的一个批(pi)评是："你减少(shao)了网络所需的FLOPS，但並(bing)沒(mei)有产生速度的提升，因为GPU不能进行快(kuai)速的稀疏矩阵乘法"。

隨(sui)着Tensor Cores的稀疏矩阵乘法功能的增(zeng)加，我的算法或(huo)其他稀疏训练算法，现在實(shi)際(ji)上在训练期(qi)間(jian)提供了高达2倍的速度。

開(kai)發(fa)的稀疏训练算法有三(san)个階(jie)段(duan)：（1）确定每(mei)層(ceng)的重要性。(2) 刪(shan)除(chu)最不重要的权重。(3) 提升与每层的重要性成比例的新权重。

雖(sui)然这一功能仍(reng)处于实验阶段，而且(qie)训练稀疏网络还不普(pu)遍(bian)，但在你的GPU上拥有这一功能意(yi)味(wei)着你已(yi)经为稀疏训练的未(wei)来做好了準(zhun)備(bei)。

低精(jing)度计算

在我的工作中，我之前已经表明(ming)，新的数据类型可以提高低精度反(fan)向傳(chuan)播(bo)期间的穩(wen)定性。

图4：低精度深度学习8位数据类型。深度学习训练得益(yi)于高度專(zhuan)業(ye)化的数据类型

目前，如果(guo)你想用16位浮点数（FP16）进行稳定的反向传播，最大的问题是普通FP16数据类型只(zhi)支持[-65,504, 65,504]範(fan)圍(wei)内的数字。如果你的梯(ti)度滑(hua)过这个范围，你的梯度就会爆(bao)炸(zha)成NaN值(zhi)。

为了防(fang)止(zhi)在FP16训练中出现这种情况，我们通常会进行損(sun)失(shi)缩放(fang)，即在反向传播之前将损失乘以一个小数字，以防止这种梯度爆炸。

Brain Float 16格(ge)式(shi)（BF16）对指数使用了更多的比特(te)，这样可能的数字范围与FP32相同，BF16的精度较低，也就是有效数字，但梯度精度对学习来说并不那(na)么重要。

所以BF16所做的是，你不再(zai)需要做任何损失缩放，也不需要擔(dan)心梯度会迅(xun)速爆炸。因此，我们应該(gai)看到，通过使用BF16格式，训练的稳定性有所提高，因为精度略(lve)有损失。

这对你意味着什(shen)么。使用BF16精度，训练可能比使用FP16精度更稳定，同时提供相同的速度提升。使用TF32精度，你可以得到接近FP32的稳定性，同时提供接近FP16的速度提升。

好的是，要使用这些数据类型，你只需用TF32取(qu)代(dai)FP32，用BF16取代FP16--不需要修(xiu)改(gai)代碼(ma)。

不过總(zong)的来说，这些新的数据类型可以被看作是懶(lan)惰(duo)的数据类型，因为你可以通过一些额外的编程努(nu)力（适当的损失缩放、初(chu)始(shi)化、規(gui)范化、使用Apex）来獲(huo)得舊(jiu)数据类型的所有好处。

因此，这些数据类型并没有提供速度，而是改善(shan)了训练中低精度的使用便(bian)利(li)性。

風(feng)扇(shan)設(she)计和GPU温度

虽然RTX 30系列的新风扇设计在冷(leng)卻(que)GPU方面表现非(fei)常好，但非创始版(ban)GPU的不同风扇设计可能会出现更多问题。

如果你的GPU发熱(re)超(chao)过80C，它就会自我節(jie)流(liu)，减慢(man)其计算速度/功率(lv)。解(jie)决这个问题的辦(ban)法是使用PCIe擴(kuo)展(zhan)器，在GPU之间创造(zao)空(kong)间。

用PCIe扩展器分(fen)散(san)GPU对散热非常有效，华盛顿大学的其他博士生和我都(dou)使用这种设置(zhi)，并取得了巨(ju)大的成功。它看起(qi)来并不漂(piao)亮(liang)，但它能使你的GPU保(bao)持涼(liang)爽(shuang)!

下面这套(tao)系統(tong)已经运行了4年(nian)，完(wan)全没有问题。如果你没有足(zu)夠(gou)的空间在PCIe插(cha)槽(cao)中安裝(zhuang)所有的GPU，也可以这么用。

图5: 带PCIE扩展口(kou)的4显卡系统，看起来一團(tuan)亂(luan)，但散热效率很(hen)高。

优雅(ya)地解决功耗(hao)限(xian)制(zhi)问题

在你的GPU上设置一个功率限制是可能的。因此，你将能够以编程方式将RTX 3090的功率限制设置为300W，而不是其標(biao)准的350W。在4个GPU系统中，这相当于节省(sheng)了200W，这可能剛(gang)好足够用1600W PSU建立(li)一个4x RTX 3090系统的可行性。

这还有助(zhu)于保持GPU的冷却。因此，设置功率限制可以同时解决4x RTX 3080或4x RTX 3090设置的两个主要问题，冷却和电源。对于4倍的设置，你仍然需要高效散热风扇的 GPU，但这解决了电源的问题。

图6：降(jiang)低功率限制有轻微(wei)的冷却效果。将RTX 2080 Ti的功率限制降低50-60W，温度略有下降，风扇运行更加安靜(jing)

你可能会问，「这不会降低GPU的速度嗎(ma)？」是的，确实会降，但问题是降了多少。

我对图5所示的4x RTX 2080 Ti系统在不同功率限制下进行了基(ji)准测試(shi)。我对推理过程中BERT Large的500个小批次(ci)的时间进行了基准测试（不包(bao)括(kuo)softmax层）。选择BERT Large推理，对GPU的压力最大。

图7：在RTX 2080 Ti上，在给定的功率限制下测得的速度下降

我们可以看到，设置功率限制并不嚴(yan)重影(ying)響(xiang)性能。将功率限制在50W，性能僅(jin)下降7%。

RTX 4090接头起火(huo)问题

有一种誤(wu)解，认为RTX 4090电源线起火是因为被彎(wan)折(zhe)过度了。实际上只有0.1%的用戶(hu)是这个原因，主要问题是电缆没有正确插入。

因此，如果你遵(zun)循(xun)以下安装说明，使用RTX 4090是完全安全的。

1. 如果你使用旧的电缆或旧的GPU，确保觸(chu)点没有碎片/灰(hui)塵(chen)。

2.使用电源连接器，并将其插入插座(zuo)，直(zhi)到你聽(ting)到哢(ka)嚓(ca)一聲(sheng)--这是最重要的部分。

3. 通过从左(zuo)到右(you)扭(niu)动电源线来测试是否(fou)合适。电缆不应该移(yi)动。

4.目視(shi)檢(jian)查(zha)与插座的接触情况，电缆和插座之间無(wu)间隙(xi)。

H100和RTX40中的8位浮点支持

对8位浮点（FP8）的支持是RTX 40系列和H100 GPU的一个巨大优势。

有了8位输入，它允许你以两倍的速度加載(zai)矩阵乘法的数据，你可以在緩(huan)存中存儲(chu)两倍的矩阵元素，而在Ada和Hopper架构中，缓存是非常大的，现在有了FP8张量核心，你可以为RTX 4090获得0.66 PFLOPS的计算量。

这比2007年世(shi)界(jie)上最快的超級(ji)计算机的全部算力还要高。4倍于FP8计算的RTX 4090，可与2010年世界上最快的超级计算机相媲(pi)美(mei)。

可以看到，最好的8位基线未能提供良(liang)好的零点性能。我开发的方法LLM.int8可以进行Int8矩阵乘法，结果与16位基线相同。

但是Int8已经被RTX 30 / A100 / Ampere这一代GPU所支持，为什么FP8在RTX 40中又是一个大升级呢(ne)？FP8数据类型比Int8数据类型要稳定得多，而且很容(rong)易在层规范或非线性函(han)数中使用，这在整(zheng)型数据类型中是很難(nan)做到的。

这将使它在训练和推理中的使用變(bian)得非常簡(jian)單(dan)明了。我认为这将使FP8的训练和推理在幾(ji)个月(yue)后变得相对普遍。

下面你可以看到这篇論(lun)文中关于Float vs Integer数据类型的一个相关主要结果。我们可以看到，逐(zhu)个比特，FP4数据类型比Int4数据类型保留(liu)了更多的信(xin)息(xi)，从而提高了4个任务的平(ping)均(jun)LLM零点准确性。

GPU深度学习性能排(pai)行

先(xian)上一张图来看GPU的原始性能排行，看看谁最能打(da)。

我们可以看到H100 GPU的8位性能与针对16位性能优化的旧卡存在巨大差(cha)距(ju)。

上图显示的是GPU的原始相对性能，比如对于8位推理，RTX 4090的性能大約(yue)是 H100 SMX 的 0.33 倍。

換(huan)句(ju)話(hua)说，与RTX 4090相比，H100 SMX的8位推理速度快三倍。

对于此数据，他没有为旧GPU建模(mo)8位计算。

因为8位推理和训练在Ada/Hopper GPU上更有效，而张量内存加速器 (TMA) 节省了大量寄(ji)存器，这些寄存器在 8 位矩阵乘法中非常精确。

Ada/Hopper 也有 FP8 支持，这使得特別(bie)是 8 位训练更加有效，在Hopper/Ada上，8位训练性能很可能是16位训练性能的3-4倍。

对于旧GPU，旧GPU的Int8推理性能則(ze)接近16位推理性能。

每一美元能買(mai)到多少算力

那么问题来了，GPU性能強(qiang)可是我买不起啊(a)......

针对預(yu)算不充(chong)足的小夥(huo)伴(ban)，接下来的图表是他根据各(ge)个GPU的价格和性能统计的每美元性能排名（Performance per Dollar），側(ce)面反映(ying)了GPU性价比。

选择一个完成深度学习任务并且符(fu)合预算的GPU，可分为以下几个步驟(zhou)：

首(shou)先确定你需要多大的GPU内存（至少12GB用于图像(xiang)生成，至少24GB用于处理变压器）；

针对选8位还是16位（8-bit or 16-bit），建議(yi)是能上16位就上，8位在处理復(fu)雜(za)编码任务时还是会有困(kun)难；

根据上图中的指标，找(zhao)到具有最高相对性能/成本的GPU。

我们可以看到，RTX4070Ti 对于8位和16位推理的成本效益最高，而RTX3080对于16位训练的成本效益最高。

虽然这些GPU最具成本效益，但他们的内存也是个短(duan)板(ban)，10GB和12GB的内存可能无法滿(man)足所有需求。

但对于刚入坑(keng)深度学习的新手(shou)来说可能是理想GPU。

其中一些GPU非常适合Kaggle競(jing)賽(sai)，在Kaggle比赛中取得好成績(ji)，工作方法比模型大小更重要，因此许多较小的 GPU非常适合。

Kaggle號(hao)稱(cheng)是全球(qiu)最大的数据科(ke)学家(jia)匯(hui)聚(ju)的平臺(tai)，高手雲(yun)集，同时对萌(meng)新也很友(you)好。

如果用作学術(shu)研究和服(fu)务器运營(ying)的最佳(jia)GPU似乎(hu)是 A6000 Ada GPU。

同时H100 SXM的性价比也很高，内存大性能强。

个人经验来说，如果我要为公(gong)司(si)/学术实验室(shi)构建一个小型集群(qun)，我推荐66-80%的A6000 GPU 和20-33%的 H100 SXM GPU。

綜(zong)合推荐

说了这么多，終(zhong)于到了GPU安利環(huan)节。

Tim Dettmers专門(men)制作了一个「GPU选购流程图」，预算充足就可以上更高配置，预算不足請(qing)參(can)考(kao)性价比之选。

这裏(li)首先强調(tiao)一点：无论你选哪款 GPU，首先要确保它的内存能满足你的需求。为此，你要问自己几个问题：

我要拿GPU做什么？是拿来参加 Kaggle 比赛、学深度学习、做CV/NLP研究还是玩(wan)小項(xiang)目？

预算充足的情况下，可以查看上面的基准测试并选择适合自己的最佳GPU。

还可以通过在vast.ai或Lambda Cloud中运行您(nin)的问题一段时间来估(gu)算所需的GPU内存，以便了解它是否能满足你的需求。

如果只是偶(ou)爾(er)需要一个GPU（每隔(ge)几天(tian)持續(xu)几个小时）并且不需要下载和处理大型数据集，那么vast.ai或 Lambda Cloud也能很好地工作。

但是，如果一个月每天都使用GPU且使用頻(pin)率很高（每天12小时），云GPU通常不是一个好的选择。

参考資(zi)料(liao)：

https://timdettmers.com/2023/01/16/which-gpu-for-deep-learning/#more-6

https://timdettmers.com/返(fan)回(hui)搜(sou)狐(hu)，查看更多

責(ze)任编辑：