最吸引人的产品营销广告词

为您推荐:全球领先的智能手机品牌

作为全球领先的智能手机品牌,我们一直致力于为用户带来最好的产品体验。我们的技术创新不断推陈出新,让用户可以在手机上享受到更快、更顺畅的使用感受。

我们的产品设计也是我们引以为傲的一点。我们注重细节,追求完美,让每个细节都符合用户需求。我们的手机不仅美观,还有着出色的手感和人性化的设计。

我们更注重用户隐私和安全,我们的手机拥有严格的数据保护机制,让用户可以放心使用。

智能手机

我们的产品:让您生活更美好

我们的智能手机不仅外观优美,还内在不俗。我们的手机搭载着最新的处理器和操作系统,让您可以流畅地处理各种任务,无论是玩游戏还是处理文档都非常轻松。

我们更注重用户体验,我们的手机配备了各种智能功能,比如AI相机、语音助手等,让您的日常生活更加便捷。我们的手机电池寿命也很出色,可以让您长时间地使用,不用担心电量不足的问题。

我们的手机还支持5G网络,让您可以以更快的速度浏览互联网、下载文件等。

科技

我们的服务:让您放心使用

我们的客服团队随时为您服务,无论您遇到什么问题都可以随时联系我们。我们的售后服务也非常出色,我们会为您提供最优质的服务,让您无后顾之忧。

我们的产品质量也是我们引以为傲的一点。我们的手机经过了严格的质检,确保每一台手机都是优质的。

我们的品牌一直秉承着诚信、创新、服务、品质的理念,让消费者放心使用我们的产品。

客服

结论

作为全球领先的智能手机品牌,我们一直致力于为用户带来最好的产品体验。我们的产品设计精美,技术创新不断,让用户可以在手机上尽情享受科技的魅力。我们更注重用户隐私和安全,让用户可以放心使用我们的产品。我们的客服团队随时为您服务,让您无后顾之忧。我们的品牌秉承着诚信、创新、服务、品质的理念,让消费者放心使用我们的产品。如果您还没有尝试过我们的产品,欢迎咨询我们的客服,我们将竭诚为您服务。

最吸引人的产品营销广告词随机日志

争做TeamViewer的最佳替代品

1、【锻炼课程】优化锻炼视频播放体验,大家可以自由地选择喜欢的锻炼方式

2、下载后云鉴定:通过金山云安全引擎,扫描下载文件

3、下载完成后自动转换视频。转换为iPhone、iPad、iPod、Android、PSP设备兼容格式。您还可以将视频转换为gp、avi格式。

4、支持Win&iOS剪切板共享(文字、图片)及文件传输功能

5、系统加速精灵傻瓜式操作、全自动智能加速

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>200+機(ji)器(qi)學(xue)習(xi)競(jing)賽(sai)最(zui)全(quan)分(fen)析(xi):超(chao)550萬(wan)美(mei)元(yuan)總(zong)獎(jiang)金(jin),人(ren)人都(dou)用(yong)PyTorch,2070也(ye)能(neng)奪(duo)冠(guan)!

新(xin)智(zhi)元報(bao)道(dao)

編(bian)輯(ji):编辑部(bu)

【新智元導(dao)讀(du)】2022年(nian),200多(duo)個(ge)机器学习竞赛的(de)最全分析报告(gao)來(lai)了(le)。打(da)比(bi)赛有(you)這(zhe)篇(pian)就(jiu)夠(gou)了。

2012年,ImageNet竞赛中(zhong),Hinton和(he)他(ta)的学生(sheng)Alex Krizhevsky設(she)計(ji)的卷(juan)積(ji)神(shen)經(jing)網(wang)絡(luo)AlexNet壹(yi)舉(ju)夺得(de)了冠軍(jun)。

十(shi)年過(guo)去(qu),机器学习領(ling)域(yu)依(yi)舊(jiu)不(bu)斷(duan)結(jie)出(chu)AI之(zhi)果(guo)。2022年,是(shi)机器学习竞赛重(zhong)要(yao)一年。

200多場(chang)竞赛覆(fu)蓋(gai)了廣(guang)泛(fan)的研(yan)究(jiu)领域,包(bao)括(kuo)CV、NLP、表(biao)格(ge)數(shu)據(ju)、机器人技(ji)術(shu)、時(shi)間(jian)序(xu)列(lie)分析等(deng)等。

最新报告回(hui)顧(gu)了2022年所(suo)举辦(ban)有關(guan)机器学习竞赛的情(qing)況(kuang),主(zhu)要分為(wei)兩(liang)个部分。

在(zai)「机器学习竞赛格局(ju)」中,报告簡(jian)要回顾了竞赛情况和每(mei)个竞赛平(ping)臺(tai)的活(huo)動(dong),以(yi)及(ji)奖金和比赛類(lei)型(xing)。

在「制(zhi)勝(sheng)策(ce)略(lve)」上(shang),重點(dian)关註(zhu)了比赛的獲(huo)胜者(zhe),以及获胜的原(yuan)因(yin)。另(ling)外(wai),报告還(hai)研究了建(jian)模(mo)类型的趨(qu)勢(shi)、编程(cheng)語(yu)言(yan)的偏(pian)好(hao)、交(jiao)叉(cha)驗(yan)證(zheng)方(fang)法(fa)和其(qi)他細(xi)節(jie)。

报告亮(liang)点

-比赛获胜者大(da)都集(ji)中在一套(tao)共(gong)同(tong)的工(gong)具(ju)上:Python、PyData、PyTorch和梯(ti)度(du)提(ti)升(sheng)的決(jue)策樹(shu)。

-不过,在表格数据方面(mian),深(shen)度学习仍(reng)然(ran)沒(mei)有取(qu)代(dai)梯度提升的决策树。盡(jin)管(guan)當(dang)與(yu)增(zeng)強(qiang)方法聯(lian)合(he)使(shi)用时,它(ta)似(si)乎(hu)经常(chang)增加(jia)價(jia)值(zhi)。

-Transformers繼(ji)續(xu)在NLP中占(zhan)据主导地(di)位(wei),並(bing)開(kai)始(shi)在计算(suan)机視(shi)覺(jiao)中与卷积神经网络竞爭(zheng)。

-尽管單(dan)一模型解(jie)决方案(an)也確(que)實(shi)获胜,但(dan)大型模型在获胜者中更(geng)为常見(jian)。

-目(mu)前(qian),有幾(ji)个活躍(yue)的机器学习竞赛平台,以及数十个專(zhuan)門(men)为个人竞赛而(er)構(gou)建的网站(zhan)。

-大約(yue)50%的获奖者是单獨(du)获奖;50%的人是首(shou)次(ci)获奖;30%的人以前曾(zeng)多次获奖。

-一些(xie)人在訓(xun)練(lian)其解决方案的硬(ying)件(jian)上还進(jin)行(xing)大量(liang)投(tou)資(zi)。有的使用免(mian)費(fei)硬件的人,像(xiang)Google Colab等,仍然能够贏(ying)得比赛。

-值得一提的是,所有竞赛平台总奖池(chi)超过5万美元。

机器学习竞赛格局

值得注意(yi)的比赛和趋势

奖金最大的比赛是由(you)美國(guo)墾(ken)務(wu)局贊(zan)助(zhu)的DrivenData的Snowcast Showdown。

參(can)赛者可(ke)以获得500万美元奖金,通(tong)过提供(gong)準(zhun)确的美国西(xi)部不同地區(qu)的雪(xue)水(shui)当量估(gu)计值。与往(wang)常一樣(yang),DrivenData出色(se)的获奖者文(wen)章(zhang)和詳(xiang)细的解决方案报告非(fei)常值得一读。

2022年最受(shou)歡(huan)迎(ying)的比赛是Kaggle的信(xin)用違(wei)约預(yu)測(ce)大赛(American Express Default Prediction),预测客(ke)戶(hu)是否(fou)會(hui)償(chang)还貸(dai)款(kuan)。

共有4000多个團(tuan)隊(dui)参赛,奖金为10万美元,比赛结果前四(si)名(ming)的团队便(bian)可获奖。

第(di)一名是由一个首次单独获奖的的团队获得,該(gai)团队采(cai)用了神经网络和LightGBM模型的組(zu)合。

最大的独立(li)竞赛是斯(si)坦(tan)福(fu)大学的人工智能審(shen)计挑(tiao)戰(zhan)赛, 它为最佳(jia)「模型、解决方案、数据集和工具」提供了71000美元的奖池,以提高(gao)人們(men)审计人工智能系(xi)統(tong)的非法歧(qi)视的能力(li)。

还有三(san)个都是圍(wei)繞(rao)財(cai)务预测的比赛,都在Kaggle上进行:JPX的東(dong)京(jing)证券(quan)交易(yi)所预测,Ubiquant的市(shi)场预测,以及G-Research的加密(mi)貨(huo)幣(bi)预测。

计算机视觉

2022年最大一类的机器学习竞赛是计算机视觉問(wen)題(ti),总计有40多个竞赛,超过1万美元的奖金池。

其中就包括上面提到(dao)的Snowcast Showdown,以及衛(wei)星(xing)圖(tu)像中發(fa)現(xian)浮(fu)油(you)、從(cong)掃(sao)描(miao)中識(shi)別(bie)頸(jing)椎(zhui)骨(gu)折(zhe)、在器官(guan)活檢(jian)中分割(ge)功(gong)能组織(zhi)单元和在農(nong)業(ye)图像中计数害(hai)蟲(chong)等问题。

2022年至(zhi)少(shao)有四场比赛,专门涉(she)及建立模型以识别特(te)定(ding)物(wu)種(zhong)或(huo)个體(ti)动物的保(bao)護(hu)工作(zuo)。至少有5场比赛专注於(yu)分析醫(yi)学或生物图像。

自(zi)然语言處(chu)理(li)

第二(er)大类别是自然语言处理(NLP)竞赛,共有500多场比赛,总奖金超过14万美元。

大多数大型純(chun)NLP竞赛都在Kaggle上,Kaggle举办了三个基(ji)于NLP的竞赛,专注于教(jiao)育(yu)的不同方面:分割論(lun)文,評(ping)估语言能力, 以及预测有效(xiao)论证。

还有一些比赛是將(jiang)NLP与其他能力结合起(qi)来,比如(ru)NLP + 搜(sou)索(suo),NLP+强化(hua)学习。

順(shun)序决策

除(chu)了强化学习(RL)在过去十年中的成(cheng)功,以及Atari DQN,AlphaGo等其他重大成果, 一类新型机器学习问题越(yue)来越受欢迎——顺序决策问题。

与典(dian)型的训练集/测試(shi)集的監(jian)督(du)学习设置(zhi)不同,这些问题为参与者提供了一个隨(sui)时间變(bian)化的環(huan)境(jing),以及一组可以在給(gei)定的时间段(duan)采取的可能行动。

比如,这个环境可以表示(shi)遊(you)戲(xi)世(shi)界(jie)、或者電(dian)力网络或運(yun)輸(shu)网络的模擬(ni)。

在游戏世界中,参赛者可以相(xiang)互(hu)匹(pi)配(pei)(麻(ma)省(sheng)理工学院(yuan)的Battlecode竞赛),或者完(wan)成某(mou)些任(ren)务(MineRL BASALT竞赛中中在我(wo)的世界建造(zao)房(fang)子(zi))。

2020年,Kaggle便推(tui)出了此(ci)类模拟竞赛。AIcrowd也举办了一些这样的比赛。

2022年共举办了超过25场此类互动比赛,总奖金300多万美元。而且(qie)它们并不都是在模拟环境中运行的竞赛。

在真(zhen)实机器人挑战赛(NeurIPS 2022官方竞赛)中,参与者必(bi)須(xu)学习控(kong)制三指(zhi)机器人将立方体移(yi)动到目標(biao)位置或将其放(fang)置在空(kong)间中的某个点,并朝(chao)著(zhu)(zhe)正(zheng)确的方向(xiang)。

参赛者的算法每周(zhou)在物理机器人上运行,并被(bei)用来更新排(pai)行榜(bang)。这场竞赛頒(ban)发了5千(qian)美元的奖金,还能在NeurIPS研討(tao)会上发表演(yan)講(jiang)并获得学术榮(rong)譽(yu)。

此外,还有其他类型的比赛,比如,图形(xing)学习、優(you)化、AutoML、音(yin)頻(pin)处理、安(an)全/隱(yin)私(si)、元学习、因果推理、时间序列预测,以及分析/可视化。

平台

机器学习竞赛生態(tai)系统是由每年运行多項(xiang)比赛的几个大型平台组成, 以及許(xu)多专门举办个人比赛的网站。

还有与之比肩(jian)的ML Contests,可以查(zha)看(kan)所有平台上正在进行的竞赛。

不同平台会有所不同,比如:

-Kaggle是最成熟(shu)的平台之一,2017年被谷(gu)歌(ge)收(shou)購(gou), 擁(yong)有最大的社(she)区,最近(jin)已(yi)達(da)到10万用户。在Kaggle上举办资助的比赛可能非常昂(ang)貴(gui)。除了举办比赛外,Kaggle还允(yun)许用户托(tuo)管数据集,筆(bi)記(ji)本(ben)和模型。

-CodaLab是一个开源(yuan)竞赛平台,由巴(ba)黎(li)薩(sa)克(ke)雷(lei)大学維(wei)护。任何(he)人都可以注冊(ce),并主持(chi)或参加比赛。免费的中央(yang)处理器可用于推理,比赛组织者也可以使用自己(ji)的硬件作为補(bu)充(chong)。

-Zindi是一个較(jiao)小(xiao)的平台,有一个非常活跃的社区,专注于連(lian)接(jie)在非洲(zhou)拥有数据科(ke)学家(jia)的组织。Zindi还举办面對(dui)面的黑(hei)客馬(ma)拉(la)松(song)和社区活动。

-DrivenData专注于举办具有社会影(ying)響(xiang)力的比赛,并为NASA和其他组织举办过比赛。赛後(hou)都会有描述(shu)解决方案的深入(ru)研究报告。

-AIcrowd最初(chu)是洛(luo)桑(sang)联邦(bang)理工学院的一个研究项目,现在是五(wu)大竞赛平台之一。它已经举办了几次官方的NeurIPS比赛。

报告中还排除了一些其他有趣(qu)的平台:因为它们没有举办符(fu)合我们标准的比赛,或者因为他们在2022年没有举行任何比赛。比如:

-Numerai是一家眾(zhong)包量化基金,自成立以来已向数据科学家支(zhi)付(fu)了超过44万美元。

-Makridakis公(gong)开预测中心(xin)研究并举办时间序列预测竞赛。2022年没有截(jie)止(zhi)日(ri)期(qi)的比赛,但M6比赛于2023年1月(yue)结束(shu)。

-microprediction正在进行时间序列预测挑战赛,奖金有大约50,000美元。Slack组有1,000名用户,大约有500个现场自主算法进行预测。

-Crunchdao是一家众包量化基金,有2000多名数据科学家分攤(tan)奖金。

-OpenML是一个用于共享(xiang)数据集、算法和实验的开放平台。它托管5000个数据集和24个基准测试套件,允许研究人員(yuan)以开放和可重復(fu)的方式(shi)审查不同算法的性(xing)能。

-CodaBench是一个新平台,目前处于测试階(jie)段,支持CodaLab式的竞赛。有奖金和截止日期,以及OpenML式的持续基准测试。

-Hugging Face于2023年2月推出竞赛平台。

学界

在大型平台上举办的比赛的大部分奖金来自工业界,但机器学习竞赛已经有多年豐(feng)富(fu)的学术歷(li)史(shi)——正如Isabelle Guyon今(jin)年在NeurIPS的邀(yao)請(qing)演讲中所讨论的那(na)样。

NeurIPS是全球(qiu)頂(ding)級(ji)学术机器学习会議(yi)之一,并且一直(zhi)是介(jie)紹(shao)最多论文的所在地,并见证了过去十年中ML的重大进展(zhan):AlexNet,GAN,Transformers,和 GPT-3。

NeurIPS于2014年首次举办了机器学习挑战(CiML)研讨会, 自2017年以来一直设置了专门的比赛赛道。

从那时起,比赛数量和总奖池都逐(zhu)年穩(wen)步(bu)增長(chang),到2022年奖金达到40万美元。

另外,其他机器学习会议也举办了比赛,包括CVPR,ICPR,IJCAI,ICRA,ECCV,PCIC和AutoML。

奖金

在那些提供金錢(qian)奖勵(li)或学术荣誉的比赛中,大约有一半(ban)的奖金超过了1万美元。

通常,与著名学术会议相关的比赛为获奖者提供旅(lv)行补助,使他们能够参加会议。

按(an)总奖金计算的前十名包括DrivenData、Kaggle、CodaLab和AIcrowd上的竞赛。

从历史上看,比赛的资金通常来自以下(xia)几个方面:

-尋(xun)求(qiu)问题解决方案的组织(比如NASA)

-准備(bei)计劃(hua)借(jie)机招(zhao)人的组织(比如美国运通,G-Research等)

-激(ji)励参与者使用其技术的平台或供應(ying)商(shang)(比如谷歌,或Kaggle资助他们自己的年度聖(sheng)誕(dan)老(lao)人竞赛)

2022年,FTX未(wei)来基金资助了一些领域相对较新的独立竞赛。

然而,由于FTX的破(po)產(chan),旗(qi)下的未来基金团队也于2022年11月解散(san)。11月下旬(xun),Open Philanthropy宣(xuan)布(bu)他们将在2023年接管一些比赛,但奖金不多。

参与

有些竞赛比其他竞赛更受欢迎,竞争更激烈(lie)。

大多数机器学习竞赛允许参赛者作为团队的一部分合作解决,有时对每个团队的参赛人数有限(xian)制。

衡(heng)量一个比赛的受欢迎程度或竞争力的方法之一是看设法向排行榜提交有效解决方案的团队数量。

学术竞赛的参与度通常较低(di)

大多数比赛至少有50个团队参赛,但也有一些小比赛的参与数量会少于10个,其中大多是在主流(liu)平台之外举办的学术比赛。

注意,这个结果反(fan)映(ying)的并不是竞赛質(zhi)量,一方面这些比赛通常会有相对较高的门檻(kan),另一方面参赛团队也往往是专门从事(shi)相关领域的资深研究人员。

独立竞赛很(hen)難(nan)被注意到

大型竞赛平台可以憑(ping)借着自己的知(zhi)名度和便利(li)性,讓(rang)用户很容(rong)易了解并参加到新的竞赛。

相比之下,独立竞赛并没有现成的用户群(qun)体,而组织者也不得不通过社交媒(mei)体宣傳(chuan)或发送(song)电子郵(you)件的方式来吸(xi)引(yin)参赛選(xuan)手(shou)。

20个Kaggle竞赛的参与团队数超过1000个

在Kaggle上,参与者不僅(jin)可以輕(qing)松地在平台运行代碼(ma),还可以借鑒(jian)其他团队的解决方案。如此一来,即(ji)便是初次参与的新人,也可以創(chuang)建一个有效的解决方案。

此外,Kaggle的机制也鼓(gu)励参与者去进行分享,当自己的代码或帖(tie)子被很多人「喜(xi)欢」时,就可以获得奖牌(pai)。进而,也就形成了一种非常融(rong)洽(qia)的合作氛(fen)围。

除了Kaggle以外,最受欢迎的比赛是Zindi的烏(wu)幹(gan)达空氣(qi)质量预测挑战,有239个团队参加。Zindi还有其他四个比赛,有两百(bai)多个团队进入排行榜。

获奖者的解决方案

编程语言Python最受胜利者喜愛(ai)

毫(hao)不意外,Python几乎是所有竞赛获胜者的首选语言。其中,约有一半的人主要使用Jupyter notebook,而另一半則(ze)使用标准的Python腳(jiao)本。

一个主要使用R语言的方案非常有趣,作者Amir Ghazi在「预测2022年美国男(nan)子大学籃(lan)球赛冠军」的Kaggle比赛中,逐字(zi)逐句(ju)地复现了2018年获胜方案的代码,而这个方案则是出自Kaggle大師(shi)Darius Baru?auskas之手。尽管这已经很瘋(feng)狂(kuang)了,但Darius还是以一种新的方式参加了2022年的比赛......并获得了第593名的好成績(ji)……

C++是最常见的輔(fu)助语言

在ICRA基准自主机器人导航(hang)挑战赛中,参赛者需(xu)要实时控制Clearpath Jackal机器人。

其中一个团队发现,相比于反向强化学习,经典的导航算法的效果反而更好。于是他们决定在导航和定位堆(dui)棧(zhan)中采用C++语言,并实现了以40Hz的速(su)度进行实时控制。鉴于机器人上的雙(shuang)核(he)板(ban)載(zai)计算机的资源有限,Python可能很难做(zuo)到这一点。

另外三个主要使用Python的团队也将C++用于其解决方案的某些部分,例(li)如,对用C++编寫(xie)的無(wu)人机模拟环境进行調(tiao)整(zheng)。

部分比赛会限制语言的选擇(ze)

有的比赛規(gui)则限制了语言的选择。一些平台只(zhi)接受Python(比如Xeek);一些则要求使用Python(比如如DrivenData);有的干脆(cui)不接受商业语言(因此比赛中不会出现MATLAB)。

Python包

所有使用Python的获胜者都在某种程度上使用了PyData堆栈。

最受欢迎的包可以分为三类:核心工具包,NLP领域,计算机视觉领域。

PyTorch没有竞争对手

从2021年到2022年,PyTorch的增长非常顯(xian)著:从77%上升到96%。

具体来說(shuo),在46个深度学习的方案中,有44个采用的是PyTorch,只有两个用了TensorFlow。

可以说,在竞赛领域,PyTorch已经赢了。而这也与更广泛的机器学习研究的趋势是一致(zhi)的。

值得注意的是,目前还没有使用其他神经网络庫(ku)获胜的例子,比如JAX、PaddlePaddle或MindSpore。

计算机视觉

计算机视觉竞赛有许多类型的任务。

图像分类,如Kaggle的竞赛,要求从数字病(bing)理图像中对中風(feng)类型进行分类。

物体检测,如在大堡(bao)礁(jiao)的视频中检测海(hai)星。

图像分割,比如在核磁(ci)共振(zhen)扫描中分割胃(wei)和腸(chang)道。

机器学习排序,比如在类似图像的数据库中寻找(zhao)单个鯨(jing)魚(yu)的图片(pian)。

现狀(zhuang):卷积神经网络(CNN)

这些问题的核心是获取图像数据,通常是像素(su)的二维陣(zhen)列,并从中提取有用的信息(xi)。

十多年前,随着AlexNet的出现,CNN成为解决这类问题的最先(xian)进架(jia)构。因其利用了图像的分層(ceng)结构,识别小规模的特征(zheng),并将这些特征建立为图像中越来越大的的表现特征,所以CNN是很实用的。

Transformer

最近,2020/2021年推出的Vision Transformer和Swin Transformer表明(ming),基于Transformers的模型完全取代了遞(di)歸(gui)神经网络的语言建模,而后者在计算机视觉中应用也很广泛,并有可能比基于CNN的传统模型表现更好。

正如Andrej Karpathy(之前在斯坦福大学、OpenAI、Tesla,现在回到OpenAI)在2021年底(di)指出的那样,不同领域的神经网络架构看起来都在向Transformer架构靠(kao)攏(long)。

他说,「人工智能领域正在进行的整合令(ling)人难以置信......大约十年前,视觉、语音、自然语言、强化学习是完全独立的......大约过去两年,所有领域的神经网络架构都开始看起来相同了,都变成了Transformer。」

预训练模型很重要

计算机视觉与语言建模的相似之处是都使用预训练模型,在公共数据语料(liao)库(如ImageNet)上训练的公認(ren)架构。

这些模型最流行的儲(chu)存(cun)库是Hugging Face Hub,可以通过timm库訪(fang)问,这样的話(hua),加载几十个不同的计算机视觉模型的预训练版(ban)变得非常简单。

在计算机视觉和NLP等领域使用预训练模型的优势是显而易见的:真实世界的图像和人类生成的文本都有一些共同的特征,而且使用预训练模型可以获得这些通用知识的好处,就像是使用了一个更大、更通用的训练数据集。

微(wei)调总是有幫(bang)助的

通常,预训练模型会在特定任务的数据上进行微调,来进一步训练,比如基于比赛组织者提供的数据。

到目前为止,2022年获奖者中最受欢迎的预训练CV模型是EfficientNet。它的优势在于比许多其他模型的资源密集度低得多。

没有一种增强策略是万能的

除了大量使用CNN预训练模型,在获胜的解决方案中还有相当多的种类:

-训练时的数据增强很常见,指的就是通过轉(zhuan)換(huan)现有的训练数据产生額(e)外的训练数据,经常使用的是Albumentations库。

-混(hun)合,是另一种增强策略。

-测试时增强策略则使用情况不一。该策略就是对输入的几个转换版本进行推理,并使用綜(zong)合预测。一些人在使用这个策略后取得了成功,而另一些人则觉着它的效果不如其他方法好。

自然语言处理

自2017年成立以来,基于Transformer的模型已经主导了自然语言处理(NLP)。BERT和GPT中的 「T」就是指Transformer,也是ChatGPT的核心神经网络架构。

Transformer仍占主导地位

在NLP竞赛中获胜的所有解决方案的核心都是基于Transformer的模型,这并不奇(qi)怪(guai)。只不过,它们都是在PyTorch中实现的。

它们都使用了预先训练好的模型,用Hugging Face的Transformers库加载,而且几乎所有的模型都使用了微軟(ruan)研究院的DeBERTa模型,通常用的是deberta-v3-large。

其中许多需要大量的计算资源。例如,谷歌AI4Code的获胜者为其最終(zhong)解决方案训练一个deberta-v3-large,运行A100(80GB)GPU约10天(tian)。

算力和硬件

我们希(xi)望(wang)能够测量每个获胜者在其解决方案裏(li)使用的总计算能力。例如,在EDA、初始实验、超参数调整和最后的训练运行中进行的浮点运算总数。不幸(xing)的是,这其实是不可行的,所以我们只能用一些代理措(cuo)施(shi)来解决。

首先,获胜者使用的硬件如下:

现实中,各(ge)种硬件类型都有被使用。正如预期的那样,大多数获奖者使用GPU进行训练,它可以極(ji)大地提高梯度提升树的训练性能,而且它也是深度神经网络的必备條(tiao)件。

还有不少获奖者可以使用由其雇(gu)主或大学提供的GPU集群。

没有TPU或蘋(ping)果芯(xin)片

令人驚(jing)訝(ya)的是,我们没有发现任何获奖者使用谷歌的張(zhang)量处理单元(TPU),同时也没有看到有获胜者提到Apple Silicon。

谷歌Colab

谷歌的雲(yun)笔记本解决方案Colab很受欢迎,有一个获胜者使用了免费层,一个使用了Pro层,一个使用了Pro+,第四个获胜者使用的是哪(na)层Colab,我们不得而知。

本地个人硬件比云端(duan)硬件稍(shao)微更流行一些,尽管有9位获胜者提到了他们用于训练的GPU模型,但没有具体说明他们使用的是本地还是云端GPU。

都是英(ying)偉(wei)达的显卡(ka)

获胜者使用了10种不同的GPU模型进行训练,都是NVIDIA GPU。雖(sui)然PyTorch在2021年增加了对AMD的ROCm平台的支持,但AMD的GPU在深度学习方面仍然滯(zhi)后。

在三个主要的GBDT库中,LightGBM是唯(wei)一支持AMD GPU的库。XGBoost和CatBoost目前只在NVIDIA GPU上运行。

顶级加速卡最受欢迎

最受欢迎的GPU是NVIDIA A100(我们将A100 40GB和A100 80GB型號(hao)归为一类,因为大家并不总是区分这两种型号)。

大家通常使用多个A100 ,例如,Zindi的Turtle Recall竞赛的获胜者使用了8个A100(40GB)GPU,另外2个获胜者使用了4个A100。

不过,这些基本都是从数据中心租(zu)用的,畢(bi)竟(jing)直接购買(mai)一个A100要花(hua)费超过10,000美元。

A6000也很受欢迎:Kaggle特级大师Qishen Ha用2倍(bei)的A6000配置赢得了今年的两项比赛。单个A6000的成本接近5,000美元。

消(xiao)费级显卡也能搞(gao)定

令人欣(xin)慰(wei)的是,消费者级的GPU出现了——RTX 2070、RTX 2080Ti和RTX 3090出现在更高端的游戏电腦(nao)中,新的价格为300-2000美元,二手型号有很大折扣(kou)。

在云计算服(fu)务中,这些产品(pin)通常以低于1美元/小时的价格提供。

数据集大小和训练时间

除了所使用的具体硬件外,在这些比赛中获胜所需的算力的2个有用的代用指标是数据集大小和训练时间。这两点都很难衡量!

在不同解决方案之间很难有个可比性的定義(yi),也很难让竞争者易于追(zhui)蹤(zong)。最后,我们确定从这两个问题着手。

-提供给参与者的数据集的总大小是多少,以千兆(zhao)字节为单位?(按规定)

-最后的训练运行大概(gai)需要多长时间?

虽然这些问题比较模糊(hu),但它们至少在某种程度上是容易测量的,而且我们希望由测量的便利性所增加的样本量会超过精(jing)度的不足(zu)。对于数据集的大小,我们采用提供给参与者的数据大小,而这通常是未壓(ya)縮(suo)的csv文件。

为比赛提供的数据量存在巨(ju)大差(cha)異(yi),跨(kua)越了5个数量级。在低端,Kaggle的专利短(duan)语匹配竞赛只提供了超过2MB的数据,不过允许使用外部训练数据。

在另一方面,DrivenData的空气质量竞赛提供了超过2TB的数据,AIcrowd的MineRL Basalt有650GB,而Waymo用于其4个挑战的开放数据包括了大约400GB的训练数据和各40GB的验证和测试数据。

训练时间也很不稳定,可能部分是因为问题的模糊性。在可能的情况下,我们排除了预处理和表征生成的时间,这些可以在后续运行中跳(tiao)过。

有些使用免费的计算,有些则花费了很多钱

Zindi的Alvin交易分类挑战是由一个在GPU上使用谷歌Colab的免费层训练不到半小时的模型赢得的。

在另一端,Kaggle的谷歌AI4Code竞赛的获胜方案在租用的云计算平台上用英伟达A100(80GB)训练了10多天,仅最后的训练就可能产生约500美元的云计算成本。

而谷歌通用图像嵌(qian)入竞赛的获胜方案是在4个英伟达A100 GPU上训练了20天,如果使用云计算,成本可能超过2000美元。

团队构成

在大部分的比赛中,每个团队的人数最多不能超过5个。

几乎一半都是个人获奖者

令人印(yin)象(xiang)深刻(ke)的是,几乎一半的获胜「团队」都只有一个人。

独自赢得比赛是一个真正的壯(zhuang)举,因为较大的团队可以从任务的分配中受益(yi)(例如,一个人主要专注于数据预处理/输入生成)。与之相对的,2022年的Waymo 3D纯攝(she)像頭(tou)检测挑战是由一个10人团队赢得的。

在比赛中首次获奖很常见

2022年,超过半数比赛的优胜团队,是他们在该竞赛中第一次获奖。

此外,有不到三分之一的获奖者是新参赛的选手,还有不到三分之一的是赢过不止一次比赛的团队。

有些人一次又(you)一次地获胜

在机器学习竞赛中,经验显然是一种优势。

首先,某些工作可以在不同的比赛中重复使用。比如,图像预处理、计算指标、通用训练管線(xian)等等。

其次,拥有良(liang)好记錄(lu)的参赛者有时会获得计算硬件的支持,这可以让他们在未来的比赛中获得优势。例如,惠(hui)普(pu)的数据科学大使项目Z,其成员中就有Kaggle大师Qishen Ha。

得注意的是,H2O.ai的Kaggle大师团队成员在2022年至少赢得了5场比赛,而2022年至少有3场比赛是由在Preferred Networks工作的成员赢得的。

参考(kao)资料:

https://mlcontests.com/state-of-competitive-machine-learning-2022/?ref=mlc_reddit返(fan)回搜狐(hu),查看更多

責(ze)任编辑:

发布于:广东湛江雷州市