2015春晚相声

2015春晚相声:一场“草根”与“官场”的对话

2015年春晚的相声节目,成为了广大观众津津乐道的话题。这场相声节目通过一场“草根”与“官场”的对话,让观众看到了那些平凡的人生故事所蕴含的深刻哲理。

草根与官场的碰撞

这场相声节目以三个草根的故事为主线,展现了草根和官场之间的对话。草根的故事一个个的展现出来,让人们深切地感受到了这些平凡人的生活状态。草根们通过自己的努力,克服了一个又一个的困难,取得了成功。这些故事中散发出的蕴含哲理的光芒,让观众不禁深思:人生的价值何在?是奋斗还是安逸?

与草根相对应的是官场,相声中通过幽默、夸张的手法,展现出了官场的荒谬和不合理。官场中的那些“曲折递延”的事情,让人们不禁感慨:官场到底是怎么了?公平的竞争在哪里?草根和官场之间的碰撞,让人们深刻地意识到了自己的处境和问题所在。

平凡故事蕴含深刻哲理

相声节目通过讲述草根的成功故事,让观众看到了生命的力量和意志的力量。草根们用自己的汗水和智慧,克服了一个又一个的困难,终于取得了成功。这些故事中,蕴含着深刻的哲理:不管遇到什么困难和挫折,只要我们有勇气和毅力,就一定能够克服困难,走向成功。

相声节目还通过讲述官场的荒谬和不公,让观众深刻地认识到了现实社会中存在的问题。官场上的种种陋习和不公,让人们不禁感叹:社会到底怎么了?懒政怎么还没治愈?相声节目中蕴含的哲理,让人们从平凡故事中领悟到了人生的道理,认识到了现实社会中存在的问题。

总结归纳:用平凡故事点燃人生热情

2015年春晚相声节目通过一场“草根”与“官场”的对话,让观众看到了那些平凡的人生故事所蕴含的深刻哲理。草根们用自己的汗水和智慧,克服了一个又一个的困难,终于取得了成功。这些故事中,蕴含着深刻的哲理:只要我们有勇气和毅力,就一定能够克服困难,走向成功。相声节目中还讲述了官场的荒谬和不公,让观众对现实社会中存在的问题有了更深刻的认识。用平凡故事点燃人生热情,让人们认识到了人生的道理,也更加坚定了前行的信念。

2015春晚相声随机日志

将鼠标放至光标上,即会显示wps6按钮,点击该按钮,即可弹出【历史影像设置】窗口,可执行影像查找时间、动画设置、对比设置等设置操作,可查看相关功能的快捷键。

1、选择文件的双选项“检测Outlook配置文件”&添加OST文件

2、目前市面上主流的软件就是云译通,既能学习相关的文章,也能借助他写出地道的外语文章。

3、手机一键操作便捷简单,快速解析修复0秒搞定

4、>0个吸引眼球的主题:所有主题被重新设计,为你的每一张脑图注入新活力;

5、以上就是本次softperfectnetworkscanner中文破解版的软件安装教程,希望能对用户有帮助。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>超(chao)詳(xiang)超硬(ying)Jeff Dean萬(wan)字(zi)總(zong)結(jie)火(huo)熱(re)出(chu)爐(lu)!圖(tu)解(jie)谷(gu)歌(ge)2022年(nian)AIGC、LLM、CV三(san)大(da)領(ling)域(yu)成(cheng)就(jiu)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji):编辑部(bu)

【新智元導(dao)讀(du)】2022年,谷歌在(zai)ML领域取(qu)得(de)了(le)哪(na)些(xie)新進(jin)展(zhan)?Jeff Dean發(fa)万字長(chang)文(wen)总结。

2022年,谷歌在機(ji)器(qi)學(xue)習(xi)方(fang)面(mian)有(you)什(shen)麽(me)进展?

Google Research高(gao)級(ji)研(yan)究(jiu)員(yuan)兼(jian)高级副(fu)总裁(cai)Jeff Dean壹(yi)文幫(bang)妳(ni)总结!

昨(zuo)天(tian),Jeff Dean代(dai)表(biao)Google Research社(she)區(qu)发布(bu)一篇(pian)幹(gan)貨(huo)滿(man)满的(de)长文,总结了谷歌在2022年激(ji)動(dong)人(ren)心(xin)的新进展。

顯(xian)然(ran),大佬(lao)花(hua)了很(hen)久(jiu)(也(ye)許(xu)是(shi)一年),醞(yun)釀(niang)了一個(ge)大的。

在這(zhe)次(ci)的第(di)一篇中(zhong),Jeff Dean首(shou)先(xian)討(tao)論(lun)了語(yu)言(yan)、生(sheng)成、視(shi)覺(jiao)和(he)多(duo)模(mo)態(tai)模型(xing)。

接(jie)下(xia)來(lai),他(ta)還(hai)將(jiang)讨论負(fu)責(ze)任(ren)的人工(gong)智能(neng)、算(suan)法(fa)和計(ji)算机系(xi)統(tong),以(yi)及(ji)科(ke)学、健(jian)康(kang)和机器人技(ji)術(shu)等(deng)研究主(zhu)題(ti)的新进展。

話(hua)不(bu)多說(shuo),讓(rang)我(wo)們(men)開(kai)始(shi)享(xiang)受(shou)这場(chang)知(zhi)識(shi)的盛(sheng)宴(yan)!

语言模型

在過(guo)去(qu)十(shi)年中,机器学习最(zui)令(ling)人興(xing)奮(fen)的领域之(zhi)一,無(wu)疑(yi)就是規(gui)模更(geng)大、功(gong)能更強(qiang)的语言模型了。

一路(lu)走(zou)来,最矚(zhu)目(mu)的进展就是新的方法,比(bi)如(ru)序(xu)列(lie)到(dao)序列学习(seq2seq),以及谷歌开发的Transformer模型。

这些方法,是过去幾(ji)年语言模型领域大部分(fen)进展的基(ji)礎(chu)。

雖(sui)然语言模型的訓(xun)練(lian)目標(biao)簡(jian)單(dan)得令人吃(chi)驚(jing)(比如根(gen)據(ju)前(qian)面的token,預(yu)測(ce)文本(ben)序列中的下一个token),但(dan)當(dang)大模型在足(zu)夠(gou)大、足够多樣(yang)化(hua)的文本语料(liao)庫(ku)上(shang)进行(xing)训练時(shi),这些模型可(ke)以生成連(lian)貫(guan)的、有上下文的、聽(ting)起(qi)来自(zi)然的響(xiang)應(ying)。

这些响应可以用(yong)於(yu)廣(guang)泛(fan)的任務(wu),比如生成創(chuang)意(yi)性(xing)的內(nei)容(rong)、在不同(tong)语言之間(jian)进行翻(fan)譯(yi)、帮助(zhu)完(wan)成编碼(ma)任务,以及以有用、信(xin)息(xi)豐(feng)富(fu)的方式(shi)回(hui)答(da)問(wen)题。

谷歌正(zheng)在研究的LaMDA,就探(tan)索(suo)了这些模型如何(he)產(chan)生安(an)全(quan)、接地(di)氣(qi)和高質(zhi)量(liang)的對(dui)话,以實(shi)現(xian)有上下文语境(jing)的多輪(lun)对话。

項(xiang)目地址(zhi):https://blog.google/technology/ai/lamda/

人該(gai)怎(zen)样與(yu)计算机互(hu)动?以前,我们會(hui)去適(shi)应计算机,用它(ta)能接受的方式与它互动。

但现在,有了LaMDA这样的模型,人類(lei)与计算机的互动就有了一種(zhong)嶄(zhan)新的方式——人类喜(xi)歡(huan)的自然对话模式。

Jeff Dean表示(shi),谷歌已(yi)經(jing)取得了很大进展,让LaMDA變(bian)得有用,且(qie)符(fu)合(he)事(shi)实(合理(li)猜(cai)测,Dean这是拉(la)踩(cai)了一波(bo)ChatGPT

)。

隨(sui)著(zhu)(zhe)模型规模的增(zeng)加(jia),跨(kua)任务的性能会提(ti)高,同时还会解鎖(suo)新功能

2022年4月(yue),谷歌提出了PaLM,这是一个擁(yong)有5400億(yi)參(can)數(shu)的大型语言模型,使(shi)用Pathways軟(ruan)件(jian)基础設(she)施(shi)構(gou)建(jian),並(bing)在多个TPU v4 Pod上进行训练。

PaLM的工作(zuo)表明(ming),对于在大量多语言数据和源(yuan)代码上训练的大规模语言模型,僅(jin)仅以预测下一个token為(wei)目标进行训练,就能在各(ge)种自然语言、翻译和编码任务中達(da)到SOTA,盡(jin)管(guan)它们從(cong)未(wei)被(bei)训练为專(zhuan)門(men)執(zhi)行这些任务。

这项工作表明,增加模型和训练数据的规模,可以显著提高模型能力(li)。

PaLM 540B参数模型与之前的SOTA在Big-bench的58项任务上的性能比較(jiao)

谷歌在大型语言模型(LLM)上取得了巨(ju)大的成功,这些模型是在源代码(而(er)不是自然语言文本数据)上进行训练的。这些模型可以極(ji)大地帮助内部开发人员,详情(qing)可見(jian)「ML-Enhanced Code Completion Improves Developer Productivity」。

谷歌用了一个5亿参数的语言模型,为10,000名(ming)在IDE中使用该模型的开发者(zhe)提供(gong)了代码建議(yi),所(suo)有代码的2.6%,都(dou)是来自于这个模型的建议,因(yin)此(ci),这些开发者減(jian)少(shao)了6%的编码叠(die)代时间。

现在,谷歌正在研究这个模型的增强版(ban)本,希(xi)望(wang)推(tui)广給(gei)更多开发者。

AI中经常(chang)遇(yu)到的挑(tiao)戰(zhan)之一,就是建立(li)能够进行多步(bu)驟(zhou)推理的系统,将復(fu)雜(za)的问题分解成较小(xiao)的任务,并结合这些任务的解決(jue)方案(an),解决更大的问题。

谷歌最近(jin)在思(si)維(wei)鏈(lian)提示方面的工作,就鼓(gu)勵(li)模型在解决新问题时「展示工作」,这样就能帮助语言模型遵(zun)循(xun)邏(luo)辑思维链,并产生更有條(tiao)理、有組(zu)織(zhi)和準(zhun)確(que)的响应。

就像(xiang)四(si)年级的数学老(lao)師(shi)会鼓励学生展示解决问题的步骤,而不是仅仅寫(xie)下答案一样,这种方法不仅使解决问题的方法更具(ju)有可解釋(shi)性,而且对于需(xu)要(yao)多个推理步骤的复杂问题,也更有可能找(zhao)到正确的答案。

这种多步骤推理最大的益(yi)處(chu)就是,可以提高模型解决复杂数学推理和科学问题的能力

關(guan)鍵(jian)问题在于,ML模型是否(fou)能够学会使用多步骤推理来解决复杂问题?

对此,谷歌提出了Minerva模型,它以通(tong)用的PaLM语言模型为基础,在来自arXiv的大量数学文檔(dang)和论文的语料库中对其(qi)进行微(wei)調(tiao),然後(hou)使用思维链提示和自洽(qia)解码。在各自数学推理和科学问题的基准套(tao)件上,Minerva都展示出了SOTA。

Minerva 540B显著提高了STEM評(ping)估(gu)数据集(ji)的最新性能

思维链提示(chain of thought prompting)是一种向(xiang)模型更好(hao)地表达自然语言提示和示例(li)的方法,能够显著提高模型处理新任务的能力。

类似(si)的提示微调(prompt tuning),即(ji)在问题领域特(te)定(ding)文本的语料库上对大型语言模型进行微调,也显示出了巨大的前景(jing)。

论文地址:https://arxiv.org/abs/2212.13138

在「Large Language Models Encode Clinical Knowledge」一文中,研究者證(zheng)明了通过提示微调,可以用较少的例子(zi)使通用语言模型适应醫(yi)学领域,所产生的模型可以在美(mei)國(guo)医学执照(zhao)考(kao)試(shi)问题(MedQA)上达到67.6%的准确率(lv),比之前的SOTA高出17%以上。

虽然与臨(lin)床(chuang)医生的能力相(xiang)比仍(reng)有差(cha)距(ju),但理解力、知识回憶(yi)能力和医学推理能力都随着模型规模和指(zhi)令提示微调(instruction prompt tuning)的调整(zheng)而得到改(gai)善(shan),这表明LLM在医学领域具備(bei)极大的潛(qian)在应用场景。

另(ling)外(wai),在多种语言上训练的大型语言模型,也可以帮忙(mang)把(ba)一种语言翻译到另一种语言,即使它们从未被教(jiao)导过要明确地翻译文本。

傳(chuan)统的机器翻译系统,通常是依(yi)靠(kao)着并行(翻译)文本,来学习从一种语言到另一种语言的翻译。

然而,由(you)于平(ping)行文本只(zhi)存(cun)在于相对较少的语言中,许多语言往(wang)往不被机器翻译系统所支(zhi)持(chi)。

在「Unlocking Zero-Resource Machine Translation to Support New Languages in Google Translate」、「Building Machine Translation Systems for the Next Thousand Languages」、「Towards the Next 1000 Languages in Multilingual Machine Translation: Exploring the Synergy Between Supervised and Self-Supervised Learning」这三篇文章(zhang)中,谷歌研究员描(miao)述(shu)了一套技术,这些技术在使用在单语种(非(fei)平行)数据集上训练出的大规模多语种语言模型,为谷歌翻译增加了24种新语言,被3亿人所使用。

每(mei)种语言的单语数据量与每种语言的并行(翻译)数据量。少数语言有大量的平行数据,但有很长的语言只有单语数据

另一种方法是利(li)用软提示(learned soft prompt)进行表征(zheng)。在这种情況(kuang)下,不是构建新的輸(shu)入(ru)token来表征提示,而是在每个任务中添(tian)加少量可调整的参数,这些参数可以从一些任务实例中学习。

采(cai)用软提示的任务,通常都产生了高性能,同时还允(yun)许大型预训练语言模型在成千(qian)上万的不同任务中共(gong)享。

这是更普(pu)遍(bian)的任务适配(pei)器技术的一个具體(ti)示例,它允许很大一部分参数在不同的任务中共享,同时仍然允许特定任务上的适应和调整。

有趣(qu)的是,由于新功能的出现,语言模型的规模会随着规模的增加而显着增长。

在「Characterizing Emergent Phenomena in Large Language Models」中,研究者对一个奇(qi)怪(guai)的现象(xiang)进行了调查(zha)——

这些模型在达到一定规模之前,无法非常有效(xiao)地执行特定的复杂任务。然而,一旦(dan)发生了关键的学习量(因任务而異(yi)),他们准确执行复杂任务的能力就会突(tu)然大幅(fu)提升(sheng)。

这就提出了一个问题,即当这些模型得到进一步训练时,哪些新任务会变得可行。

生成模型

2022年,图像、视頻(pin)和音(yin)频的生成模型的质量和能力已经显示出真(zhen)正令人惊嘆(tan)和非凡(fan)的进步。生成模型的方法多种多样,但共同點(dian)是必(bi)須(xu)学会对复杂的数据集(如自然图像)进行建模。

2014年开发的生成式对抗(kang)網(wang)絡(luo)(GAN),设置(zhi)了兩(liang)个相互作用模型:

1. 生成器:用于生成一个看(kan)起来很真实的图像。

2. 鑒(jian)別(bie)器:同时接收(shou)生成的和真实的图像,并判(pan)斷(duan)两者中哪个是生成的,哪个是真实的。

每个模型都试图在与另一个模型的競(jing)爭(zheng)中取得勝(sheng)利,结果(guo)是两个模型在各自任务上的表现都越(yue)来越好。最后,生成模型就可以单獨(du)用于生成图像了。

2015年,「Deep Unsupervised Learning using Nonequilibrium Thermodynamics」一文提出了擴(kuo)散(san)模型(Diffusion model)。

论文地址:https://arxiv.org/abs/1503.03585

模型首先通过一个迭代的前向扩散过程(cheng),系统地、緩(huan)慢(man)地破(po)壞(huai)数据分布中的结构。然后,再(zai)通过学习一个反(fan)向扩散过程,从而恢(hui)复数据中已经丟(diu)失(shi)的结构,即使是在高水(shui)平的噪(zao)聲(sheng)下。

其中,前向过程可以用来为反向扩散过程生成以各种有用的、可控(kong)制(zhi)的模型输入为条件的噪音起点,这样反向扩散(生成)过程就变得可控了。

也就是说,我们现在可以要求(qiu)模型「生成一个柚(you)子的图像」,这显然要比单純(chun)地「生成一个图像」有用得多。

之后,各种形(xing)式的自回歸(gui)模型也被应用于图像生成的任务。

2016年,「Pixel Recurrent Neural Networks」提出了一种遞(di)归架(jia)构PixelRNN,以及一种类似但更有效的卷(juan)積(ji)架构PixelCNN。这两个架构帮助奠(dian)定了使用深(shen)度(du)神(shen)经网络进行像素(su)级生成的基础。

论文地址:https://arxiv.org/abs/1601.06759

相关的研究还有「Conditional Image Generation with PixelCNN Decoders」这篇。

论文地址:https://arxiv.org/abs/1606.05328

緊(jin)随其后的是,2017年在「Neural Discrete Representation Learning」中提出的VQ-VAE,一个矢(shi)量量化的自编码器。通过将VQ-VAE与PixelCNN相结合,可以产生高质量的图像。

论文地址:https://arxiv.org/abs/1711.00937

2018年提出的Image Transformer,則(ze)使用自回归Transformer模型来生成图像。

论文地址:https://arxiv.org/abs/1802.05751

然而,所有这些技术所生成的图像与现实世(shi)界(jie)相比,质量都相对较低(di)。直(zhi)到最近,一些新研究才(cai)为更好的图像生成打(da)开了大门。

比如OpenAI的CLIP——一种聯(lian)合训练图像编码器和文本解码器以预测「图像、文本」对的预训练方法。

这种预测哪个描述与哪个图像相配的预训练任务,被证明是学习图像表征的有效和可扩展的方式,并在ImageNet这样的数据集上取得了出色(se)的zero-shot性能。

论文地址:https://arxiv.org/abs/2103.00020

项目地址:https://openai.com/blog/clip/

除(chu)了CLIP之外,生成式图像模型的工具也在不断增加。

大型语言模型编码器已经被证明可以有效地将图像生成的条件放(fang)在长的自然语言描述上,而不仅仅是数量有限(xian)的预先设定的图像类别。大规模的图像训练数据集和附(fu)帶(dai)的描述(可以反过来作为文本→图像的示例)提高了整体性能。

所有这些因素加在一起,产生了一系列能够生成高分辨(bian)率图像的模型,即便(bian)是非常详細(xi)和奇妙(miao)的提示也可以。

在此,Jeff Dean重(zhong)点介(jie)紹(shao)了谷歌研究團(tuan)隊(dui)的两项最新进展:Imagen和Parti。

左(zuo)图来自Imagen:「皇(huang)家(jia)城(cheng)堡(bao)的一面墻(qiang)。墙上有两幅畫(hua)。左邊(bian)那(na)幅是皇家浣(huan)熊(xiong)国王(wang)充(chong)满细節(jie)的油(you)画。右(you)边那幅是皇家浣熊王后充满细节的油画。」

右图来自Prti:「一只戴(dai)着摩(mo)托(tuo)車(che)頭(tou)盔(kui)和披(pi)風(feng)的泰(tai)迪(di)熊在紐(niu)約(yue)市(shi)的出租(zu)车上沖(chong)浪(lang)。数码照片(pian)。」

首先,Imagen是基于之前提到的扩散模型。

在2022年发表的「Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding」中,研究人员表明,一个通用的大型语言模型(如T5),通过在纯文本语料库上进行预训练,可以在图像合成的文本编码方面有着出色的表现。

令人惊訝(ya)的是,在Imagen中增加语言模型的大小,比增加图像扩散模型的大小更能提高样本的保(bao)真度和图像-文本的一致(zhi)性。

论文地址:https://arxiv.org/abs/2205.11487

项目地址:https://imagen.research.google/

具体而言,Imagen通过在训练期(qi)间偶(ou)爾(er)「放棄(qi)」条件信息来提高性能,并为基于扩散的图像生成带来了一些进展,包(bao)括(kuo)「Efficient U-Net」和「无分类器引(yin)导」的新型内存效率架构。

其中,无分类器引导迫(po)使模型学会仅从输入数据中生成,从而避(bi)免(mian)因过度依賴(lai)调节信息而产生的问题。

论文地址:https://arxiv.org/abs/2207.12598

对此,「Guidance: a cheat code for diffusion models」一文提供了更加直觀(guan)的解释。

文章地址:https://benanne.github.io/2022/05/26/guidance.html

其次,Parti使用自回归Transformer架构来生成基于文本输入的图像像素。

在2021年发布的「Vector-quantized Image Modeling with Improved VQGAN」表明,基于Vision Transformer的编码器能够显著改善矢量量化GAN模型VQGAN的输出。

论文地址:https://arxiv.org/abs/2110.04627

这在2022年发布的「Scaling Autoregressive Models for Content-Rich Text-to-Image Generation」中得到了扩展,通过将Transformer编码器-解码器的参数增加到200亿个,来獲(huo)得更好的结果。

论文地址:https://arxiv.org/abs/2206.10789

此外,Parti还善于捕(bu)捉(zhuo)提示中的微妙線(xian)索,并且采用了上文所述的无分类引导对生成的图像进行銳(rui)化。

用戶(hu)的控制

上述进展使我们有可能根据文字描述生成逼(bi)真的靜(jing)态图像。

然而,有时仅靠文字并不足以使你创造(zao)出你想(xiang)要的東(dong)西(xi)。舉(ju)个例子,「一只狗(gou)在沙(sha)灘(tan)上被独角(jiao)獸(shou)追(zhui)趕(gan)」与「我的狗在沙滩上被独角兽追赶」。

因此,谷歌在为用户提供控制生成过程的新方法上又(you)做(zuo)了后續(xu)的研究。

在「DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation」中,用户能够对Imagen或(huo)Parti这样的模型进行微调,进而根据文本和用户提供的图像的组合生成新的图像。

比如,用户可以将自己(ji)(或寵(chong)物(wu))的图像放入生成的图像当中。

论文地址:https://arxiv.org/abs/2208.12242

项目地址:https://dreambooth.github.io/

这一点在「Prompt-to-Prompt Image Editing with Cross Attention Control」中也得到了体现。

用户可以通过文本提示让模型去填(tian)充被mask的区域,从而反复编辑图像,比如「将汽(qi)车变成自行车」这种。

论文地址:https://arxiv.org/abs/2208.01626

项目地址:https://imagen.research.google/editor/

生成式视频

为视频创建生成模型是一个非常具有挑战性的领域,因为与图像不同的是,图像的挑战是将图像的理想屬(shu)性与生成的像素相匹(pi)配,而视频则有一个額(e)外的时间维度。

视频中,每一幀(zhen)的像素不仅必须与此刻(ke)应该发生的事相匹配,还必须与其他帧相一致——既(ji)要在非常精(jing)细的層(ceng)面上(前后几帧的範(fan)圍(wei)内,使運(yun)动看起来平滑(hua)自然),也要在粗(cu)略(lve)的层面上(如果我们想做一个两分鐘(zhong)的飛(fei)机起飞、盤(pan)旋(xuan)和降(jiang)落(luo)的视频,就必须制作成千上万个符合这个需求的帧)。

今(jin)年,谷歌通过Imagen Video和Phenaki这两项工作,在这个目标上取得了相当多令人振(zhen)奋的进展。

在「Imagen Video: High Definition Video Generation from Diffusion Models」中,研究人员使用级联扩散模型生成高分辨率的视频。

论文地址:https://arxiv.org/abs/2210.02303

首先,输入文本提示(一只戴着生日(ri)帽(mao)的快(kuai)樂(le)大象在海(hai)底(di)行走),并用T5将其编码为文本嵌(qian)入。

然后,一个基础的视频扩散模型以40×24的分辨率和每秒(miao)3帧的速(su)度生成一个非常粗略的16帧视频。

最后,由多个时间超分辨率(TSR)和空(kong)间超分辨率(SSR)模型进行上采样,生成最終(zhong)的128帧,分辨率为1280×768,每秒24帧,共计5.3s的高清(qing)视频。

2022年发布的「Phenaki: Variable Length Video Generation From Open Domain Textual Deion」,引入了一个新的基于Transformer的模型来学习视频表征。

论文地址:https://arxiv.org/abs/2210.02399

其中,文本调节是通过训练一个雙(shuang)向的Transformer模型来实现的,可以根据文本描述生成视频token。然后,再对这些生成的视频token进行解码来创建最终的视频。

有了Imagen Video和Phenaki,我们还可以将两个模型结合起来,从Imagen的高分辨率单帧和Phenaki的长视频中获益。

最直接的方法是使用Imagen Video来处理短(duan)视频片段(duan)的超分辨率,同时依靠自回归的Phenaki模型来生成长时标视频信息。

生成式音频

除了面向视觉的生成模型外,谷歌在音频的生成模型方面也取得了重大进展。

在「AudioLM, a Language Modeling Approach to Audio Generation」中,研究人员描述了如何利用语言建模的进展来生成音频,而不需要在註(zhu)释的数据上进行训练。

论文地址:https://arxiv.org/abs/2209.03143

计算机视觉

计算机视觉领域的发展速度惊人。

2020年,在名为「An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale」的文章中,谷歌研究团队开始使用Transformer架构进行计算机视觉的研究,而非卷积神经网络(CNN)。

论文地址:https://arxiv.org/abs/2010.11929

虽然卷积的图像局(ju)部特征提取是许多计算机视觉问题的有力解法,但Transformer的注意力机制在图像处理方面显得靈(ling)活(huo)。

图像的处理

然而,由于完全注意力机制会随着图像大小进行二(er)次縮(suo)放,很難(nan)将其应用于高分辨率的图像处理中。为此,谷歌团队提出了一种新的multi-axis方法,改进原(yuan)有的ViT和MLP模型,更好地适应高分辨率、密(mi)集的预测任务、

同时,模型可以自然地适应不同的输入大小,具有高灵活性和低复杂度。为实现高级和低级视觉的不同任务,谷歌团队推出了两个模型:MaxViT和MAXIM。

在「MaxViT: Multi-Axis Vision Transformer」中,研究人员探索了一种在视觉模型的每个階(jie)段,结合定位(wei)和非定位信息的方法。

论文地址:https://arxiv.org/abs/2204.01697

这种方法在ImageNet-1k分类任务和各种对象檢(jian)测任务上的表现優(you)于其他最先进的模型,而且它的计算成本要低得多。

在MaxViT中,multi-axis注意力机制使其复杂度呈(cheng)线性

实驗(yan)显示,MaxViT显著提高了图像分类、目标检测、分割(ge)、质量评估等高级任务的最新技术水平。

在「MAXIM: Multi-Axis MLP for Image Processing」中,谷歌推出了图像处理解决方案的第二个模型。

论文地址:https://arxiv.org/abs/2201.02973

基于类似UNet的架构,MAXIM在低级成像任务(包括去噪、去模糊(hu)、去霧(wu)、去雨(yu)和弱(ruo)光(guang)增强)上具有强勁(jin)的性能。

使用MAXIM去模糊

为了促(cu)进对高效Transformer和MLP模型的进一步研究,谷歌团队开源了MaxViT和MAXIM的代码和模型。

MaxViT代码链接:https://github.com/google-research/maxvit

MAXIM代码链接:https://github.com/google-research/maxim

除了数据提取,对象監(jian)测也是图像处理的重要一環(huan)。在「Pix2Seq: A New Language Interface for Object Detection」中,研究人员探索了一种简单而通用的方法,从完全不同的角度处理对象检测。

论文地址:https://arxiv.org/abs/2109.10852

与基于特定任务的现有方法不同,谷歌研究人员将对象检测轉(zhuan)換(huan)为以观察(cha)到的像素输入为条件的语言建模任务。

Pix2Seq通过神经网络感(gan)知图像,并为每个对象生成一系列token

与现有的高度专業(ye)化和优化的检测算法相比,Pix2Seq在大规模对象检测COCO数据集方面取得了更好地结果,通过在更大的对象检测数据集上预训练模型,可以进一步提高其性能。

理解3D世界

计算机视觉的另一个挑战,在于如何让模型通过一張(zhang)或几张二维图像,更好地理解物体在现实世界的三维结构。

在「FILM: Frame Interpolation for Large Motion」一文中,研究人员演(yan)示了如何在相隔(ge)多秒的两张照片之间,通过插(cha)值(zhi)来创建慢动作短视频。

论文地址:https://arxiv.org/abs/2202.04901

在「View Synthesis with Transformers」中,研究人员展示了如何结合两种新的技术来合成场景的新视图,也就是光场神经渲(xuan)染(ran)(Light Field Neural Rendering,LFNR)和可泛化的基于patch的神经渲染(Generalizable Patch-Based Neural Rendering,GPNR)。

LFNR项目地址:https://light-field-neural-rendering.github.io/

GPNR项目地址:https://mohammedsuhail.net/gen_patch_neural_rendering/

LFNR使用学习组合参考像素顏(yan)色的Transformer,来准确重现与参考图像相关的效果。

虽然LFNR在单个场景中效果很好,但它的新场景泛化能力有限。GPNR通过使用一系列具有规范化位置编码的Transformer,可以很好地克(ke)服(fu)这一点。

这些Transformer可以在一组场景上进行训练,以合成新场景的视图。这些技术结合在一起,只需从场景的几张图像中就可以高质量地合成新场景,如下所示:

在「LOLNerf: Learn from One Look」中,研究人员探索了仅从单个二维图像中学习高质量表征的能力。

论文地址:https://arxiv.org/abs/2111.09996

通过对特定类别对象的不同示例进行培(pei)训,LOLNerf只憑(ping)一张图片,就能充分了解对象的预期三维结构。

通过这项技术,机器模型能更好地了解三维世界——这是计算机视觉人的长期夢(meng)想!

写在最后:谷歌是负责的

Dean介绍的这些机器学习领域变革(ge)性的进展,在改变数十亿谷歌产品(pin)的用户,这些产品包括搜(sou)索、智能助理、广告(gao)、雲(yun)、Gmail、地图、YouTube、Workspace、安卓(zhuo)、Pixel、Nest和翻译。

这些最新的进展切(qie)实影(ying)响着谷歌用户的体验,改变着人类与计算机互动的方式。

语言模型让人机可以进行自然的对话,并且从计算机那裏(li)得到令人惊讶的回应。由于计算机视觉的新方法,计算机可以帮助人们在三维(而不是二维)的环境中进行创作和互动。

由于生成式模型的新进展,计算机可以帮助人们创建图像、视频和音频。而自然语言理解方面的进展,让计算机可以理解你所要创造的东西,然后产生令你惊讶的结果!

改变人机互动的另一个转变,是多模图模型能力的不断增强。谷歌正在努(nu)力创造一个能够流(liu)暢(chang)理解不同模式的单一模型,它可以理解每一种模式在上下文中代表什么,然后生成不同模式。

比如,他们推出了一个统一的语言模型,他可以在100多种语言中执行视觉、语言、问题回答和物体检测任务,并且达到了SOTA。

在未来,人们可以调动更多的感官(guan),让计算机做他们想做的事情,比如,「用斯(si)瓦(wa)希里语描述这张图片」。还有一些模型,可以通过不同的组合,生成由自然语言、图像和音频控制的图像、视频和音频。

在文章最后,Dean表示,谷歌对用户和整个社会都负有责任,会竭(jie)尽全力保证这些AI技术的安全性。

P.S 因为时间原因,多模态模型的部分本次未写入全文,敬(jing)請(qing)期待(dai)后续。

参考資(zi)料:

https://ai.googleblog.com/2023/01/google-research-2022-beyond-language.html返(fan)回搜狐(hu),查看更多

责任编辑:

发布于:江西抚州金溪县