关于广告推销的案例

概述

在当今数字化的时代里，广告推销是一种非常有效的营销手段。这不仅可以帮助公司提高销售额和知名度，还可以吸引潜在客户并建立品牌形象。然而，广告推销必须遵循中国的广告法以及合适的SEO策略，以确保广告的可信度和有效性。

以下是一个成功的广告推销案例，它展示了如何利用SEO和中国广告法来创造一个高效的广告推销活动。

案例分析

某家电商公司正在寻找一种新的方法来增加其在线销售额。他们决定尝试一个名为“厨房电器促销”的广告推销活动。他们的目标是提高销售额和知名度，同时吸引新客户。

首先，他们决定使用SEO策略来优化他们的内容。他们使用了相关关键字，如“便捷的厨房电器”和“高品质的厨房电器”。他们还在网站上发布了新的博客文章，以吸引更多的流量和潜在客户。此外，在社交媒体上发布了有关活动和产品的信息，以吸引更多的关注和分享。

为了遵守中国的广告法规，他们在广告中使用了真实的数据和事实，并避免使用夸张和误导性宣传。他们还在活动中使用了明确的价格和折扣信息，以确保客户清楚地了解他们正在购买的产品的真实成本。

最后，在广告中，他们强调了他们的产品具有高品质和便捷性，以及提供快速的送货和优质的客户服务。他们还提到了他们的产品符合各种客户需求和预算，这样可以吸引更多不同类型的客户。

结论

这个名为“厨房电器促销”的广告推销活动是非常成功的，因为它遵循了中国的广告法规和合适的SEO策略。这个活动有效地吸引了更多的客户，提高了公司的销售额和知名度，同时建立了品牌形象。这个案例证明了广告推销在当今的数字化时代仍然是一种非常有效的营销手段。

关于广告推销的案例随机日志

完整版范例歌曲回放并且每周更新，8种高品质架子鼓音色和电子鼓音色

1、[DllImport(C:\Windows\barcodexocx)]publicstaticexternintDllRegisterServer();//注册时用[DllImport(C:\Windows\barcodexocx)]publicstaticexternintDllUnregisterServer();//取消注册时用

2、进入软件的主界面，支持对各种相关的功能进行设置，自定义的进行选择；

3、在控制台里点击“隧道管理”，找到你的免费隧道，点击“配置”进入如上面的界面，这里根据你的具体用途，填写对应的项：

4、您可以直接在此设置查看影像的时间点，点击【确定】按钮，地图窗口即可显示用户设定的时间点的影像图。

5、全新版本升级，超多优惠升级。整体优化，使用更加流畅。淘宝、京东、拼多多、唯品会、抖音、美团外卖、考拉海购、苏宁易购等超多平台优惠。爱车加油、话费充值优惠，肯德基、星巴克、必胜客等超多美食特权，腾讯视频、爱奇艺、优酷等视频会员特权，网易云音乐、QQ音乐会员特权，游戏特权等全都有。还有更多特价信息，实时更新。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>VideoMAE：簡(jian)單(dan)高(gao)效(xiao)的(de)視(shi)頻(pin)自(zi)監(jian)督(du)預(yu)訓(xun)練(lian)新(xin)範(fan)式(shi)｜NeurIPS 2022

新智(zhi)元(yuan)報(bao)道(dao)

作(zuo)者(zhe)：童(tong)湛(zhan)

編(bian)輯(ji)：QQ

【新智元導(dao)讀(du)】本(ben)文(wen)將(jiang)介(jie)紹(shao)南(nan)大(da)、騰(teng)訊(xun)和(he)上(shang)海(hai)人(ren)工(gong)智能(neng)實(shi)驗(yan)室(shi)被(bei)NeurIPS 2022收(shou)錄(lu)的工作。

論(lun)文鏈(lian)接(jie)：https://arxiv.org/abs/2203.12602

代(dai)碼(ma)和预训练權(quan)重(zhong)已(yi)經(jing)在(zai)Github開(kai)源(yuan)：https://github.com/MCG-NJU/VideoMAE

目(mu)录

1. 背(bei)景(jing)介绍

2. 研(yan)究(jiu)動(dong)機(ji)

3. 方(fang)法(fa)介绍

4. VideoMAE实現(xian)細(xi)節(jie)

5. 消(xiao)融(rong)实验

6. VideoMAE的重要(yao)特(te)性(xing)

7. 主(zhu)要結(jie)果(guo)

8. 對(dui)社(she)區(qu)的影(ying)響(xiang)

9. 總(zong)结

背景介绍

视频自监督學(xue)習(xi) (Video Self-supervised Learning) ：不(bu)利(li)用(yong)標(biao)簽(qian)信(xin)息(xi)，通(tong)過(guo)設(she)計(ji)自监督的代理(li)任(ren)務(wu)，從(cong)视频數(shu)據(ju)中(zhong)学习時(shi)空(kong)表(biao)征(zheng)信息。现有(you)的视频自监督预训练算(suan)法主要分(fen)為(wei)兩(liang)大類(lei): (1) 基(ji)於(yu)对比(bi)学习的自监督方法，如(ru) CoCLR，CVRL等(deng)。(2 )基于时序(xu)相(xiang)關(guan)代理任务的自监督方法，如 DPC，SpeedNet，Pace 等。

动作識(shi)別(bie) (Action Recognition) : 对給(gei)定(ding)剪(jian)裁(cai)过视频(Trimmed Video)進(jin)行(xing)分类，识别這(zhe)段(duan)视频中人物(wu)的动作。目前(qian)的主流(liu)方法有 2D-based (TSN，TSM，TDN等) ，3D-based(I3D，SlowFast等) 以(yi)及(ji) Transformer-based(TimeSformer，ViViT，MViT，VideoSwin等)。动作识别作为视频領(ling)域(yu)的基礎(chu)任务，常(chang)常作为视频领域各(ge)種(zhong)下(xia)遊(you)任务 (例(li)如时序行为檢(jian)測(ce)，时空动作检测) 的主幹(gan)網(wang)絡(luo)(Backbone)，去(qu)提(ti)取(qu)整(zheng)個(ge)视频級(ji)别或(huo)者视频片(pian)段级别的时空特征。

动作检测 (Action Detection) : 該(gai)任务不僅(jin)需(xu)要对视频进行动作分类，识别这段视频中人物的动作，還(hai)要在空間(jian)范圍(wei)內(nei)用壹(yi)个包(bao)围框(kuang)（bounding box）标記(ji)出(chu)人物的空间位(wei)置(zhi)。动作检测在電(dian)影视频分析(xi)，體(ti)育(yu)视频分析等場(chang)景下有廣(guang)泛(fan)的應(ying)用场景。

研究动机

自从2020年(nian)底(di)视覺(jiao)自註(zhu)意(yi)力(li)模(mo)型(xing)（Vision Transformer）被提出後(hou)，Transformer被广泛应用到(dao)了(le)计算机视觉领域，並(bing)幫(bang)助(zhu)改(gai)进了一系(xi)列(lie)计算机视觉任务的性能。

然(ran)而(er)，Vision Transformer需要利用大規(gui)模的帶(dai)标签的数据集(ji)进行训练。最(zui)初(chu)，最原(yuan)始(shi)的 ViT（Vanilla Vision Transformer）通过使(shi)用数億(yi)張(zhang)带标签的圖(tu)像(xiang)进行有监督形(xing)式的预训练才(cai)能獲(huo)得(de)良(liang)好(hao)的性能。目前的Video Transformer通常基于图像数据训练的Vision Transformer模型（如 TimeSformer，ViViT等）并且(qie)依(yi)賴(lai)大规模图像数据的预训练模型（例如 ImageNet-1K，ImageNet-21K，JFT-300M等）。TimeSformer，ViViT 均(jun)曾(zeng)嘗(chang)試(shi)在视频数据集中从頭(tou)开始训练Video Transformer模型，但(dan)是(shi)都(dou)不能取得令(ling)人滿(man)意的结果。因(yin)此(ci)，如何(he)在不使用任何其(qi)他(ta)预训练模型或額(e)外(wai)图像数据的情(qing)況(kuang)下，直(zhi)接在视频数据集上有效地(di)训练Video Transformer，特别是最原始的ViT(Vanilla Vision Transformer)，仍(reng)然是一个亟(ji)待(dai)解(jie)決(jue)的問(wen)題(ti)。需要注意的是，與(yu)图像数据集相比，现有的视频数据集的规模相对較(jiao)小(xiao)。例如，被广泛使用的Kinectics-400数据集只(zhi)有20多(duo)萬(wan)的训练樣(yang)本，样本数量(liang)大約(yue)是ImageNet-21K数据集的1/50，JFT-300M数据集的1/1500，存(cun)在好幾(ji)个数量级的差(cha)距(ju)。同(tong)时，相比训练图像模型，训练视频模型的计算开銷(xiao)也(ye)大了很(hen)多。这进一步(bu)增(zeng)加(jia)了在视频数据集上训练Video Transformer的難(nan)度(du)。

最近(jin)，「掩(yan)码+重建(jian)」(masking-and-reconstruction)这种自监督训练范式在自然語(yu)言(yan)處(chu)理（BERT）和图像理解（BEiT，MAE）中取得了成(cheng)功(gong)。因此，我(wo)們(men)尝试利用这种自监督范式在视频数据集上训练Video Transformer，并且提出了一种基于掩码和重建 (masking-and-reconstruction)这种代理任务的视频自监督预训练算法VideoMAE(Video Masked Autoencoder)。经过VideoMAE预训练的ViT模型能夠(gou)在Kinetics-400和Something-Something V2这种较大的视频数据集，以及UCF101和HMDB51这种规模相对小的视频数据集上取得大幅(fu)優(you)于其他方法的效果。

方法介绍

MAE概(gai)述(shu)

MAE采(cai)用一种非(fei)对稱(cheng)编码器(qi)-解码器架(jia)構(gou)來(lai)进行掩码和重建的自监督预训练任务。一张 224x224分辨(bian)率(lv)的輸(shu)入(ru)图像首(shou)先(xian)被分成大小为 16 ×16 的非重疊(die)的视觉像素(su)塊(kuai)(token)。每(mei)个像素块(token)會(hui)经过块嵌(qian)入(token embedding)的操(cao)作被轉(zhuan)化(hua)为高維(wei)特征。MAE采用较高的掩码比率 (75%) 隨(sui)机遮(zhe)蓋(gai)掉(diao)一部(bu)分的像素块(token)。经过掩码操作后，将剩(sheng)余(yu)的像素块送(song)到编码器(encoder)中进行特征提取。緊(jin)接著(zhe)，将编码器提取出来的特征块与另(ling)一部分预设的可(ke)学习的像素块(learnable token)进行拼(pin)接，构成和原始输入图像尺(chi)寸(cun)一样大的特征。最后，利用一个輕(qing)量级的解码器(decoder)，基于这部分特征重建原始的图像（实際(ji)实验过程(cheng)中，重建目标的是经过歸(gui)一化的像素块(normalized token) 。

视频数据的特性

与图像数据相比，视频数据包含(han)了更(geng)多的幀(zhen)，也具(ju)有更加豐(feng)富(fu)的運(yun)动信息。本节会先分析一下视频数据的特性。

对视频数据不同掩码策(ce)略(lve)的示(shi)例

时序冗(rong)余性

视频数据中包含着密(mi)集的图像帧，这些(xie)图像帧包含的语義(yi)信息随时间變(bian)化得非常緩(huan)慢(man)。由(you)此可見(jian)，视频中密集連(lian)續(xu)的彩(cai)色(se)图像帧是高度冗余的，如图所(suo)示。这种冗余性可能在实现MAE的过程中造(zao)成两个问题。首先，如果采用原始视频的密集帧率（例如 30 FPS）进行预训练，則(ze)训练效率会非常低(di)。因为这种设置会使得网络更多地关注数据中的靜(jing)態(tai)表象(xiang)特征或者一些局(ju)部变化缓慢的运动特征。其次(ci)，视频中的时序冗余性会極(ji)大地稀(xi)釋(shi)了视频中的运动特征。因此，这种情况会使得在正(zheng)常掩码率（例如，50% 到 75%）下，重建被掩码的像素块的任务变得相对简单。这些问题会影响作为编码器的Backbone在预训练的过程中提取运动特征。

时序相关性

视频可以看(kan)作是由静态图片随着时间的演(yan)化生(sheng)成的，因此视频帧之(zhi)间也存在语义的对应关系。如果不針(zhen)对性地设计掩码策略，这种时序相关性可能会增加重建过程中的「信息泄(xie)漏(lou)」的風(feng)險(xian)。具体来說(shuo)，如图所示，如果使用全(quan)局随机掩码或随机掩码图像帧，网络可以利用视频中的时序相关性，通过「復(fu)制(zhi)粘(zhan)貼(tie)」相鄰(lin)帧中时序对应位置的未(wei)被遮蔽(bi)的像素块来进行像素块重建。这种情况下一定程度上也能完(wan)成代理任务，但是可能会导致(zhi)VideoMAE仅仅能学习到较低语义的时间对应关系特征，而不是高層(ceng)抽(chou)象的语义信息，例如对视频内容(rong)的时空推(tui)理能力。为了缓解这种情况，需要设计一种新的掩码策略，使重建任务更加具挑(tiao)戰(zhan)性，这样才能讓(rang)网络更好地学习视频中的时空特征表示。

VideoMAE方法介绍

VideoMAE的整体框架

为了解决前文中视频预训练过程中采用掩码和重建（masking-and-reconstruction）这种任务时可能遇(yu)到的问题，我们在VideoMAE中引(yin)入一些新的设计。

时序下采样

根(gen)据前文中对视频中密集连续帧中存在的时序冗余性的分析，因此在VideoMAE中選(xuan)擇(ze)采用带有时序间隔(ge)的采样策略来进行更加高效的视频自监督预训练。具体来说，首先从原始视频中随机采样一个由 $t$ 个连续帧組(zu)成的视频片段。然后使用带有时序间隔采样将视频片段壓(ya)縮(suo)为帧，每个帧包含个像素。在具体的实验设置中，Kinetics-400 和 Something-Something V2 数据集上的采样间隔分别设置为4和2。

时空块嵌入

在输入到编码器中之前，对于采样得到的视频片段，采用时空聯(lian)合(he)的形式进行像素块嵌入。具体来说，将大小为视频片段中大小为的视觉像素视为一个视觉像素块。因此，采样得到的视频片段经过时空块嵌入(cube embedding)层后可以得到个视觉像素块。在这个过程中，同时会将视觉像素块的通道维度映(ying)射(she)为。这种设计可以減(jian)少(shao)输入数据的时空维度大小，一定程度上也有助于缓解视频数据的时空冗余性。

带有极高的掩码比率的管(guan)道式掩码策略

为了解决由视频数据中的时序冗余性和时序相关性导致的「信息泄漏」问题，本方法选择在自监督预训练的过程中采用管道式掩码策略。管道式的掩码策略可以将单帧彩色图像的掩码方式自然地在整个视频的时序上进行拓(tuo)展(zhan)，即(ji)不同的帧中相同空间位置的视觉像素块将被遮蔽。具体来说，管道式掩码策略可以表示为。不同的时间t共(gong)享(xiang)相同的值(zhi)。使用这种掩码策略，相同空间位置的token将总是会被掩码。所以对于一些视觉像素块（例如，不同掩码策略的示例图第(di) 4 行的包含手(shou)指(zhi)的像素块），网络将無(wu)法在其他帧中找(zhao)到其对应的部分。这种设计这有助于减轻重建过程中出现「信息泄露(lu)」的风险，可以让VideoMAE通过提取原始视频片段中的高层语义信息，来重建被掩码的token。

相对于图像数据，视频数据具有更強(qiang)的冗余性，视频数据的信息密度遠(yuan)低于图像。这种特性使得VideoMAE使用极高的掩码率（例如 90% 到 95%）进行预训练。值得注意的是，MAE的默(mo)認(ren)掩码率为75% 。实验结果表明(ming)，使用极高的掩码率不仅能够加速(su)预训练（仅有 5% 到 10% 的视觉像素块被输入到编码器中），同时能够提升(sheng)模型的表征能力和在下游任务中的效果。

时空联合自注意力机制

前文中提到了VideoMAE采用了极高的掩码率，只保(bao)留(liu)了极少的token作为编码器的输入。为了更好地提取这部分未被遮蔽的token的时空特征，VideoMAE选择使用原始的ViT作为Backbone，同时在注意力层中采用时空联合自注意力（即不改变原始ViT的模型结构）。因此所有未被遮蔽的token都可以在自注意层中相互(hu)交(jiao)互。时空联合自注意力机制的级别的计算复雜(za)度是网络的计算瓶(ping)頸(jing)，而前文中针对VideoMAE使用了极高掩码比率策略，仅将未被遮蔽的token（例如10%）输入到编码器中。这种设计一定程度上可以有效地缓级别的计算复杂度的问题。

VideoMAE实现细节

VideoMAE框架的具体设计细节

上图展示了VideoMAE采用的编码器和解码器的具体架构设计（以ViT-B为例）。我们在下游的四(si)个视频动作识别数据集和一个动作检测数据集上对VideoMAE进行評(ping)估(gu)。这些数据集关注视频中不同方面(mian)的运动信息。Kinetics-400 是一个大规模的 YouTube 视频数据集，包含了大约 30 万个剪裁过的视频片段，涵(han)盖了 400 个不同的动作类别。Kinetics-400 数据集主要包含日(ri)常生活(huo)中的活动，并且某(mou)些类别与交互对象或场景信息高度相关。Something-Something V2数据集中的视频主要包含了不同对象執(zhi)行相同动作，因此该数据集中的动作识别更加关注运动屬(shu)性而不是对象或场景信息。其中训练集大约包含 17 万个视频片段，验證(zheng)集大约包含 2.5 万个视频片段。UCF101 和 HMDB51 是两个相对较小的视频动作识别数据集。UCF101的训练集大约包含 9500 个视频，HMDB51的训练集大约包含 3500 个视频。实验过程中，我们首先在训练集上使用VideoMAE对网络进行自监督预训练，紧接在训练集上对编码器（ViT）进行有监督形式的微(wei)調(tiao)，最后在验证集上对模型的性能进行评估。对于动作检测数据集AVA，我们首先会加載(zai)Kinetics-400数据集上训练好的模型，对编码器（ViT）进行有监督形式的微调。

消融实验

本节在Something-Something V2和Kinetics-400数据集上对VideoMAE进行消融实验。消融实验默认采用输入为16帧的原始的ViT模型。同时在微调后进行评估时，在 Something-Something V2 上选择2个视频片段和3次裁剪进行测试，在Kinetics-400上选择5个视频片段和3次裁剪进行测试。

解码器设计

轻量级解码器是VideoMAE中的一个关鍵(jian)组件(jian)。表(a) 中展示了使用不同深(shen)度的解码器的实验结果。与MAE不同，VideoMAE中更深的解码器可以取得更好的性能，而深度较淺(qian)的解码器可以有效地降(jiang)低 GPU 的顯(xian)存占(zhan)用。认情况下解码器的层数设置为 4。遵(zun)循(xun)MAE的经验性设计，VideoMAE中解码器的通道寬(kuan)度设置为编码器的通道宽度的一半(ban)（例如，以ViT-B作为编码器时，解码器的通道宽度设置为384）。

掩码策略

在使用 75% 的掩码比例下，将不同的掩码策略与管道式掩码策略进行比较。如表(b)所示，全局随机掩码和随机掩码图像帧的性能劣(lie)于管道式掩码策略。这可能是由于管道式掩码策略可以一定程度上缓解了视频数据中的时序冗余性和时序相关性。如果将掩码比率增加到 90% ，VideoMAE的在Something-Something上的性能可以进一步从 68.0% 提升到 69.6%。VideoMAE中掩码策略和的掩码比率的设计可以使遮蔽加重建成为更具有挑战性的代理任务，强制模型学习到更加高层的时空特征。

重建目标

这裏(li)比较了VideoMAE中的重建目标，结果在表(c)中。首先，如果只使用视频片段中的中心(xin)帧作为重建目标，VideoMAE在下游任务中的性能会大大降低。同时，VideoMAE对采样间隔也很敏(min)感(gan)。如果选择重建更密集帧的视频片段，其结果会明显低于默认的经过时序下采样的视频片段。最后还尝试从经过时序下采样的视频片段中重建视频片段中更加密集的帧，但这种设置会需要解码更多的帧，使得训练速度变慢，效果也沒(mei)有很好。

预训练策略

这里比较了VideoMAE中的预训练策略，结果展示在表(d)中。与之前方法（TimeSformer,ViViT）的实验结论类似(si)，在Something-Something V2 这个对运动信息更加敏感的数据集上从头开始训练ViT并不能取得令人满意的结果。如果利用大规模图像数据集（ImageNet-21K）上预训练的ViT模型作为初始化，能够获得更好的準(zhun)確(que)度，可以从 32.6% 提升到 61.8% 。而使用在 ImageNet-21K 和 Kinetics-400 上预训练的模型进一步将准确率提高到 65.2%。而利用VideoMAE从视频数据集本身(shen)预训练得到的ViT，在不使用任何额外的数据的條(tiao)件下，最終(zhong)能達(da)到 69.6% 的最佳(jia)性能。Kinetics-400 上也有相似的结论。

预训练数据集

这里比较了VideoMAE中的预训练数据集，结果展示在表(e)中。首先按(an)照(zhao)MAE的设置，在 ImageNet-1K 上对ViT自监督预训练 1600 epoch。然后利用I3D中的策略，将 2D 块嵌入层膨(peng)脹(zhang)为3D 时空块嵌入层，并在视频数据集上微调模型。这种训练范式可以超(chao)过从头有监督训练的模型。紧接着，将MAE预训练的模型与在 Kinetics-400 上VideoMAE预训练的ViT模型的性能进行了比较。可以發(fa)现VideoMAE可以实现比MAE更好的性能。然而这两种预训练模型均未能取得比仅在Something-Something V2 数据集上进行自监督预训练的VideoMAE更好的性能。由此可以分析，预训练数据集和目标数据集之间的领域差異(yi)可能是一个重要问题。

预训练輪(lun)次

预训练的总轮次在VideoMAE中的影响

在消融实验中，VideoMAE预训练的总轮次默认设置为800。我们尝试在Kinetics-400 和 Something-Something V2数据集上对预训练轮次进行深入探(tan)究。根据图中的结果，采用更長(chang)的预训练轮次在两个数据集上都可以带来持(chi)续的增益(yi)。

VideoMAE的重要特性

VideoMAE是一种数据高效的学习器

VideoMAE与MoCov3在下游不同视频动作识别数据集上的性能比较

先前很多工作对视频自监督预训练进行了广泛的研究，但这些方法主要使用卷(juan)積(ji)神(shen)经网络作为Backbone，很少有方法去研究中基于ViT的训练机制。因此，为了验证基于ViT的VideoMAE对视频自监督预训练的有效性，我们对两种基于ViT的训练方法进行了比较：(1) 从头开始有监督训练模型，(2) 使用对比学习方法 (MoCo v3)进行自监督预训练。根据实验结果，可以发现VideoMAE明显优于其他两种训练方法。例如，在数据规模最大的 Kinetics-400 数据集上，VideoMAE比从头开始训练的准确率高出大约 10%，比 MoCo v3 预训练的结果高出大约6%。VideoMAE卓(zhuo)越(yue)的性能表明，掩码和重建（masking-and-reconstruction）这种自监督范式为ViT提供(gong)了一种高效

的预训练机制。与此同时值得注意的是，随着训练集的变小，VideoMAE与其他两种训练方法之间的性能差距变得越来越大。值得注意的是，即使HMDB51数据集中只包含大约3500个视频片段，基于VideoMAE 的预训练模型仍然可以获得令人非常满意的准确率。这一新的结果表明VideoMAE是一种数据高效的学习器。这与对比学习需要大量数据进行预训练的情况不同。VideoMAE的数据高效的特性在视频数据有限(xian)的场景下显得尤(you)为重要。

VideoMAE与MoCov3在Something-SomethingV2数据集上的效率分析

我们还进一步比较了使用VideoMAE进行预训练和使用MoCo v3预训练的计算效率。由于使用掩码加重建这种极具挑战性的代理任务，每次叠(die)代过程网络只能觀(guan)察(cha)到10%的输入数据（90%的token被遮蔽），因此VideoMAE需要更多的训练轮次数。极高比例的token被遮蔽这种设计大大节约了预训练的计算消耗(hao)和时间。VideoMAE预训练800轮次仅仅需要19.5小时，而 MoCo v3 预训练300轮次就(jiu)需要 61.7 小时。

极高的掩码率

掩码比率在VideoMAE中的影响

极高的掩码率是VideoMAE中的核(he)心设计之一。我们在 Kinetics-400 和 Something-Something V2 数据集上对此设计进行了深入探究。根据图中的结果，當(dang)掩码比率非常高时，即使是 95%时，网络在下游视频动作识别任务的这两个重要数据集上仍然能表现出极佳的性能。这个现象与自然语言处理中的 BERT 和图像的MAE中的存在巨(ju)大的不同。视频数据中存在时序冗余性和时序相关性，使得VideoMAE相比于图像数据和自然语言，能够进行极高的掩码比率的操作。

我们还对经过预训练的VideoMAE的重构示例进行了可视化。从图中可以发现，即使在极高的掩码率下，VideoMAE也可以產(chan)生令人满意的重建结果。这意味(wei)着VideoMAE能够学习和提取出视频中的时空特征。

泛化和遷(qian)移(yi)能力：数据的質(zhi)量与数量

VideoMAE与MoCov3在较小数据集上的特征迁移能力的性能比较

为了进一步研究VideoMAE学习到的特征，本节对经过预训练的VideoMAE的泛化和迁移能力进行了评估。上表中展示了在 Kinetics-400 数据集上进行预训练的VideoMAE迁移到 Something-Something V2、UCF101 和 HMDB51数据集上的效果。同时，表中也展示了使用 MoCo v3 进行预训练的模型的迁移能力。根据表中的结果，利用VideoMAE进行预训练的模型的迁移和泛化能力优于基于 MoCo v3 进行预训练的模型。这表明VideoMAE能够学习到更多可迁移的特征表示。在 Kinetics-400 数据集上进行预训练的VideoMAE比直接在 UCF101 和 HMDB51 数据集上直接进行预训练的VideoMAE效果好。但是在 Kinetics-400 数据集上进行预训练的模型在 Something-Something V2 数据集上的迁移能力较差。

为了进一步探究造成这种不一致现象的原因，我们在Something-Something V2数据集上进行了减少预训练视频数量的实验。探究过程的包含了两个实验：（1）使用相同的训练轮次数（epoch）进行预训练，（2）使用相同的迭代次数（iteration）进行预训练。从图中的结果可以发现，当减小预训练样本数时，采用更多的训练迭代也能够提升模型的性能。即使只使用了 4万2千(qian)的预训练视频，直接在 Something-Something V2 数据集上训练的VideoMAE仍然可以取得比利用 24万视频数据的 Kinetics-400 数据集进行预训练更好的准确率（68.7% 对比 68.5%）。这个发现意味着领域差异是视频自监督预训练过程中需要注意的另一个重要因素，当预训练数据集和目标数据集之间存在领域差异时，预训练数据的质量比数据的数量更重要。同时，这个发现也间接验证了VideoMAE是一种针对视频自监督预训练的数据高效的学习器。

主要结果

Something-Something V2数据集实验结果

Kinetics-400数据集实验结果

UCF101和HMDB51数据集实验结果

在无需使用任何额外数据的条件下，VideoMAE在Something-Something V2 和Kinetics-400 上的 Top-1 准确率分别达到75.4%和87.4%。需要注意的是，Something-Something V2数据集上目前最佳的方法都强烈(lie)依赖于在外部数据集上进行预训练的模型进行初始化。相反(fan)，VideoMAE在没有利用任何外部数据的条件下能够显着优于之前的最佳方法的准确率约 5%。VideoMAE在Kinetics-400 数据集上也能取得非常卓越的性能。在视频数据有限的情况下（例如，UCF101 数据集中仅包含不到1万个训练视频， HMDB51 中仅包含约3500个训练视频），VideoMAE不需要利用任何额外的图像和视频数据，也能够在这些小规模视频数据集上远远超过之前的最佳方法。

AVA v2.2数据集实验结果

除(chu)了傳(chuan)統(tong)的动作分类任务，我们还进一步在视频动作检测这种更精(jing)细的理解任务上验证VideoMAE模型的表征能力。我们选取了AVA v2.2数据集进行实验。实验中，首先会加载Kinetics-400数据集上预训练好的模型，再(zai)对ViT进行有监督形式的微调。由表格(ge)可以发现，经过VideoMAE预训练的ViT模型可以在AVA v2.2数据集上取得非常好的结果。如果将自监督预训练后的ViT模型，在Kinetics-400上进行进一步的有监督的微调，可以在动作检测任务上去得更好的表现（3 mAP-6mAP的提升）。这也说明了对VideoMAE自监督预训练后的模型，在上游数据集进行有监督的微调后再迁移到下游任务中，模型的性能可以进一步提升。

对社区的影响

我们于今(jin)年4月(yue)对VideoMAE的模型和代码进行了开源，收到了社区的持续关注和认可。

根据Paper with Code榜(bang)单，VideoMAE已经分别占据Something-Something V2[1]和AVA 2.2[2]榜单首位长达半年时间（2022年3月底至(zhi)今）。如果不利用任何外部数据，VideoMAE在Kinetics-400[3]，UCF101[4]，和HMDB51[5]数据集上的结果也是迄(qi)今为止(zhi)最好的。

https://huggingface.co/docs/transformers/main/en/model_doc/videomae

几个月前，VideoMAE的模型被Hugging Face的Transformers官(guan)方倉(cang)庫(ku)收录，是该仓库收录的第一个视频理解模型！一定程度上也反应了社区对我们工作的认可！希(xi)望(wang)我们的工作能为基于Transformer的视频预训练提供一个简单高效的基線(xian)方法，同时也能为后续基于Transformer的视频理解方法带来啟(qi)发。

https://github.com/open-mmlab/mmaction2/tree/dev-1.x/configs/recognition/videomae

目前视频理解仓库MMAction2也支(zhi)持了对VideoMAE模型的推理。

在剛(gang)刚结束(shu)的 ECCV 2022 2nd International Ego4D Workshop上，VideoMAE已经迅(xun)速成为了帮助大家(jia)打(da)比賽(sai)的利器。上海人工智能实验室在本屆(jie)Ego4D Challenge中的多个子(zi)赛道取得了冠(guan)軍(jun) 。其中，VideoMAE作为重要的Backbone，为他们的解决方案(an)提供了强大的视频特征。值得注意的一點(dian)是，从上面第一张图中可以发现，仅仅在Kinetics-400上进行预训练的VideoMAE（ViT-L）的效果已经可以超越在IG-65M视频数据集（约为Kinetics-400样本数据的300倍(bei)）上预训练的ir-CSN-152。这也进一步验证了VideoMAE预训练模型的强大表征能力。

总结

我们这个工作的主要貢(gong)獻(xian)包含以下三(san)个方面：

? 我们第一个提出了基于ViT的掩码和重建的视频自监督预训练框架VideoMAE。即使在较小规模的视频数据集上进行自监督预训练，VideoMAE仍能取得非常优异的表现。为了解决由时序冗余性 (temporal redundancy) 和时序相关性(temporal correlation) 导致的「信息泄漏」问题，我们提出了带有极高掩码率的管道式掩码（tube masking with an extremely high ratio）。实验表明，这种设计是VideoMAE 最终能够取得SOTA效果的关键。同时，由于VideoMAE的非对称编码器-解码器架构，大大降低了预训练过程的计算消耗，极大得节省(sheng)了预训练过程的时间。

? VideoMAE 将NLP和图像领域中的经验成功在视频理解领域进行了自然但有價(jia)值的推广，验证了简单的基于掩码和重建的代理任务可以为视频自监督预训练提供一种简单但又(you)非常有效的解决方案。使用 VideoMAE 进行自监督预训练后的 ViT 模型，在视频理解领域的下游任务（如动作识别，动作检测）上的性能明显优于从头训练（train from scratch）或对比学习方法(contrastive learning) 。

? 实验过程中还有两处有意思(si)的发现，可能被之前NLP和图像理解中的研究工作忽(hu)视了: (1) VideoMAE是一种数据高效的学习器。即使在只有 3 千个左(zuo)右(you)的视频数据集HMDB51上，VideoMAE也能够完成自监督预训练，并且在下游分类任务上可以取得远超过其他方法的结果。(2) 对于视频自监督预训练，当预训练数据集与下游任务数据集之间存在明显领域差异（domain gap）的时候(hou)，视频数据的质量可能比数量更加重要。

參(can)考(kao)資(zi)料(liao)：

1. Action Recognition on Something-Something V2

https://paperswithcode.com/sota/action-recognition-in-videos-on-something?p=videomae-masked-autoencoders-are-data-1

2. Action Detection on AVA v2.2

https://paperswithcode.com/sota/action-recognition-on-ava-v2-2?p=videomae-masked-autoencoders-are-data-1

3. Action Classification on Kinetics-400

https://paperswithcode.com/sota/action-classification-on-kinetics-400?tag_filter=163

4. Self-Supervised Action Recognition on UCF101

https://paperswithcode.com/sota/self-supervised-action-recognition-on-ucf101?tag_filter=163

5. Self-Supervised Action Recognition on HMDB51

https://paperswithcode.com/sota/self-supervised-action-recognition-on-hmdb51?tag_filter=163返(fan)回(hui)搜(sou)狐(hu)，查(zha)看更多

責(ze)任编辑：