今日篮网比赛视频直播

开局良好，篮网取得首场胜利

今天，篮网队在客场迎战凯尔特人队，最终以113-100获得胜利。赛前，两支球队的实力差距不大，但篮网凭借着优秀的防守和默契的进攻打出了一场漂亮的比赛。

篮网绝佳的防守表现

虽然凯尔特人队在第一节一度领先，但是篮网队的防守表现非常出色，限制了对手的得分。在本场比赛中，篮网队共计抢断9次、封盖10次，同时也让凯尔特人队的三分球命中率只有28.6%。这样出色的防守表现，确保了篮网队在比赛中的领先优势。

杜兰特贡献不俗

在进攻端，篮网队的表现同样出色。球队中锋乔尔-安比德在本场比赛中贡献了22分，得分王凯里-欧文也是贡献了17分。而最有看点的球员当属篮网队的新援凯文-杜兰特。他在本场比赛中发挥稳定，贡献了29分、3个篮板和3次助攻。杜兰特的表现也让人们对篮网队的未来充满期待。

篮网队的进攻默契度

除了杜兰特的个人表现外，篮网队的进攻默契度也是本场比赛的亮点之一。球队多次完成了漂亮的配合得分，而且球员之间的传接球非常流畅。这样的默契度，也是篮网队能在本场比赛中取得胜利的重要原因之一。

总结

总的来说，篮网队在本场比赛中表现出色，凭借着全队的努力最终获得了胜利。在未来的比赛中，篮网队需要继续保持防守和进攻的默契度，同时也需要更好地发挥球员的个人实力。如果能够做到这点，那么篮网队有望在本赛季的比赛中取得更好的成绩。

今日篮网比赛视频直播特色

1、==去设计发明更多的军事设施武器，利用这些先进的武器击败敌人让你的帝国变得强大。

2、详细的职位分类，更方便查找，提高效率；

3、击败参水猿，即可掉落饰品流火笄

4、放置三国抖音版手游下载

5、傲视天地之中点燃无限的战斗欲望，培养你各方面的操作水平掌控战场痛快的消灭你面对的敌人。

今日篮网比赛视频直播亮点

1、新手福利任性给力，超级导弹注册就送

2、为更多用户带来便捷的运动功能，轻松使用手机步数；

3、最好看图文影音全收录，一网打尽看个够

4、索菲亚的皇家礼服手游下载

5、【强劲社交媒体】

==qushejifaminggengduodejunshisheshiwuqi，liyongzhexiexianjindewuqijibaidirenrangnidediguobiandeqiangda。xiangxidezhiweifenlei，gengfangbianzhazhao，tigaoxiaolv；jibaicanshuiyuan，jikediaoluoshipinliuhuojifangzhisanguodouyinbanshouyouxiazaiaoshitiandizhizhongdianranwuxiandezhandouyuwang，peiyangnigefangmiandecaozuoshuipingzhangkongzhanchangtongkuaidexiaomienimianduidediren。圖(tu)片(pian)+音(yin)頻(pin)秒(miao)變(bian)視(shi)频！西(xi)交(jiao)大(da)開(kai)源(yuan)SadTalker：頭(tou)、唇(chun)運(yun)動(dong)超(chao)自(zi)然(ran)，中(zhong)英(ying)雙(shuang)語(yu)全(quan)能(neng)，還(hai)會(hui)唱(chang)歌(ge)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：LRS

【新智元導(dao)讀(du)】讓(rang)图片配(pei)合(he)妳(ni)的(de)音频出(chu)演(yan)，配套(tao)sd-webui插(cha)件(jian)已(yi)發(fa)布(bu)！

隨(sui)著(zhe)數(shu)字(zi)人(ren)概(gai)念(nian)的火(huo)爆(bao)、生(sheng)成(cheng)技(ji)術(shu)的不(bu)斷(duan)发展(zhan)，让照(zhao)片裏(li)的人物(wu)跟(gen)随音频的輸(shu)入(ru)动起(qi)來(lai)也(ye)不再(zai)是(shi)難(nan)題(ti)。

不過(guo)目(mu)前(qian)「通(tong)过人臉(lian)图像(xiang)和(he)壹(yi)段(duan)语音音频来生成会說(shuo)話(hua)的人物头像视频」仍(reng)然存(cun)在(zai)諸(zhu)多(duo)問(wen)题，比(bi)如(ru)头部(bu)运动不自然、面(mian)部表(biao)情(qing)扭(niu)曲(qu)、视频和图片中的人物面部差(cha)異(yi)过大等(deng)问题。

最(zui)近(jin)来自西安(an)交通大學(xue)等的研(yan)究(jiu)人員(yuan)提(ti)出了(le)SadTalker模(mo)型(xing)，在三(san)維(wei)运动場(chang)中進(jin)行(xing)学習(xi)從(cong)音频中生成3DMM的3D运动系(xi)数（头部姿(zi)勢(shi)、表情），並(bing)使(shi)用(yong)一個(ge)全新的3D面部渲(xuan)染(ran)器(qi)来生成头部运动。

論(lun)文(wen)鏈(lian)接(jie)：https://arxiv.org/pdf/2211.12194.pdf

項(xiang)目主(zhu)頁(ye)：https://sadtalker.github.io/

音频可(ke)以(yi)是英文、中文、歌曲，视频里的人物还可以控(kong)制(zhi)眨(zha)眼(yan)频率(lv)！

已關(guan)註(zhu)

关注

重(zhong)播(bo)分(fen)享(xiang)贊(zan)

关閉(bi)

觀(guan)看(kan)更(geng)多

正(zheng)在加(jia)載(zai)

正在加载

退(tui)出全屏(ping)

视频加载失(shi)敗(bai)，請(qing)刷(shua)新页面再試(shi)

刷新

视频詳(xiang)情

已关注

关注

重播分享赞

关闭

观看更多

正在加载

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

已关注

关注

重播分享赞

关闭

观看更多

正在加载

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

為(wei)了学习真(zhen)實(shi)的运动系数，研究人员顯(xian)式(shi)地(di)對(dui)音频和不同(tong)類(lei)型的运动系数之(zhi)間(jian)的聯(lian)系进行單(dan)獨(du)建(jian)模：通过蒸(zheng)餾(liu)系数和3D渲染的脸部，从音频中学习準(zhun)確(que)的面部表情；通过條(tiao)件VAE設(she)計(ji)PoseVAE来合成不同風(feng)格(ge)的头部运动。

最後(hou)使用生成的三维运动系数被(bei)映(ying)射(she)到(dao)人脸渲染的無(wu)監(jian)督(du)三维关鍵(jian)點(dian)空(kong)间，并合成最終(zhong)视频。

最后在实驗(yan)中證(zheng)明(ming)了該(gai)方(fang)法(fa)在运动同步(bu)和视频質(zhi)量(liang)方面实現(xian)了最先(xian)进的性(xing)能。

目前stable-diffusion-webui的插件也已經(jing)发布！

已关注

关注

重播分享赞

关闭

观看更多

正在加载

退出全屏

视频加载失败，请刷新页面再试

刷新

视频详情

照片+音频=视频

数字人創(chuang)作(zuo)、视频会議(yi)等多个領(ling)域(yu)都(dou)需(xu)要(yao)「用语音音频让靜(jing)態(tai)照片动起来」的技术，但(dan)目前来说這(zhe)仍然是一项非(fei)常(chang)有(you)挑(tiao)戰(zhan)性的任(ren)務(wu)。

之前的工(gong)作主要集(ji)中在生成「唇部运动」，因(yin)为嘴(zui)唇的动作與(yu)语音之间的关系最強(qiang)，其(qi)他(ta)工作也在嘗(chang)试生成其他相(xiang)关运动（如头部姿势）的人脸视频，不过生成视频的质量仍然非常不自然，并受(shou)到偏(pian)好(hao)姿势、模糊(hu)、身(shen)份(fen)修(xiu)改(gai)和面部扭曲的限(xian)制。

另(ling)一種(zhong)流(liu)行的方法是基(ji)於(yu)latent的人脸动畫(hua)，主要关注在对话式人脸动画中特(te)定(ding)类別(bie)的运动，同樣(yang)很(hen)难合成高(gao)质量的视频，因为雖(sui)然三维面部模型中包(bao)含(han)高度(du)解(jie)耦(ou)的表征(zheng)，可以用来单独学习面部不同位(wei)置(zhi)的运动軌(gui)跡(ji)，但仍然会生成不准确的表情和不自然的运动序(xu)列(lie)。

基于上(shang)述(shu)观察(cha)結(jie)果(guo)，研究人员提出了SadTalker（Stylized Audio-Driven Talking-head），通过隱(yin)式三维系数modulation的风格化(hua)音频驅(qu)动的视频生成系統(tong)。

为了实现这一目標(biao)，研究人员將(jiang)3DMM的运动系数视为中间表征，并将任务分为兩(liang)个主要部分（表情和姿势），旨(zhi)在从音频中生成更真实的运动系数（如头部姿势、嘴唇运动和眼睛(jing)眨动），并单独学习每(mei)个运动以減(jian)少(shao)不确定性。

最后通过一个受face-vid2vid啟(qi)发设计的3D感(gan)知(zhi)的面部渲染来驱动源图像。

3D面部

因为现实中的视频都是在三维環(huan)境(jing)中拍(pai)攝(she)的，所(suo)以三维信(xin)息(xi)对于提高生成视频的真实性至(zhi)关重要；不过之前的工作很少考(kao)慮(lv)三维空间，因为只(zhi)从一張(zhang)平(ping)面图像很难獲(huo)得(de)原(yuan)始(shi)的三维稀(xi)疏(shu)，并且(qie)高质量的面部渲染器也很难设计。

受最近的单图像深(shen)度三维重建方法的启发，研究人员将預(yu)測(ce)的三维形(xing)变模型（3DMMs）的空间作为中间表征。

在3DMM中，三维脸部形狀(zhuang)S可以被解耦为：

其中S是三维人脸的平均(jun)形状，Uid和Uexp是LSFM morphable模型的身份和表情的正則(ze)，系数α（80维）和β（64维）分别描(miao)述人物身份和表情；为了保(bao)持(chi)姿势的差异性，系数r和t分别表示(shi)头部旋(xuan)轉(zhuan)和平移(yi)；为了实现身份无关的系数生成，只将运动的參(can)数建模为{β, r, t}。

即(ji)，从驱动的音频中单独学习头部姿势ρ=[r, t]和表情系数β，然后使用这些(xie)运动系数被隐式地調(tiao)制面部渲染用于最终的视频合成。

通过音频生成运动稀疏

三维运动系数包含头部姿势和表情，其中头部姿势是全局(ju)运动，而(er)表情是相对局部的，所以完(wan)全学习所有的系数会給(gei)網(wang)絡(luo)帶(dai)来巨(ju)大的不确定性，因为头部姿势与音频的关系相对較(jiao)弱(ruo)，而嘴唇的运动则是与音频高度关联的。

所以SadTalker使用下(xia)面PoseVAE和ExpNet分别生成头部姿势和表情的运动。

ExpNet

学习到一个可以「从音频中產(chan)生准确的表情系数」的通用模型是非常困(kun)难的，原因有二(er)：

1）音频到表情（audio-to-expression）不是对不同人物的一对一的映射任务；

2）表情系数中存在一些与音频相关的动作，会影(ying)響(xiang)到预测的准确性。

ExpNet的设计目标就(jiu)是为了减少这些不确定性；至于人物身份问题，研究人员通过第(di)一幀(zhen)的表情系数将表情运动与特定的人物联系起来。

为了减少自然对话中其他面部成分的运动權(quan)重，通过Wav2Lip和深度三维重建的预訓(xun)練(lian)网络，只使用嘴唇运动系数（lip motion only）作为系数目标。

至于其他細(xi)微(wei)的面部运动（如眼睛眨动）等，可以在渲染图像上的額(e)外(wai)landmark損(sun)失中引(yin)入。

PoseVAE

研究人员设计了一个基于VAE的模型以学习談(tan)话视频中真实的、身份相关（identity-aware）的风格化头部运动。

在训练中，使用基于编碼(ma)器-解码器的结構(gou)对固(gu)定的n个帧进行姿势VAE训练，其中编码器和解码器都是两層(ceng)MLP，输入包含一个連(lian)續(xu)的t帧头部姿势，将其嵌(qian)入到高斯(si)分布；在解码器中，网络从采(cai)样分布中学习生成t帧姿势。

需要注意(yi)的是，PoseVAE并沒(mei)有直(zhi)接生成姿势，而是学习第一帧的条件姿势的殘(can)差，这也使得该方法在测试中能在第一帧的条件下生成更長(chang)、更穩(wen)定、更连续的头部运动。

根(gen)據(ju)CVAE，PoseVAE中还增(zeng)加了相應(ying)的音频特征和风格标識(shi)作为rhythm awareness和身份风格的条件。

模型使用KL散(san)度来衡(heng)量生成运动的分布；使用均方损失和对抗(kang)性损失来保证生成的质量。

3D-aware面部渲染

在生成真实的三维运动系数后，研究人员通过一个精(jing)心(xin)设计的三维图像动画器来渲染最终的视频。

最近提出的图像动画方法face-vid2vid可以隐含地从单一图像中学习3D信息，不过该方法需要一个真实的视频作为动作驱动信號(hao)；而这篇(pian)论文中提出的脸部渲染可以通过3DMM系数来驱动。

研究人员提出mappingNet来学习显式3DMM运动系数（头部姿势和表情）和隐式无监督3D关键点之间的关系。

mappingNet通过幾(ji)个一维卷(juan)積(ji)层建立(li)，类似(si)PIRenderer一样使用時(shi)间窗(chuang)口(kou)的时间系数进行平滑(hua)處(chu)理(li)；不同的是，研究人员发现PIRenderer中的人脸对齊(qi)运动系数将極(ji)大地影响音频驱动的视频生成的运动自然度，所以mappingNet只使用表情和头部姿势的系数。

训练階(jie)段包含两个步驟(zhou)：首(shou)先遵(zun)循(xun)原论文，以自监督的方式训练face-vid2vid；然后凍(dong)结外观编码器、canonical关键点估(gu)计器和图像生成器的所有参数后，以重建的方式在ground truth视频的3DMM系数上训练mappingNet进行微调。

在无监督关键点的域中使用L1损失进行监督训练，并按(an)照其原始实现方式给出最终生成的视频。

实验结果

为了证明该方法的優(you)越(yue)性，研究人员選(xuan)取(qu)了Frechet Inception Distance（FID）和Cumulative Probability Blur Detection（CPBD）指(zhi)标来評(ping)估图像的质量，其中FID主要评估生成帧的真实性，CPBD评估生成帧的清(qing)晰(xi)度。

为了评估身份保留(liu)程(cheng)度，使用ArcFace来提取图像的身份嵌入，然后计算(suan)源图像和生成帧之间身份嵌入的余(yu)弦(xian)相似度（CSIM）。

为了评估唇部同步和口型，研究人员评估了来自Wav2Lip的口型的感知差异，包括(kuo)距(ju)離(li)评分（LSE-D）和置信评分（LSE-C）。

在头部运动的评估中，使用Hopenet从生成的帧中提取的头部运动特征嵌入的标准偏差来计算生成头部运动的多样性；计算Beat Align Score来评估音频和生成头部运动的一致(zhi)性。

在对比方法中，选取了几种最先进的谈话头像生成方法，包括MakeItTalk、Audio2Head和音频转表情生成方法（Wav2Lip、PC-AVS），使用公(gong)开的checkpoint权重进行评估。

从实验结果中可以看出，文中提出的方法可以展现出更好的整(zheng)體(ti)视频质量和头部姿势的多样性，同时在唇部同步指标方面也显示出与其他完全说话的头部生成方法相當(dang)的性能。

研究人员認(ren)为，这些唇语同步指标对音频太(tai)敏(min)感了，以至于不自然的唇部运动可能会得到更好的分数，不过文中提出的方法取得了与真实视频相似的分数，也表明了该方法的优势。

不同方法生成的视覺(jiao)结果中可以看到，该方法与原始目标视频的视觉质量非常相似，而且与预期(qi)的不同头部姿势也非常相似。

与其他方法相比，Wav2Lip生成了模糊的半(ban)脸；PC-AVS和Audio2Head很难保留源图像的身份；Audio2Head只能生成正面说话的脸；MakeItTalk和Audio2Head由(you)于二维扭曲而生成了扭曲的人脸视频。

参考資(zi)料(liao)：

https://sadtalker.github.io/返(fan)回(hui)搜(sou)狐(hu)，查(zha)看更多

責(ze)任编辑：