母子挺动

母子挺动

母子挺动是一种很特别的亲子互动方式,它可以加强母子之间的感情,让孩子更加健康快乐地成长。

1. 母子挺动的定义

母子挺动是一种以母亲为中心,让孩子在母亲的怀里摇摆、挺动的亲子互动方式。通过挺动,可以让孩子感受到母亲的温暖和安全感,增强母子之间的情感联系。

2. 母子挺动的好处

母子挺动有很多好处,首先可以促进孩子的身心发展。孩子在挺动的过程中,可以锻炼平衡能力,也可以加强肌肉和骨骼的发育。同时,挺动还可以让孩子更快地进入睡眠状态,有利于他们的睡眠质量。

其次,母子挺动可以增强母子之间的情感联系。孩子在挺动的过程中,可以感受到母亲的温暖和爱,这有助于孩子建立安全感和信任感。同时,挺动还可以让母亲更好地了解孩子的需求和喜好,建立更加亲密的亲子关系。

3. 如何进行母子挺动

母子挺动的具体步骤很简单。首先,母亲要找一个安全、舒适的位置,让孩子躺在自己的怀里。然后,母亲可以轻轻地摇晃、挺动孩子,以让他们感受到母亲的呼吸和心跳。

在挺动的过程中,母亲可以和孩子说话、唱歌或讲故事,以增强亲子互动的效果。同时,母亲还要注意孩子的反应,如果孩子感到不适或疲劳,应该及时停止挺动。

4. 注意事项

虽然母子挺动有很多好处,但是也要注意一些事项。首先,孩子要适时适量地进行挺动,过度挺动可能会影响孩子的身体健康。

其次,母亲要选择一个安全、舒适的位置进行挺动,避免孩子受到摔伤或碰撞。

最后,母亲还要注意孩子的情绪变化,如果孩子感到不适或拒绝挺动,应该及时停止。

5. 总结归纳

母子挺动是一种很特别的亲子互动方式,它可以增强母子之间的情感联系,促进孩子的身心发展。在进行母子挺动时,需要注意孩子的身体健康和情绪变化,以确保亲子互动的顺利进行。

如果您有孩子,不妨尝试一下母子挺动,相信它会给您和孩子带来不一样的体验和感受。

母子挺动随机日志

因为本软件使用的云解析通道为pan、naifei、cc,而pan、naifei、cc又时不时抽风,当解析失败时会直接反馈,调试时没注意到这一点,关掉,等会再下就行了。

1、娱乐:郭德纲相声、今晚80后脱口秀爆笑音频乐不停

2、)隐藏空间的文件删除后不会进入回收站,也就无法恢复,分享的文件移入隐藏空间,会被取消分享。

3、进入曲奇云盘APP后,首先我们需要创建一个多人共享团队,方便管理自己的好友群,无论是办公还是生活都可以使用,点击【我的】【创建团队】,输入团队名称,点击确定。

4、四个车轮考驾照,攻关驾校一点通,掌握新元贝驾考。如何简易驾考,尽在驾考通驾照考试宝典。

5、新增“系统_取所有用户名”,获取Windows系统所有用户名;

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>Diffusion+目(mu)標(biao)檢(jian)測(ce)=可(ke)控(kong)圖(tu)像(xiang)生(sheng)成(cheng)!華(hua)人(ren)團(tuan)隊(dui)提(ti)出(chu)GLIGEN,完(wan)美(mei)控制(zhi)對(dui)象(xiang)的(de)空(kong)間(jian)位(wei)置(zhi)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji):LRS

【新智元導(dao)讀(du)】再(zai)也(ye)不(bu)用(yong)擔(dan)心(xin)图像生成的位置錯(cuo)亂(luan)了(le)!

?隨(sui)著(zhe)Stable Diffusion的開(kai)源(yuan),用自(zi)然(ran)語(yu)言(yan)進(jin)行(xing)图像生成也逐(zhu)漸(jian)普(pu)及(ji),許(xu)多(duo)AIGC的問(wen)題(ti)也暴(bao)露(lu)了出來(lai),比(bi)如(ru)AI不會(hui)畫(hua)手(shou)、無(wu)法(fa)理(li)解(jie)動(dong)作(zuo)關(guan)系(xi)、很(hen)難(nan)控制物(wu)體(ti)的位置等(deng)。

其(qi)主(zhu)要(yao)原(yuan)因(yin)還(hai)是(shi)在(zai)於(yu)「輸(shu)入(ru)接(jie)口(kou)」只(zhi)有(you)自然语言,无法做(zuo)到(dao)对画面(mian)的精(jing)細(xi)控制。

最(zui)近(jin)来自威(wei)斯(si)康(kang)星(xing)大(da)學(xue)麥(mai)迪(di)遜(xun)分(fen)校(xiao)、哥(ge)倫(lun)比亞(ya)大学和(he)微(wei)軟(ruan)的研(yan)究(jiu)熱(re)源提出了壹(yi)個(ge)全(quan)新的方(fang)法GLIGEN,以(yi)grounding输入為(wei)條(tiao)件(jian),对現(xian)有「預(yu)訓(xun)練(lian)文(wen)本(ben)到图像擴(kuo)散(san)模(mo)型(xing)」的功(gong)能(neng)进行扩展(zhan)。

論(lun)文鏈(lian)接:https://arxiv.org/pdf/2301.07093.pdf

項(xiang)目主頁(ye):https://gligen.github.io/

体驗(yan)链接:https://huggingface.co/spaces/gligen/demo

为了保(bao)留(liu)预训练模型的大量(liang)概(gai)念(nian)知(zhi)識(shi),研究人員(yuan)沒(mei)有選(xuan)擇(ze)对模型进行微調(tiao),而(er)是通(tong)過(guo)門(men)控機(ji)制將(jiang)输入的不同(tong)grounding条件註(zhu)入到新的可训练層(ceng)中(zhong),以實(shi)现对开放(fang)世(shi)界(jie)图像生成的控制。

目前(qian)GLIGEN支(zhi)持(chi)四(si)種(zhong)输入。

(左(zuo)上(shang))文本实体+box (右(you)上)图像实体+box

(左下(xia))图像風(feng)格(ge)+文本+box (右下)文本实体+关鍵(jian)點(dian)

实验結(jie)果(guo)也顯(xian)示(shi),GLIGEN 在 COCO 和 LVIS 上的zero-shot性(xing)能大大優(you)于目前有監(jian)督(du)layout-to-image基(ji)線(xian)。

可控图像生成

在扩散模型之(zhi)前,生成对抗(kang)網(wang)絡(luo)(GANs)一直(zhi)是图像生成領(ling)域(yu)的一哥,其潛(qian)空间和条件输入在「可控操(cao)作」和「生成」方面得(de)到了充(chong)分的研究。

文本条件自回(hui)歸(gui)和扩散模型表(biao)现出驚(jing)人的图像質(zhi)量和概念覆(fu)蓋(gai)率(lv),得益(yi)于其更(geng)穩(wen)定(ding)的学習(xi)目标和对网络图像-文本配(pei)对數(shu)據(ju)的大規(gui)模训练,並(bing)迅(xun)速(su)出圈(quan),成为輔(fu)助(zhu)藝(yi)術(shu)設(she)計(ji)和創(chuang)作的工(gong)具(ju)。

但(dan)现有的大规模文本-图像生成模型不能以「文本之外(wai)」的其他(ta)输入模式(shi)为条件,缺(que)乏(fa)精確(que)定位概念或(huo)使(shi)用參(can)考(kao)图像来控制生成过程(cheng)的能力(li),限(xian)制了信(xin)息(xi)的表達(da)。

比如說(shuo),使用文本很难描(miao)述(shu)一个物体的精确位置,而邊(bian)界框(kuang)(bounding

boxes)或关键点(keypoints)則(ze)可以很容(rong)易(yi)实现。

现有的一些(xie)工具如inpainting, layout2img生成等可以利(li)用除(chu)文本以外的模態(tai)输入,但卻(que)很少(shao)将這(zhe)些输入结合(he)起(qi)来用于可控的text2img生成。

扩散模型已(yi)經(jing)在数十(shi)億(yi)的图像-文本对上进行了训练,一个很自然的问题是:我(wo)們(men)能否(fou)在现有的预训练的扩散模型的基礎(chu)上,賦(fu)予(yu)它(ta)们新的条件输入模式?

由(you)于预训练模型所(suo)具有的大量概念知识,可能能夠(gou)在其他生成任(ren)務(wu)上取(qu)得更好(hao)的性能,同時(shi)獲(huo)得比现有文本-图像生成模型更多的可控性。

GLIGEN

基于上述目的和想(xiang)法,研究人员提出的GLIGEN模型仍(reng)然保留文本标题作为输入,但也啟(qi)用了其他输入模态,如grounding概念的边界框、grounding参考图像和grounding部(bu)分的关键点。

这裏(li)面的关键难题是在学习注入新的grounding信息的同时,还保留预训练模型中原有的大量概念知识。

为了防(fang)止(zhi)知识遺(yi)忘(wang),研究人员提出凍(dong)结原来的模型權(quan)重(zhong),并增(zeng)加(jia)新的可训练的门控Transformer层以吸(xi)收(shou)新的grouding输入,下面以边界框为例(li)。

指(zhi)令(ling)输入

每(mei)个grouding文本实体都(dou)被(bei)表示为一个边界框,包(bao)含(han)左上角(jiao)和右下角的坐(zuo)标值(zhi)。

需(xu)要注意(yi)的是,现有的layout2img相(xiang)关工作通常(chang)需要一个概念詞(ci)典(dian),在評(ping)估(gu)階(jie)段(duan)只能處(chu)理close-set的实体(如COCO類(lei)別(bie)),研究人员發(fa)现使用编碼(ma)图像描述的文本编码器(qi)即(ji)可将训练集(ji)中的定位信息泛(fan)化(hua)到其他概念上。

训练数据

用于生成grounding图像的训练数据需要文本c和grounding实体e作为条件,在实踐(jian)中可以通过考慮(lv)更靈(ling)活(huo)的输入来放松(song)对数据的要求(qiu)。

主要有三(san)种类型的数据

1. grounding数据

每張(zhang)图片(pian)都與(yu)描述整(zheng)张图片的标题相关聯(lian);名(ming)词实体從(cong)标题中提取,并标上边界框。

由于名词实体直接取自自然语言的标题,它们可以涵(han)盖更豐(feng)富(fu)的词匯(hui),有利于开放世界词汇的grounding生成。

2. 检测数据 Detection data

名词实体是预先(xian)定義(yi)的close-set类别(例如COCO中的80个物体类别),选择使用classifier-free引(yin)导中的空标题token作为标题。

检测数据的数量(百(bai)萬(wan)級(ji))大于基础数据(千(qian)级),因此(ci)可以大大增加總(zong)体训练数据。

3. 检测和标题数据 Detection and Caption data

名词实体与检测数据中的名词实体相同,而图像是單(dan)獨(du)用文字(zi)标题描述的,可能存(cun)在名词实体与标题中的实体不完全一致(zhi)的情(qing)況(kuang)。

比如标题只給(gei)出了对客(ke)廳(ting)的高(gao)层次(ci)描述,没有提到場(chang)景(jing)中的物体,而检测标注则提供(gong)了更精细的物体层次的细節(jie)。

门控注意力机制

研究人员的目标是为现有的大型语言-图像生成模型赋予新的空间基础能力,

大型扩散模型已经在网络规模的图像文本上进行了预训练,以获得基于多樣(yang)化和復(fu)雜(za)的语言指令合成现实图像所需的知识,由于预训练的成本很高,性能也很好,在扩展新能力的同时,在模型权重中保留这些知识是很重要的,可以通过调整新的模塊(kuai)来逐步(bu)適(shi)應(ying)新能力。

在训练过程中,使用门控机制逐渐将新的grounding信息融(rong)合到预训练的模型中,这种设计使生成过程中的采(cai)样过程具有灵活性,以提高质量和可控性。

实验中也證(zheng)明(ming)了,在采样步驟(zhou)的前半(ban)部分使用完整的模型(所有层),在後(hou)半部分只使用原始(shi)层(没有门控Transformer层),生成的结果能够更準(zhun)确反(fan)映(ying)grounding条件,同时具有較(jiao)高的图像质量。

实验部分

在开放集合grounded文本到图像生成任务中,首(shou)先只用COCO(COCO2014CD)的基础标注进行训练,并评估GLIGEN是否能生成COCO类别以外的基础实体。

可以看(kan)到,GLIGEN可以学会新的概念如「藍(lan)鴉(ya)」、「羊(yang)角面包」,或新的物体屬(shu)性如「棕(zong)色(se)木(mu)桌(zhuo)」,而这些信息没有出现在训练类别中。

研究人员認(ren)为这是因为GLIGEN的门控自注意力学会了为接下来的交(jiao)叉(cha)注意力层重新定位与标题中的接地(di)实体相对应的視(shi)覺(jiao)特(te)征(zheng),并且(qie)由于这兩(liang)层中的共(gong)享(xiang)文本空间而获得了泛化能力。

实验中还定量评估了該(gai)模型在LVIS上的zero-shot生成性能,该模型包含1203个長(chang)尾(wei)物体类别。使用GLIP从生成的图像中预测边界框并计算(suan)AP,并将其命(ming)名为GLIP得分;将其与为layout2img任务设计的最先进的模型进行比较,

可以发现,盡(jin)管(guan)GLIGEN模型只在COCO标注上进行了训练,但它比有监督的基线要好得多,可能因为从頭(tou)开始训练的基线很难从有限的标注中学习,而GLIGEN模型可以利用预训练模型的大量概念知识。

总的来说,这篇(pian)论文:

1. 提出了一种新的text2img生成方法,赋予了现有text2img扩散模型新的grounding可控性;

2. 通过保留预训练的权重和学习逐渐整合新的定位层,该模型实现了开放世界的grounded text2img生成与边界框输入,即綜(zong)合了训练中未(wei)觀(guan)察(cha)到的新的定位概念;

3. 该模型在layout2img任务上的zero-shot性能明显优于之前的最先进水(shui)平(ping),证明了大型预训练生成模型可以提高下遊(you)任务的性能

参考資(zi)料(liao):

https://the-decoder.com/gligen-gives-you-more-control-over-ai-image-generation/返(fan)回搜(sou)狐(hu),查(zha)看更多

責(ze)任编辑:

发布于:甘肃甘南舟曲县