母子挺动

南京晨报

母子挺动

母子挺动是一种很特别的亲子互动方式，它可以加强母子之间的感情，让孩子更加健康快乐地成长。

1. 母子挺动的定义

母子挺动是一种以母亲为中心，让孩子在母亲的怀里摇摆、挺动的亲子互动方式。通过挺动，可以让孩子感受到母亲的温暖和安全感，增强母子之间的情感联系。

2. 母子挺动的好处

母子挺动有很多好处，首先可以促进孩子的身心发展。孩子在挺动的过程中，可以锻炼平衡能力，也可以加强肌肉和骨骼的发育。同时，挺动还可以让孩子更快地进入睡眠状态，有利于他们的睡眠质量。

其次，母子挺动可以增强母子之间的情感联系。孩子在挺动的过程中，可以感受到母亲的温暖和爱，这有助于孩子建立安全感和信任感。同时，挺动还可以让母亲更好地了解孩子的需求和喜好，建立更加亲密的亲子关系。

3. 如何进行母子挺动

母子挺动的具体步骤很简单。首先，母亲要找一个安全、舒适的位置，让孩子躺在自己的怀里。然后，母亲可以轻轻地摇晃、挺动孩子，以让他们感受到母亲的呼吸和心跳。

在挺动的过程中，母亲可以和孩子说话、唱歌或讲故事，以增强亲子互动的效果。同时，母亲还要注意孩子的反应，如果孩子感到不适或疲劳，应该及时停止挺动。

4. 注意事项

虽然母子挺动有很多好处，但是也要注意一些事项。首先，孩子要适时适量地进行挺动，过度挺动可能会影响孩子的身体健康。

其次，母亲要选择一个安全、舒适的位置进行挺动，避免孩子受到摔伤或碰撞。

最后，母亲还要注意孩子的情绪变化，如果孩子感到不适或拒绝挺动，应该及时停止。

5. 总结归纳

母子挺动是一种很特别的亲子互动方式，它可以增强母子之间的情感联系，促进孩子的身心发展。在进行母子挺动时，需要注意孩子的身体健康和情绪变化，以确保亲子互动的顺利进行。

如果您有孩子，不妨尝试一下母子挺动，相信它会给您和孩子带来不一样的体验和感受。

母子挺动随机日志

因为本软件使用的云解析通道为pan、naifei、cc，而pan、naifei、cc又时不时抽风，当解析失败时会直接反馈，调试时没注意到这一点，关掉，等会再下就行了。

1、娱乐：郭德纲相声、今晚80后脱口秀爆笑音频乐不停

2、)隐藏空间的文件删除后不会进入回收站，也就无法恢复，分享的文件移入隐藏空间，会被取消分享。

3、进入曲奇云盘APP后，首先我们需要创建一个多人共享团队，方便管理自己的好友群，无论是办公还是生活都可以使用，点击【我的】【创建团队】，输入团队名称，点击确定。

4、四个车轮考驾照，攻关驾校一点通，掌握新元贝驾考。如何简易驾考，尽在驾考通驾照考试宝典。

5、新增“系统_取所有用户名”，获取Windows系统所有用户名；

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>Diffusion+目(mu)標(biao)檢(jian)測(ce)=可(ke)控(kong)圖(tu)像(xiang)生(sheng)成(cheng)！華(hua)人(ren)團(tuan)隊(dui)提(ti)出(chu)GLIGEN，完(wan)美(mei)控制(zhi)對(dui)象(xiang)的(de)空(kong)間(jian)位(wei)置(zhi)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：LRS

【新智元導(dao)讀(du)】再(zai)也(ye)不(bu)用(yong)擔(dan)心(xin)图像生成的位置錯(cuo)亂(luan)了(le)!

?隨(sui)著(zhe)Stable Diffusion的開(kai)源(yuan)，用自(zi)然(ran)語(yu)言(yan)進(jin)行(xing)图像生成也逐(zhu)漸(jian)普(pu)及(ji)，許(xu)多(duo)AIGC的問(wen)題(ti)也暴(bao)露(lu)了出來(lai)，比(bi)如(ru)AI不會(hui)畫(hua)手(shou)、無(wu)法(fa)理(li)解(jie)動(dong)作(zuo)關(guan)系(xi)、很(hen)難(nan)控制物(wu)體(ti)的位置等(deng)。

其(qi)主(zhu)要(yao)原(yuan)因(yin)還(hai)是(shi)在(zai)於(yu)「輸(shu)入(ru)接(jie)口(kou)」只(zhi)有(you)自然语言，无法做(zuo)到(dao)对画面(mian)的精(jing)細(xi)控制。

最(zui)近(jin)来自威(wei)斯(si)康(kang)星(xing)大(da)學(xue)麥(mai)迪(di)遜(xun)分(fen)校(xiao)、哥(ge)倫(lun)比亞(ya)大学和(he)微(wei)軟(ruan)的研(yan)究(jiu)熱(re)源提出了壹(yi)個(ge)全(quan)新的方(fang)法GLIGEN，以(yi)grounding输入為(wei)條(tiao)件(jian)，对現(xian)有「預(yu)訓(xun)練(lian)文(wen)本(ben)到图像擴(kuo)散(san)模(mo)型(xing)」的功(gong)能(neng)进行扩展(zhan)。

論(lun)文鏈(lian)接：https://arxiv.org/pdf/2301.07093.pdf

項(xiang)目主頁(ye)：https://gligen.github.io/

体驗(yan)链接：https://huggingface.co/spaces/gligen/demo

为了保(bao)留(liu)预训练模型的大量(liang)概(gai)念(nian)知(zhi)識(shi)，研究人員(yuan)沒(mei)有選(xuan)擇(ze)对模型进行微調(tiao)，而(er)是通(tong)過(guo)門(men)控機(ji)制將(jiang)输入的不同(tong)grounding条件註(zhu)入到新的可训练層(ceng)中(zhong)，以實(shi)现对开放(fang)世(shi)界(jie)图像生成的控制。

目前(qian)GLIGEN支(zhi)持(chi)四(si)種(zhong)输入。

（左(zuo)上(shang)）文本实体+box （右(you)上）图像实体+box

（左下(xia)）图像風(feng)格(ge)+文本+box （右下）文本实体+关鍵(jian)點(dian)

实验結(jie)果(guo)也顯(xian)示(shi)，GLIGEN 在 COCO 和 LVIS 上的zero-shot性(xing)能大大優(you)于目前有監(jian)督(du)layout-to-image基(ji)線(xian)。

可控图像生成

在扩散模型之(zhi)前，生成对抗(kang)網(wang)絡(luo)（GANs）一直(zhi)是图像生成領(ling)域(yu)的一哥，其潛(qian)空间和条件输入在「可控操(cao)作」和「生成」方面得(de)到了充(chong)分的研究。

文本条件自回(hui)歸(gui)和扩散模型表(biao)现出驚(jing)人的图像質(zhi)量和概念覆(fu)蓋(gai)率(lv)，得益(yi)于其更(geng)穩(wen)定(ding)的学習(xi)目标和对网络图像-文本配(pei)对數(shu)據(ju)的大規(gui)模训练，並(bing)迅(xun)速(su)出圈(quan)，成为輔(fu)助(zhu)藝(yi)術(shu)設(she)計(ji)和創(chuang)作的工(gong)具(ju)。

但(dan)现有的大规模文本-图像生成模型不能以「文本之外(wai)」的其他(ta)输入模式(shi)为条件，缺(que)乏(fa)精確(que)定位概念或(huo)使(shi)用參(can)考(kao)图像来控制生成过程(cheng)的能力(li)，限(xian)制了信(xin)息(xi)的表達(da)。

比如說(shuo)，使用文本很难描(miao)述(shu)一个物体的精确位置，而邊(bian)界框(kuang)（bounding

boxes）或关键点（keypoints）則(ze)可以很容(rong)易(yi)实现。

现有的一些(xie)工具如inpainting, layout2img生成等可以利(li)用除(chu)文本以外的模態(tai)输入，但卻(que)很少(shao)将這(zhe)些输入结合(he)起(qi)来用于可控的text2img生成。

扩散模型已(yi)經(jing)在数十(shi)億(yi)的图像-文本对上进行了训练，一个很自然的问题是：我(wo)們(men)能否(fou)在现有的预训练的扩散模型的基礎(chu)上，賦(fu)予(yu)它(ta)们新的条件输入模式？

由(you)于预训练模型所(suo)具有的大量概念知识，可能能夠(gou)在其他生成任(ren)務(wu)上取(qu)得更好(hao)的性能，同時(shi)獲(huo)得比现有文本-图像生成模型更多的可控性。

GLIGEN

基于上述目的和想(xiang)法，研究人员提出的GLIGEN模型仍(reng)然保留文本标题作为输入，但也啟(qi)用了其他输入模态，如grounding概念的边界框、grounding参考图像和grounding部(bu)分的关键点。

这裏(li)面的关键难题是在学习注入新的grounding信息的同时，还保留预训练模型中原有的大量概念知识。

为了防(fang)止(zhi)知识遺(yi)忘(wang)，研究人员提出凍(dong)结原来的模型權(quan)重(zhong)，并增(zeng)加(jia)新的可训练的门控Transformer层以吸(xi)收(shou)新的grouding输入，下面以边界框为例(li)。

指(zhi)令(ling)输入

每(mei)个grouding文本实体都(dou)被(bei)表示为一个边界框，包(bao)含(han)左上角(jiao)和右下角的坐(zuo)标值(zhi)。

需(xu)要注意(yi)的是，现有的layout2img相(xiang)关工作通常(chang)需要一个概念詞(ci)典(dian)，在評(ping)估(gu)階(jie)段(duan)只能處(chu)理close-set的实体（如COCO類(lei)別(bie)），研究人员發(fa)现使用编碼(ma)图像描述的文本编码器(qi)即(ji)可将训练集(ji)中的定位信息泛(fan)化(hua)到其他概念上。

训练数据

用于生成grounding图像的训练数据需要文本c和grounding实体e作为条件，在实踐(jian)中可以通过考慮(lv)更靈(ling)活(huo)的输入来放松(song)对数据的要求(qiu)。

主要有三(san)种类型的数据

1. grounding数据

每張(zhang)图片(pian)都與(yu)描述整(zheng)张图片的标题相关聯(lian)；名(ming)词实体從(cong)标题中提取，并标上边界框。

由于名词实体直接取自自然语言的标题，它们可以涵(han)盖更豐(feng)富(fu)的词匯(hui)，有利于开放世界词汇的grounding生成。

2. 检测数据 Detection data

名词实体是预先(xian)定義(yi)的close-set类别（例如COCO中的80个物体类别），选择使用classifier-free引(yin)导中的空标题token作为标题。

检测数据的数量（百(bai)萬(wan)級(ji)）大于基础数据（千(qian)级），因此(ci)可以大大增加總(zong)体训练数据。

3. 检测和标题数据 Detection and Caption data

名词实体与检测数据中的名词实体相同，而图像是單(dan)獨(du)用文字(zi)标题描述的，可能存(cun)在名词实体与标题中的实体不完全一致(zhi)的情(qing)況(kuang)。

比如标题只給(gei)出了对客(ke)廳(ting)的高(gao)层次(ci)描述，没有提到場(chang)景(jing)中的物体，而检测标注则提供(gong)了更精细的物体层次的细節(jie)。

门控注意力机制

研究人员的目标是为现有的大型语言-图像生成模型赋予新的空间基础能力，

大型扩散模型已经在网络规模的图像文本上进行了预训练，以获得基于多樣(yang)化和復(fu)雜(za)的语言指令合成现实图像所需的知识，由于预训练的成本很高，性能也很好，在扩展新能力的同时，在模型权重中保留这些知识是很重要的，可以通过调整新的模塊(kuai)来逐步(bu)適(shi)應(ying)新能力。

在训练过程中，使用门控机制逐渐将新的grounding信息融(rong)合到预训练的模型中，这种设计使生成过程中的采(cai)样过程具有灵活性，以提高质量和可控性。

实验中也證(zheng)明(ming)了，在采样步驟(zhou)的前半(ban)部分使用完整的模型（所有层），在後(hou)半部分只使用原始(shi)层（没有门控Transformer层），生成的结果能够更準(zhun)确反(fan)映(ying)grounding条件，同时具有較(jiao)高的图像质量。

实验部分

在开放集合grounded文本到图像生成任务中，首(shou)先只用COCO（COCO2014CD）的基础标注进行训练，并评估GLIGEN是否能生成COCO类别以外的基础实体。

可以看(kan)到，GLIGEN可以学会新的概念如「藍(lan)鴉(ya)」、「羊(yang)角面包」，或新的物体屬(shu)性如「棕(zong)色(se)木(mu)桌(zhuo)」，而这些信息没有出现在训练类别中。

研究人员認(ren)为这是因为GLIGEN的门控自注意力学会了为接下来的交(jiao)叉(cha)注意力层重新定位与标题中的接地(di)实体相对应的視(shi)覺(jiao)特(te)征(zheng)，并且(qie)由于这兩(liang)层中的共(gong)享(xiang)文本空间而获得了泛化能力。

实验中还定量评估了該(gai)模型在LVIS上的zero-shot生成性能，该模型包含1203个長(chang)尾(wei)物体类别。使用GLIP从生成的图像中预测边界框并计算(suan)AP，并将其命(ming)名为GLIP得分；将其与为layout2img任务设计的最先进的模型进行比较，

可以发现，盡(jin)管(guan)GLIGEN模型只在COCO标注上进行了训练，但它比有监督的基线要好得多，可能因为从頭(tou)开始训练的基线很难从有限的标注中学习，而GLIGEN模型可以利用预训练模型的大量概念知识。

总的来说，这篇(pian)论文：

1. 提出了一种新的text2img生成方法，赋予了现有text2img扩散模型新的grounding可控性；

2. 通过保留预训练的权重和学习逐渐整合新的定位层，该模型实现了开放世界的grounded text2img生成与边界框输入，即綜(zong)合了训练中未(wei)觀(guan)察(cha)到的新的定位概念；

3. 该模型在layout2img任务上的zero-shot性能明显优于之前的最先进水(shui)平(ping)，证明了大型预训练生成模型可以提高下遊(you)任务的性能

参考資(zi)料(liao)：

https://the-decoder.com/gligen-gives-you-more-control-over-ai-image-generation/返(fan)回搜(sou)狐(hu)，查(zha)看更多

責(ze)任编辑：