第二次也很美，观众翘首期待！

第二次也很美：观众翘首期待！

随着影视产业的快速发展，越来越多的电影和电视剧受到观众的关注和喜爱。其中，电影《前任3：再见前任》的成功，不仅成为了国内票房的巨头，也在全球范围内引起了广泛的关注。而《前任3》的续集——《第二次也很美：观众翘首期待！》也成为了热议话题。本文将从四个方面对新标题做详细的阐述。

1. 剧情设置与人物角色

《第二次也很美：观众翘首期待！》是《前任3》的续集，仍然由闫非和彭大魔执导，关于电影的剧情设置和人物角色目前还未公开。但考虑到《前任3》的情节，相信续集将会延续前作的主线故事，同时让观众见识到更加丰富的人物性格和情感世界。同时，电影中可能会加入更多的元素，让故事更加的立体和有趣。

2. 演员阵容

《前任3》的演员阵容十分强大，主演徐峥、韩庚、马丽、郑恺、李嘉欣等都是业内实力派。这次的续集，相信也会延续前作的演员阵容，并加入更多的实力派演员，让影片更加的精彩。此外，针对配角的选择也是一个重要的环节，对于影片的成功来说也是至关重要的。

3. 票房表现与市场反响

《前任3》上映后取得了极高的票房成绩，凭借着观众的口碑和热议，成为了国内电影票房的巨头之一。因此，这次的续集也备受瞩目。更重要的是，续集的票房表现和市场反响，关系到整个电影产业的发展和未来的趋势。因此，电影投资方需要考虑到这一点，制定出更加合理的市场策略。

4. 艺术与商业的平衡

电影作为一种艺术形式，除了要追求商业上的成功，更需要追求作品本身的品质和内涵。因此，对于《第二次也很美：观众翘首期待！》的制作方来说，需要平衡艺术与商业的关系，让作品既有足够的商业价值，也能够满足审美上的需求，并且对观众有积极的影响和启发。总之，《第二次也很美：观众翘首期待！》的制作备受关注。电影的成功不仅取决于制作方的努力，也离不开观众的喜爱和支持。相信，当电影上映之时，一定会带给观众无尽的惊喜和感动。问答话题：1. 《第二次也很美：观众翘首期待！》的剧情是否会延续《前任3》的主线故事？目前尚不确定，但考虑到《前任3》的情节，相信续集将会延续前作的主线故事，同时让观众见识到更加丰富的人物性格和情感世界。2. 电影《前任3：再见前任》的票房成绩如何？《前任3》上映后取得了极高的票房成绩，凭借着观众的口碑和热议，成为了国内电影票房的巨头之一。3. 电影《第二次也很美：观众翘首期待！》的制作方需要考虑哪些因素？制作方需要平衡艺术与商业的关系，让作品既有足够的商业价值，也能够满足审美上的需求，并且对观众有积极的影响和启发。同时，票房表现和市场反响也是重要的考虑因素。

第二次也很美，观众翘首期待！随机日志

样式调整、界面风格统一,显示图片更新,版本检测完善,登录超时异常完善

1、哈兔Boxv0正在制作，敬请期待

2、更新的扫描列表设计将让您清楚地看到您的扫描状态。

3、哆点本身支持多终端登录，但是此项需求取决于校方网管的设置，一个账号是否允许同时登录两台或多台设备（电脑或手机）登录使用，如不允许就会发生相互踢下线的情况，如需使用多终端上网请联系校方网管中心。

4、打开华硕浏览器客户端，点击“cookie及其他网站数据”

5、如果以上操作还是不能解决您的登录问题，请把安装目录下LOG文件夹打包发给我们，我们会第一时间为您处理，谢谢您的使用。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>GitHub斬(zhan)獲(huo)2.2k星(xing)！多(duo)模(mo)態(tai)大(da)語(yu)言(yan)模型(xing)首(shou)篇(pian)綜(zong)述(shu)，論(lun)文(wen)列(lie)表(biao)實(shi)時(shi)更(geng)新(xin)

新智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：LRS

【新智元導(dao)讀(du)】壹(yi)篇综述、一個(ge)倉(cang)庫(ku)，速(su)通(tong)多模态大语言模型。

近(jin)來(lai)，多模态大语言模型（Multimodal Large Language Model，MLLM）受(shou)到(dao)廣(guang)泛(fan)關(guan)註(zhu)，成(cheng)為(wei)一个新興(xing)的(de)研(yan)究(jiu)熱(re)點(dian)。

MLLM通常(chang)以(yi)大语言模型（Large Language Model，LLM）为基(ji)礎(chu)，融(rong)入(ru)其(qi)它(ta)非(fei)文本(ben)的模态信(xin)息(xi)，完(wan)成各(ge)種(zhong)多模态任(ren)務(wu)。

相(xiang)比(bi)於(yu)常規(gui)的多模态模型，MLLM湧(yong)現(xian)出(chu)一些(xie)令(ling)人(ren)驚(jing)嘆(tan)的新能(neng)力(li)，例(li)如(ru)基于圖(tu)片(pian)進(jin)行(xing)詩(shi)文創(chuang)作(zuo)和(he)OCR-Free的數(shu)學(xue)推(tui)理(li)等(deng)。這(zhe)些強(qiang)大的能力顯(xian)示(shi)MLLM有(you)望(wang)成为实现通用(yong)人工(gong)智能的一种途(tu)徑(jing)。

为此(ci)，来自(zi)中(zhong)科(ke)大、騰(teng)訊(xun)等機(ji)構(gou)的研究人員(yuan)深(shen)入探(tan)討(tao)了(le)MLLM的研究进展(zhan)並(bing)發(fa)表了該(gai)領(ling)域(yu)的首篇综述《A Survey on Multimodal Large Language Models》：

论文鏈(lian)接(jie)：https://arxiv.org/pdf/2306.13549.pdf

項(xiang)目(mu)链接（实时更新最(zui)新论文）：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

研究人员將(jiang)MLLM定(ding)義(yi)为「由(you)LLM擴(kuo)展而(er)来的具(ju)有接收(shou)與(yu)推理多模态信息能力的模型」，该類(lei)模型相較(jiao)于热門(men)的單(dan)模态LLM具有以下(xia)的優(you)勢(shi):

1. 更符(fu)合(he)人类認(ren)知(zhi)世(shi)界(jie)的習(xi)慣(guan)。人类具有多种感(gan)官(guan)来接受多种模态信息，这些信息通常是(shi)互(hu)为補(bu)充(chong)、協(xie)同(tong)作用的。因(yin)此，使(shi)用多模态信息一般(ban)可(ke)以更好(hao)地(di)认知与完成任务。

2. 更加(jia)强大与用戶(hu)友(you)好的接口(kou)。通過(guo)支(zhi)持(chi)多模态輸(shu)入，用户可以通过更加靈(ling)活(huo)的方(fang)式(shi)输入与傳(chuan)達(da)信息。

3. 更广泛的任务支持。LLM通常只(zhi)能完成純(chun)文本相关的任务，而MLLM通过多模态可以額(e)外(wai)完成更多任务，如图片描(miao)述和視(shi)覺(jiao)知識(shi)問(wen)答(da)等。

该综述主(zhu)要(yao)圍(wei)繞(rao)MLLM的三(san)个关鍵(jian)技(ji)術(shu)以及(ji)一个應(ying)用展開(kai)，包(bao)括(kuo):

1. 多模态指(zhi)令微(wei)調(tiao)(Multimodal Instruction Tuning，M-IT)

2. 多模态上(shang)下文学习(Multimodal In-Context Learning，M-ICL)

3. 多模态思(si)維(wei)链(Multimodal Chain of Thought，M-CoT)

4. LLM輔(fu)助(zhu)的视觉推理(LLM-Aided Visual Reasoning，LAVR)

前(qian)三项技术构成了MLLM的基础，而最後(hou)一个是以LLM为核(he)心(xin)的多模态系(xi)統(tong)。

三项技术作为LLM的代(dai)表性(xing)能力在(zai)NLP领域已(yi)有广泛研究，但(dan)扩展到多模态领域时會(hui)出现許(xu)多新的特(te)点与挑(tiao)戰(zhan)。

LLM辅助的视觉推理系统涉(she)及幾(ji)种典(dian)型的設(she)計(ji)思路(lu)，即(ji)将LLM作为控(kong)制(zhi)器(qi)、決(jue)策(ce)器或(huo)语义修(xiu)飾(shi)器。

CVPR 2023最佳(jia)论文Visual Programming [1]即采(cai)用了将LLM作为控制器的设计思路。本文将對(dui)前述的几个方面(mian)以及相关挑战做(zuo)簡(jian)单的概(gai)覽(lan)，更豐(feng)富(fu)的內(nei)容(rong)請(qing)參(can)考(kao)原(yuan)文。

多模态指令微调 M-IT

指令（Instruction）指的是对任务的描述，多模态指令微调是一种通过指令格(ge)式的数據(ju)（Instruction-formatted data）来微调預(yu)訓(xun)練(lian)的MLLM的技术。

通过该技术，MLLM可以跟(gen)隨(sui)新的指令泛化(hua)到未(wei)見(jian)过的任务上，提(ti)升(sheng)zero-shot性能。多模态的指令格式如下所(suo)示：

图1.M-IT格式

多模态指令数据的基本形(xing)式可以概括为（指令，多模态输入，回(hui)答）三元組(zu)。指令的设计可以分(fen)为手(shou)工设计与GPT辅助设计这兩(liang)种方式。

前者(zhe)指的是人工为每(mei)种任务设计一系列指令模板(ban)，比如对于传统的视觉问答任务，指令可以设计为「<image> What is the answer to the question? {question}」，其中<image>和{question}（对应著(zhe)图1中的<text>）为原有视觉问答任务中的图像(xiang)和问題(ti)。

另(ling)一种GPT辅助设计的方式是通过手工设计少(shao)量(liang)樣(yang)例来Prompt GPT生(sheng)成更丰富的指令。

对于多模态指令微调，研究人员從(cong)数据、模态橋(qiao)接（Modality Bridging）和評(ping)測(ce)三个方面对现有工作进行了總(zong)結(jie)，如下图所示：

图2.M-IT总结

多模态上下文学习 M-ICL

多模态上下文学习指的是給(gei)定少量样例作为Prompt输入，激(ji)发模型潛(qian)在的能力并规範(fan)化模型的输出。其样例如下图所示：

图3.M-CoT样例

目前以Flamingo[2]为代表的M-ICL相关的研究工作還(hai)比较少。

LLM通常不(bu)需(xu)要專(zhuan)门的训练即可擁(yong)有ICL能力，但现階(jie)段(duan)的MLLM还比较依(yi)賴(lai)训练，并且(qie)仍(reng)缺(que)乏(fa)对样例選(xuan)擇(ze)和样例順(shun)序(xu)等方面的深入研究。

多模态思维链 M-CoT

多模态思维链通过显示地逐(zhu)步(bu)推理（给出中間(jian)的推理步驟(zhou)）来获得(de)多模态任务的答案(an)。相比于直(zhi)接输出答案，M-CoT在较为復(fu)雜(za)的推理任务上能夠(gou)取(qu)得更好的表现。

研究人员从模态桥接（Modality Bridging）、学习范式、思维链配(pei)置(zhi)以及生成模式这四(si)个方面总结了當(dang)前的研究：

图4. M-CoT总结

目前M-CoT的研究也(ye)较少，仍處(chu)在初(chu)步探索(suo)阶段。

LLM辅助的视觉推理 LAVR

这类工作利(li)用LLM强大的内嵌(qian)知识与能力以及其他(ta)工具，设计各种视觉推理系统。

相比于传统视觉推理模型，这些工作具有以下的好的特性:

（1）强大的零(ling)/少样本泛化能力

（2）具備(bei)新的能力，这些系统能够執(zhi)行更加复杂的任务，如解(jie)读梗(geng)图的深層(ceng)含(han)义

（3）更好的互動(dong)性与可控性

研究人员从训练范式、LLM扮(ban)演(yan)的角(jiao)色(se)以及评测三个部(bu)分总结了当前的进展：

图5.LAVR总结

挑战和未来方向(xiang)

目前来看(kan)，MLLM的发展还处于起(qi)步阶段，無(wu)论是相关技术还是具體(ti)应用都(dou)还存(cun)在着许多挑战与可研究的问题，可以总结为以下几点:

1. 现有MLLM的感知能力受限(xian)，导致(zhi)获取的视觉信息不完整(zheng)或者有誤(wu)，并进一步使得后續(xu)的推理出錯(cuo)。这可能是因为现有模型在信息容量和计算(suan)負(fu)擔(dan)之(zhi)间的妥(tuo)协造(zao)成的。

2. MLLM的推理链较为脆(cui)弱(ruo)。表现为即使是做简单的多模态推理问题，模型有时仍会因为推理链條(tiao)斷(duan)裂(lie)导致输出错误答案。

3. MLLM的指令服(fu)从能力需要进一步提升。表现为在进行指令微调后，即使是较为简单的指令，部分MLLM仍然(ran)无法(fa)输出预期(qi)的答案。

4. 物(wu)体幻(huan)视问题普(pu)遍(bian)存在。表现为MLLM输出的回复与图片的内容不相符，出现了编造物体等现象(xiang)，影(ying)響(xiang)了MLLM的可靠(kao)性。

5. 高(gao)效(xiao)参数训练。由于MLLM的模型容量很(hen)大，在计算資(zi)源(yuan)受限的条件(jian)下，高效参数训练有望能够解鎖(suo)更多MLLM的能力。

上述前四点问题在与本文同系列的论文（https://arxiv.org/pdf/2306.13394.pdf）中有非常詳(xiang)細(xi)的评测和讨论，歡(huan)迎(ying)大家(jia)閱(yue)读。

除(chu)了上述问题外，MLLM在具体的子(zi)方向上也都只进行了初步探索，比如M-ICL目前仍然缺乏对样本选取以及排(pai)序的深入研究。

参考资料(liao)：

[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023

[2] Alayrac, Jean-Baptiste and Donahue, Jeff and Luc, Pauline and Miech, Antoine and Barr, Iain and Hasson, Yana and Lenc, Karel and Mensch, Arthur and Millican, Katherine and Reynolds, Malcolm and others. Flamingo: a visual language model for few-shot learning. NeurIPS 2019返(fan)回搜(sou)狐(hu)，查(zha)看更多

責(ze)任编辑：