民视

沿海时报

民视：一家引领台湾媒体发展的领头羊

民视是台湾地区一家知名的电视台，成立于1985年，是台湾媒体界的领头羊之一。在近40年的发展历程中，民视不断创新，积极适应媒体与社会的变革，走在了台湾媒体发展的前列。

遵循专业化道路:积极开拓新领域

作为一家专业的电视台，民视一直坚持遵循专业化的道路，不断地开拓新的领域。在传统电视媒体的基础上，民视积极尝试了网络媒体、移动媒体等多种新型媒体形态，让观众在不同的平台上观看到民视的内容。

聚焦台湾社会:关注民生问题

民视作为台湾本土媒体，一直致力于关注台湾民生问题，以及各种社会事件和政治事件的报道。民视的新闻节目深入广泛地报道了台湾社会中的各种问题和矛盾，反映了民众的声音和诉求，为台湾社会的稳定和和谐做出了贡献。

推出创新节目:满足观众需求

民视一直将满足观众需求放在重要位置，不断地推出创新节目。比如《天才冲冲冲》、《妈妈的花样年华》、《超级特派员》等节目，都让观众在娱乐中获得了知识和启发。

引领协调产业:构建完整产业链

民视积极参与协调产业发展，构建了完整的产业链。从节目的策划、制作到播出，民视都具备了自主性，同时也在协调不同制作公司之间的关系，形成了一个良性的产业生态。

总结归纳

民视作为一家知名的电视台，一直以来秉承着专业化的道路，不断地开拓新的领域。同时，民视聚焦台湾社会，关注民生问题，推出创新节目，满足观众需求。在构建完整产业链的同时，也引领协调产业的发展。这些都让民视在台湾媒体界的地位越来越重要，成为了引领台湾媒体发展的领头羊。

未来，随着媒体技术的不断创新和社会变革的不断推进，民视也将一直走在台湾媒体的前列，为观众带来更多更好的内容，为台湾社会的发展与进步做出贡献。

民视特色

1、大量的精致的场景和不同的关卡地形模式供玩家自由选择

2、这款软件里面还入驻了非常多的媒体行业的人员，但是他们的专业程度非常的高；

3、游戏中采用简单有趣的消除玩法，同时本作又区别于传统的三消游戏；

4、【轻松理财】

5、透露更好的学习体验，让课程推送包你对；

民视亮点

1、领悟到的战术很合适，执行计划的速度特别快，无论什么原因都能成功。

2、对抗臭名昭著的反派，包括毒液绿魔电王和猎人克莱文!

3、时间轴表现：从黄巾之乱到三分归一，需要全服玩家一起打到某项成就解锁事件，真正由玩家推动游戏进度；

4、精选推荐你感兴趣的高清视频，有料有趣还杀时!超多内容干货爆棚，碎片时间也能涨姿势!

5、优美的游戏意境，从宏观上我们可以看出游戏的画面和装扮十分的古典优雅气韵；

daliangdejingzhidechangjinghebutongdeguankadixingmoshigongwanjiaziyouxuanzezhekuanruanjianlimianhairuzhulefeichangduodemeitixingyederenyuan，danshitamendezhuanyechengdufeichangdegao；youxizhongcaiyongjiandanyouqudexiaochuwanfa，tongshibenzuoyouqubieyuchuantongdesanxiaoyouxi；【qingsonglicai】toulugenghaodexuexitiyan，rangkechengtuisongbaonidui；GitHub斬(zhan)獲(huo)2.2k星(xing)！多(duo)模(mo)態(tai)大(da)語(yu)言(yan)模型(xing)首(shou)篇(pian)綜(zong)述(shu)，論(lun)文(wen)列(lie)表(biao)實(shi)時(shi)更(geng)新(xin)

新智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：LRS

【新智元導(dao)讀(du)】壹(yi)篇综述、一個(ge)倉(cang)庫(ku)，速(su)通(tong)多模态大语言模型。

近(jin)來(lai)，多模态大语言模型（Multimodal Large Language Model，MLLM）受(shou)到(dao)廣(guang)泛(fan)關(guan)註(zhu)，成(cheng)為(wei)一个新興(xing)的(de)研(yan)究(jiu)熱(re)點(dian)。

MLLM通常(chang)以(yi)大语言模型（Large Language Model，LLM）为基(ji)礎(chu)，融(rong)入(ru)其(qi)它(ta)非(fei)文本(ben)的模态信(xin)息(xi)，完(wan)成各(ge)種(zhong)多模态任(ren)務(wu)。

相(xiang)比(bi)於(yu)常規(gui)的多模态模型，MLLM湧(yong)現(xian)出(chu)一些(xie)令(ling)人(ren)驚(jing)嘆(tan)的新能(neng)力(li)，例(li)如(ru)基于圖(tu)片(pian)進(jin)行(xing)詩(shi)文創(chuang)作(zuo)和(he)OCR-Free的數(shu)學(xue)推(tui)理(li)等(deng)。這(zhe)些強(qiang)大的能力顯(xian)示(shi)MLLM有(you)望(wang)成为实现通用(yong)人工(gong)智能的一种途(tu)徑(jing)。

为此(ci)，来自(zi)中(zhong)科(ke)大、騰(teng)訊(xun)等機(ji)構(gou)的研究人員(yuan)深(shen)入探(tan)討(tao)了(le)MLLM的研究进展(zhan)並(bing)發(fa)表了該(gai)領(ling)域(yu)的首篇综述《A Survey on Multimodal Large Language Models》：

论文鏈(lian)接(jie)：https://arxiv.org/pdf/2306.13549.pdf

項(xiang)目(mu)链接（实时更新最(zui)新论文）：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

研究人员將(jiang)MLLM定(ding)義(yi)为「由(you)LLM擴(kuo)展而(er)来的具(ju)有接收(shou)與(yu)推理多模态信息能力的模型」，该類(lei)模型相較(jiao)于热門(men)的單(dan)模态LLM具有以下(xia)的優(you)勢(shi):

1. 更符(fu)合(he)人类認(ren)知(zhi)世(shi)界(jie)的習(xi)慣(guan)。人类具有多种感(gan)官(guan)来接受多种模态信息，这些信息通常是(shi)互(hu)为補(bu)充(chong)、協(xie)同(tong)作用的。因(yin)此，使(shi)用多模态信息一般(ban)可(ke)以更好(hao)地(di)认知与完成任务。

2. 更加(jia)强大与用戶(hu)友(you)好的接口(kou)。通過(guo)支(zhi)持(chi)多模态輸(shu)入，用户可以通过更加靈(ling)活(huo)的方(fang)式(shi)输入与傳(chuan)達(da)信息。

3. 更广泛的任务支持。LLM通常只(zhi)能完成純(chun)文本相关的任务，而MLLM通过多模态可以額(e)外(wai)完成更多任务，如图片描(miao)述和視(shi)覺(jiao)知識(shi)問(wen)答(da)等。

该综述主(zhu)要(yao)圍(wei)繞(rao)MLLM的三(san)个关鍵(jian)技(ji)術(shu)以及(ji)一个應(ying)用展開(kai)，包(bao)括(kuo):

1. 多模态指(zhi)令微(wei)調(tiao)(Multimodal Instruction Tuning，M-IT)

2. 多模态上(shang)下文学习(Multimodal In-Context Learning，M-ICL)

3. 多模态思(si)維(wei)链(Multimodal Chain of Thought，M-CoT)

4. LLM輔(fu)助(zhu)的视觉推理(LLM-Aided Visual Reasoning，LAVR)

前(qian)三项技术构成了MLLM的基础，而最後(hou)一个是以LLM为核(he)心(xin)的多模态系(xi)統(tong)。

三项技术作为LLM的代(dai)表性(xing)能力在(zai)NLP领域已(yi)有广泛研究，但(dan)扩展到多模态领域时會(hui)出现許(xu)多新的特(te)点与挑(tiao)戰(zhan)。

LLM辅助的视觉推理系统涉(she)及幾(ji)种典(dian)型的設(she)計(ji)思路(lu)，即(ji)将LLM作为控(kong)制(zhi)器(qi)、決(jue)策(ce)器或(huo)语义修(xiu)飾(shi)器。

CVPR 2023最佳(jia)论文Visual Programming [1]即采(cai)用了将LLM作为控制器的设计思路。本文将對(dui)前述的几个方面(mian)以及相关挑战做(zuo)簡(jian)单的概(gai)覽(lan)，更豐(feng)富(fu)的內(nei)容(rong)請(qing)參(can)考(kao)原(yuan)文。

多模态指令微调 M-IT

指令（Instruction）指的是对任务的描述，多模态指令微调是一种通过指令格(ge)式的数據(ju)（Instruction-formatted data）来微调預(yu)訓(xun)練(lian)的MLLM的技术。

通过该技术，MLLM可以跟(gen)隨(sui)新的指令泛化(hua)到未(wei)見(jian)过的任务上，提(ti)升(sheng)zero-shot性能。多模态的指令格式如下所(suo)示：

图1.M-IT格式

多模态指令数据的基本形(xing)式可以概括为（指令，多模态输入，回(hui)答）三元組(zu)。指令的设计可以分(fen)为手(shou)工设计与GPT辅助设计这兩(liang)种方式。

前者(zhe)指的是人工为每(mei)种任务设计一系列指令模板(ban)，比如对于传统的视觉问答任务，指令可以设计为「<image> What is the answer to the question? {question}」，其中<image>和{question}（对应著(zhe)图1中的<text>）为原有视觉问答任务中的图像(xiang)和问題(ti)。

另(ling)一种GPT辅助设计的方式是通过手工设计少(shao)量(liang)樣(yang)例来Prompt GPT生(sheng)成更丰富的指令。

对于多模态指令微调，研究人员從(cong)数据、模态橋(qiao)接（Modality Bridging）和評(ping)測(ce)三个方面对现有工作进行了總(zong)結(jie)，如下图所示：

图2.M-IT总结

多模态上下文学习 M-ICL

多模态上下文学习指的是給(gei)定少量样例作为Prompt输入，激(ji)发模型潛(qian)在的能力并规範(fan)化模型的输出。其样例如下图所示：

图3.M-CoT样例

目前以Flamingo[2]为代表的M-ICL相关的研究工作還(hai)比较少。

LLM通常不(bu)需(xu)要專(zhuan)门的训练即可擁(yong)有ICL能力，但现階(jie)段(duan)的MLLM还比较依(yi)賴(lai)训练，并且(qie)仍(reng)缺(que)乏(fa)对样例選(xuan)擇(ze)和样例順(shun)序(xu)等方面的深入研究。

多模态思维链 M-CoT

多模态思维链通过显示地逐(zhu)步(bu)推理（给出中間(jian)的推理步驟(zhou)）来获得(de)多模态任务的答案(an)。相比于直(zhi)接输出答案，M-CoT在较为復(fu)雜(za)的推理任务上能夠(gou)取(qu)得更好的表现。

研究人员从模态桥接（Modality Bridging）、学习范式、思维链配(pei)置(zhi)以及生成模式这四(si)个方面总结了當(dang)前的研究：

图4. M-CoT总结

目前M-CoT的研究也(ye)较少，仍處(chu)在初(chu)步探索(suo)阶段。

LLM辅助的视觉推理 LAVR

这类工作利(li)用LLM强大的内嵌(qian)知识与能力以及其他(ta)工具，设计各种视觉推理系统。

相比于传统视觉推理模型，这些工作具有以下的好的特性:

（1）强大的零(ling)/少样本泛化能力

（2）具備(bei)新的能力，这些系统能够執(zhi)行更加复杂的任务，如解(jie)读梗(geng)图的深層(ceng)含(han)义

（3）更好的互動(dong)性与可控性

研究人员从训练范式、LLM扮(ban)演(yan)的角(jiao)色(se)以及评测三个部(bu)分总结了当前的进展：

图5.LAVR总结

挑战和未来方向(xiang)

目前来看(kan)，MLLM的发展还处于起(qi)步阶段，無(wu)论是相关技术还是具體(ti)应用都(dou)还存(cun)在着许多挑战与可研究的问题，可以总结为以下几点:

1. 现有MLLM的感知能力受限(xian)，导致(zhi)获取的视觉信息不完整(zheng)或者有誤(wu)，并进一步使得后續(xu)的推理出錯(cuo)。这可能是因为现有模型在信息容量和计算(suan)負(fu)擔(dan)之(zhi)间的妥(tuo)协造(zao)成的。

2. MLLM的推理链较为脆(cui)弱(ruo)。表现为即使是做简单的多模态推理问题，模型有时仍会因为推理链條(tiao)斷(duan)裂(lie)导致输出错误答案。

3. MLLM的指令服(fu)从能力需要进一步提升。表现为在进行指令微调后，即使是较为简单的指令，部分MLLM仍然(ran)无法(fa)输出预期(qi)的答案。

4. 物(wu)体幻(huan)视问题普(pu)遍(bian)存在。表现为MLLM输出的回复与图片的内容不相符，出现了编造物体等现象(xiang)，影(ying)響(xiang)了MLLM的可靠(kao)性。

5. 高(gao)效(xiao)参数训练。由于MLLM的模型容量很(hen)大，在计算資(zi)源(yuan)受限的条件(jian)下，高效参数训练有望能够解鎖(suo)更多MLLM的能力。

上述前四点问题在与本文同系列的论文（https://arxiv.org/pdf/2306.13394.pdf）中有非常詳(xiang)細(xi)的评测和讨论，歡(huan)迎(ying)大家(jia)閱(yue)读。

除(chu)了上述问题外，MLLM在具体的子(zi)方向上也都只进行了初步探索，比如M-ICL目前仍然缺乏对样本选取以及排(pai)序的深入研究。

参考资料(liao)：

[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023

[2] Alayrac, Jean-Baptiste and Donahue, Jeff and Luc, Pauline and Miech, Antoine and Barr, Iain and Hasson, Yana and Lenc, Karel and Mensch, Arthur and Millican, Katherine and Reynolds, Malcolm and others. Flamingo: a visual language model for few-shot learning. NeurIPS 2019返(fan)回搜(sou)狐(hu)，查(zha)看更多

責(ze)任编辑：