山西卫视歌从黄河来

歌从黄河来，传承中华文化

《歌从黄河来》是一档以歌曲为主线的文化探索节目，该节目以山西卫视为主播平台，通过不同地域的音乐人，歌手，音乐爱好者等人物的演唱，来全面展现中华文化的博大精深。歌曲是中华文化的瑰宝之一，也是中华民族的精神象征。因此，《歌从黄河来》的播出不仅仅是一次音乐盛宴，更是一次对中华文化的弘扬和传承。

唱响黄河流域的声音，传递生态文明理念

黄河是中华民族的母亲河，其流域自古以来就是中华文化的发源地之一。因此，《歌从黄河来》作为一档以黄河流域为主题的音乐节目，其主要宣传理念就是生态文明。在歌曲演唱的间隙，主持人还会通过采访的方式，介绍黄河流域的自然环境，文化景观等等。通过这种方式，把音乐和文化融为一体，传递人们保护生态环境和文化遗产的重要性。

寻找黄河流域的音乐灵魂，探究文化的历史底蕴

一首歌曲蕴藏着丰富的文化信息，因此，为了更好地展现中华文化中的音乐元素，《歌从黄河来》在选歌方面也下足了功夫。该节目在全国各地寻找表现出黄河流域特色的音乐人和歌手，他们的音乐作品不仅独具地域特色，还能够体现出中华文化的历史底蕴。比如，有些歌曲虽然旋律简单，但是通过歌词的深度解析，可以了解到中华文化中的某些传统价值观念。这样的创新选歌方式，是《歌从黄河来》节目的一大亮点。

打破地域限制，展现多元文化的美好

中华文化是一个多元化的文化体系，因此，《歌从黄河来》也不仅仅关注黄河流域的音乐文化。该节目还通过邀请不同地域的音乐人和歌手，展现出丰富多彩的中华文化。比如，在某一期节目中，节目组邀请了来自云南的少数民族歌手，她们用特殊的音乐方式，展现了中国的少数民族文化。这样的跨区域合作，不仅拓展了节目的影响范围，也为中华文化的多元发展贡献了一份力量。

总结归纳：

《歌从黄河来》是一档以歌曲为主线的文化探索节目，通过不同地域的音乐人，歌手，音乐爱好者等人物的演唱，来全面展现中华文化的博大精深。该节目以黄河流域为主题，通过采访和歌曲演唱等方式，传递生态文明理念，展现多元文化的美好。同时，该节目还通过创新选歌的方式，寻找黄河流域的音乐灵魂，探究文化的历史底蕴。通过这些方式，《歌从黄河来》不仅仅是一次音乐盛宴，更是一次对中华文化的弘扬和传承。

山西卫视歌从黄河来特色

1、【野外PK,一剑在手,天下我有!】

2、满足用户的需求，给用户的生活带来便利，在线学习烹饪非常容易。

3、有趣好玩的制作过程

4、下载我是谜手机版，签到送好礼，多签多得福利！

5、史诗般的超大野外地图，最多可容纳000万人，每一章节都不重样。

山西卫视歌从黄河来亮点

1、实时语音全服混浴趣味护送美女等多样亲密社交玩法，给您与众不同的乱世仙侠体验！

2、高效无缝拼接无损压缩分块拼接;

3、激发魔怪的冲击力，一次性越过多层，直接撞穿到塔底吧！

4、该平台还设立了一个小型的喝茶教室，告诉用户各种安全问题。

5、各类不同风险的冒险任务等你挑战；

【yewaiPK,yijianzaishou,tianxiawoyou!】manzuyonghudexuqiu，geiyonghudeshenghuodailaibianli，zaixianxuexipengrenfeichangrongyi。youquhaowandezhizuoguochengxiazaiwoshimishoujiban，qiandaosonghaoli，duoqianduodefuli！shishibandechaodayewaiditu，zuiduokerongna000wanren，meiyizhangjiedoubuzhongyang。GitHub斬(zhan)獲(huo)2.2k星(xing)！多(duo)模(mo)態(tai)大(da)語(yu)言(yan)模型(xing)首(shou)篇(pian)綜(zong)述(shu)，論(lun)文(wen)列(lie)表(biao)實(shi)時(shi)更(geng)新(xin)

新智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：LRS

【新智元導(dao)讀(du)】壹(yi)篇综述、一個(ge)倉(cang)庫(ku)，速(su)通(tong)多模态大语言模型。

近(jin)來(lai)，多模态大语言模型（Multimodal Large Language Model，MLLM）受(shou)到(dao)廣(guang)泛(fan)關(guan)註(zhu)，成(cheng)為(wei)一个新興(xing)的(de)研(yan)究(jiu)熱(re)點(dian)。

MLLM通常(chang)以(yi)大语言模型（Large Language Model，LLM）为基(ji)礎(chu)，融(rong)入(ru)其(qi)它(ta)非(fei)文本(ben)的模态信(xin)息(xi)，完(wan)成各(ge)種(zhong)多模态任(ren)務(wu)。

相(xiang)比(bi)於(yu)常規(gui)的多模态模型，MLLM湧(yong)現(xian)出(chu)一些(xie)令(ling)人(ren)驚(jing)嘆(tan)的新能(neng)力(li)，例(li)如(ru)基于圖(tu)片(pian)進(jin)行(xing)詩(shi)文創(chuang)作(zuo)和(he)OCR-Free的數(shu)學(xue)推(tui)理(li)等(deng)。這(zhe)些強(qiang)大的能力顯(xian)示(shi)MLLM有(you)望(wang)成为实现通用(yong)人工(gong)智能的一种途(tu)徑(jing)。

为此(ci)，来自(zi)中(zhong)科(ke)大、騰(teng)訊(xun)等機(ji)構(gou)的研究人員(yuan)深(shen)入探(tan)討(tao)了(le)MLLM的研究进展(zhan)並(bing)發(fa)表了該(gai)領(ling)域(yu)的首篇综述《A Survey on Multimodal Large Language Models》：

论文鏈(lian)接(jie)：https://arxiv.org/pdf/2306.13549.pdf

項(xiang)目(mu)链接（实时更新最(zui)新论文）：https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

研究人员將(jiang)MLLM定(ding)義(yi)为「由(you)LLM擴(kuo)展而(er)来的具(ju)有接收(shou)與(yu)推理多模态信息能力的模型」，该類(lei)模型相較(jiao)于热門(men)的單(dan)模态LLM具有以下(xia)的優(you)勢(shi):

1. 更符(fu)合(he)人类認(ren)知(zhi)世(shi)界(jie)的習(xi)慣(guan)。人类具有多种感(gan)官(guan)来接受多种模态信息，这些信息通常是(shi)互(hu)为補(bu)充(chong)、協(xie)同(tong)作用的。因(yin)此，使(shi)用多模态信息一般(ban)可(ke)以更好(hao)地(di)认知与完成任务。

2. 更加(jia)强大与用戶(hu)友(you)好的接口(kou)。通過(guo)支(zhi)持(chi)多模态輸(shu)入，用户可以通过更加靈(ling)活(huo)的方(fang)式(shi)输入与傳(chuan)達(da)信息。

3. 更广泛的任务支持。LLM通常只(zhi)能完成純(chun)文本相关的任务，而MLLM通过多模态可以額(e)外(wai)完成更多任务，如图片描(miao)述和視(shi)覺(jiao)知識(shi)問(wen)答(da)等。

该综述主(zhu)要(yao)圍(wei)繞(rao)MLLM的三(san)个关鍵(jian)技(ji)術(shu)以及(ji)一个應(ying)用展開(kai)，包(bao)括(kuo):

1. 多模态指(zhi)令微(wei)調(tiao)(Multimodal Instruction Tuning，M-IT)

2. 多模态上(shang)下文学习(Multimodal In-Context Learning，M-ICL)

3. 多模态思(si)維(wei)链(Multimodal Chain of Thought，M-CoT)

4. LLM輔(fu)助(zhu)的视觉推理(LLM-Aided Visual Reasoning，LAVR)

前(qian)三项技术构成了MLLM的基础，而最後(hou)一个是以LLM为核(he)心(xin)的多模态系(xi)統(tong)。

三项技术作为LLM的代(dai)表性(xing)能力在(zai)NLP领域已(yi)有广泛研究，但(dan)扩展到多模态领域时會(hui)出现許(xu)多新的特(te)点与挑(tiao)戰(zhan)。

LLM辅助的视觉推理系统涉(she)及幾(ji)种典(dian)型的設(she)計(ji)思路(lu)，即(ji)将LLM作为控(kong)制(zhi)器(qi)、決(jue)策(ce)器或(huo)语义修(xiu)飾(shi)器。

CVPR 2023最佳(jia)论文Visual Programming [1]即采(cai)用了将LLM作为控制器的设计思路。本文将對(dui)前述的几个方面(mian)以及相关挑战做(zuo)簡(jian)单的概(gai)覽(lan)，更豐(feng)富(fu)的內(nei)容(rong)請(qing)參(can)考(kao)原(yuan)文。

多模态指令微调 M-IT

指令（Instruction）指的是对任务的描述，多模态指令微调是一种通过指令格(ge)式的数據(ju)（Instruction-formatted data）来微调預(yu)訓(xun)練(lian)的MLLM的技术。

通过该技术，MLLM可以跟(gen)隨(sui)新的指令泛化(hua)到未(wei)見(jian)过的任务上，提(ti)升(sheng)zero-shot性能。多模态的指令格式如下所(suo)示：

图1.M-IT格式

多模态指令数据的基本形(xing)式可以概括为（指令，多模态输入，回(hui)答）三元組(zu)。指令的设计可以分(fen)为手(shou)工设计与GPT辅助设计这兩(liang)种方式。

前者(zhe)指的是人工为每(mei)种任务设计一系列指令模板(ban)，比如对于传统的视觉问答任务，指令可以设计为「<image> What is the answer to the question? {question}」，其中<image>和{question}（对应著(zhe)图1中的<text>）为原有视觉问答任务中的图像(xiang)和问題(ti)。

另(ling)一种GPT辅助设计的方式是通过手工设计少(shao)量(liang)樣(yang)例来Prompt GPT生(sheng)成更丰富的指令。

对于多模态指令微调，研究人员從(cong)数据、模态橋(qiao)接（Modality Bridging）和評(ping)測(ce)三个方面对现有工作进行了總(zong)結(jie)，如下图所示：

图2.M-IT总结

多模态上下文学习 M-ICL

多模态上下文学习指的是給(gei)定少量样例作为Prompt输入，激(ji)发模型潛(qian)在的能力并规範(fan)化模型的输出。其样例如下图所示：

图3.M-CoT样例

目前以Flamingo[2]为代表的M-ICL相关的研究工作還(hai)比较少。

LLM通常不(bu)需(xu)要專(zhuan)门的训练即可擁(yong)有ICL能力，但现階(jie)段(duan)的MLLM还比较依(yi)賴(lai)训练，并且(qie)仍(reng)缺(que)乏(fa)对样例選(xuan)擇(ze)和样例順(shun)序(xu)等方面的深入研究。

多模态思维链 M-CoT

多模态思维链通过显示地逐(zhu)步(bu)推理（给出中間(jian)的推理步驟(zhou)）来获得(de)多模态任务的答案(an)。相比于直(zhi)接输出答案，M-CoT在较为復(fu)雜(za)的推理任务上能夠(gou)取(qu)得更好的表现。

研究人员从模态桥接（Modality Bridging）、学习范式、思维链配(pei)置(zhi)以及生成模式这四(si)个方面总结了當(dang)前的研究：

图4. M-CoT总结

目前M-CoT的研究也(ye)较少，仍處(chu)在初(chu)步探索(suo)阶段。

LLM辅助的视觉推理 LAVR

这类工作利(li)用LLM强大的内嵌(qian)知识与能力以及其他(ta)工具，设计各种视觉推理系统。

相比于传统视觉推理模型，这些工作具有以下的好的特性:

（1）强大的零(ling)/少样本泛化能力

（2）具備(bei)新的能力，这些系统能够執(zhi)行更加复杂的任务，如解(jie)读梗(geng)图的深層(ceng)含(han)义

（3）更好的互動(dong)性与可控性

研究人员从训练范式、LLM扮(ban)演(yan)的角(jiao)色(se)以及评测三个部(bu)分总结了当前的进展：

图5.LAVR总结

挑战和未来方向(xiang)

目前来看(kan)，MLLM的发展还处于起(qi)步阶段，無(wu)论是相关技术还是具體(ti)应用都(dou)还存(cun)在着许多挑战与可研究的问题，可以总结为以下几点:

1. 现有MLLM的感知能力受限(xian)，导致(zhi)获取的视觉信息不完整(zheng)或者有誤(wu)，并进一步使得后續(xu)的推理出錯(cuo)。这可能是因为现有模型在信息容量和计算(suan)負(fu)擔(dan)之(zhi)间的妥(tuo)协造(zao)成的。

2. MLLM的推理链较为脆(cui)弱(ruo)。表现为即使是做简单的多模态推理问题，模型有时仍会因为推理链條(tiao)斷(duan)裂(lie)导致输出错误答案。

3. MLLM的指令服(fu)从能力需要进一步提升。表现为在进行指令微调后，即使是较为简单的指令，部分MLLM仍然(ran)无法(fa)输出预期(qi)的答案。

4. 物(wu)体幻(huan)视问题普(pu)遍(bian)存在。表现为MLLM输出的回复与图片的内容不相符，出现了编造物体等现象(xiang)，影(ying)響(xiang)了MLLM的可靠(kao)性。

5. 高(gao)效(xiao)参数训练。由于MLLM的模型容量很(hen)大，在计算資(zi)源(yuan)受限的条件(jian)下，高效参数训练有望能够解鎖(suo)更多MLLM的能力。

上述前四点问题在与本文同系列的论文（https://arxiv.org/pdf/2306.13394.pdf）中有非常詳(xiang)細(xi)的评测和讨论，歡(huan)迎(ying)大家(jia)閱(yue)读。

除(chu)了上述问题外，MLLM在具体的子(zi)方向上也都只进行了初步探索，比如M-ICL目前仍然缺乏对样本选取以及排(pai)序的深入研究。

参考资料(liao)：

[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023

[2] Alayrac, Jean-Baptiste and Donahue, Jeff and Luc, Pauline and Miech, Antoine and Barr, Iain and Hasson, Yana and Lenc, Karel and Mensch, Arthur and Millican, Katherine and Reynolds, Malcolm and others. Flamingo: a visual language model for few-shot learning. NeurIPS 2019返(fan)回搜(sou)狐(hu)，查(zha)看更多

責(ze)任编辑：