济南电视台少儿频道

济南电视台少儿频道:打造优质少儿节目

济南电视台少儿频道是山东省唯一一家全天24小时播出儿童节目的电视台,也是省内少儿节目制作的重要基地。在儿童节目市场中,济南电视台少儿频道一直扮演着重要的角色。

多元化节目形式

济南电视台少儿频道拥有多元化的节目形式,包括教育类、科普类、游戏类、动画类等多种类型。其中,教育类节目《科学一点通》、《小小主持人》、《小小讲解员》受到广大家长和学校的欢迎;科普类节目《梦想实验室》、《科学小博士》等节目深受孩子们喜爱;游戏类节目《小小大赢家》、《小小金主》等节目让孩子们在游戏中学习;动画类节目《嘟拉嘟拉猫》、《米老鼠与唐老鸭》等节目则是孩子们的最爱。

注重节目实效性

济南电视台少儿频道注重节目实效性,节目内容紧密贴合学校教育教学,力求让孩子们在观看节目的同时,收获更多的知识和技能。例如,《小小主持人》节目通过让孩子们学习主持技巧,提高他们的口才表现能力;《小小讲解员》节目通过让孩子们学习行业知识,提高他们的综合素质;《梦想实验室》节目通过让孩子们动手实验,提高他们的动手能力。

注重节目内涵

济南电视台少儿频道注重节目内涵,强调节目的育人功能。节目中不仅呈现了丰富、多彩的内容,还注重对孩子们的思想品德教育。例如,《小小讲解员》节目中,对孩子们进行网络安全、环保等方面的教育;《科学小博士》节目中,对孩子们进行科学道德的教育。

注重节目制作质量

济南电视台少儿频道注重节目制作质量,从选题、编写、制作、播出全方位把关,力求做到精益求精。在制作方面,节目中的每个细节都被认真考虑,从节目画面到音乐、文字、动画等方面都力求做到最好。因此,济南电视台少儿频道的节目在制作质量上一直保持着优秀的水平。

总结归纳

济南电视台少儿频道作为山东省唯一一家全天24小时播出儿童节目的电视台,一直致力于打造优质的少儿节目。其多元化的节目形式、注重节目实效性、注重节目内涵和注重节目制作质量等方面的努力,给广大孩子们带来了充满趣味和智慧的节目,并为山东省少儿节目的发展做出了积极的贡献。

济南电视台少儿频道将继续秉承“健康、快乐、智慧”的节目理念,不断创新,不断进步,为广大少儿观众奉献更多更好的节目。

济南电视台少儿频道特色

1、通过短视频,可以轻松了解很多民族文化活动,提升用户的知识面;

2、丰富精美的游戏画面,让人们在进行各种游戏挑战时不会出现审美疲劳!

3、个人混战:个人混战模式下,对除自己之外的所有玩家都能攻击

4、很多郊野公园式的房子都提供给喜欢的朋友。

5、暗黑高校下载

济南电视台少儿频道亮点

1、战争之路手游下载

2、用户在网上叫车时,可以准确地查到司机的车牌号和姓名电话。

3、至真仙境体验玄幻修仙韵味

4、精准低功耗计步,跑步轨迹心率步频配速等运动数据一目了然

5、数千款知名品牌精选,品牌特卖,超值好货;

tongguoduanshipin,keyiqingsonglejiehenduominzuwenhuahuodong,tishengyonghudezhishimian;fengfujingmeideyouxihuamian,rangrenmenzaijinxinggezhongyouxitiaozhanshibuhuichuxianshenmeipilao!gerenhunzhan:gerenhunzhanmoshixia,duichuzijizhiwaidesuoyouwanjiadounenggongjihenduojiaoyegongyuanshidefangzidoutigonggeixihuandepengyou。anheigaoxiaoxiazai放(fang)棄(qi)RLHF吧(ba)!無(wu)需(xu)手(shou)動(dong)訓(xun)練(lian)模(mo)型(xing)價(jia)值(zhi)觀(guan),達(da)特(te)茅(mao)斯(si)學(xue)院(yuan)華(hua)人(ren)領(ling)銜(xian)發(fa)布(bu)全(quan)新(xin)對(dui)齊(qi)算(suan)法(fa):「AI社(she)會(hui)」是(shi)最(zui)好(hao)的(de)老(lao)師(shi)

新智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji):LRS

【新智元導(dao)讀(du)】训练語(yu)言(yan)模型的最後(hou)壹(yi)站(zhan)是「AI構(gou)成(cheng)的社会」。

训练大(da)型语言模型的最后一步(bu)就(jiu)是「对齐」(alignment),以(yi)確(que)保(bao)模型的行(xing)為(wei)符(fu)合(he)既(ji)定(ding)的人類(lei)社会价值观。

相(xiang)比(bi)人类通(tong)過(guo)「社交(jiao)互(hu)动」獲(huo)得(de)价值判(pan)斷(duan)共(gong)識(shi),當(dang)下(xia)语言模型更(geng)多(duo)的是孤(gu)立(li)地(di)從(cong)训练语料(liao)庫(ku)中(zhong)学習(xi)价值观,导致(zhi)在(zai)陌(mo)生(sheng)環(huan)境(jing)中泛(fan)化(hua)性(xing)能(neng)很(hen)差(cha),容(rong)易(yi)受(shou)到(dao)对抗(kang)性攻(gong)擊(ji)。

最近(jin),來(lai)自(zi)达特茅斯学院、不(bu)列(lie)顛(dian)哥(ge)倫(lun)比亞(ya)大学、斯坦(tan)福(fu)大学、密(mi)歇(xie)根(gen)大学和(he)Google Deepmind聯(lian)合提(ti)出(chu)了(le)一種(zhong)全新的训练範(fan)式(shi),將(jiang)多個(ge)语言模型放入(ru)模擬(ni)的社会环境中,通过互动的方(fang)式学习价值观。

論(lun)文(wen)鏈(lian)接(jie):https://arxiv.org/abs/2305.16960

與(yu)現(xian)有(you)的方法相比,文中提出的新方法具(ju)有更高(gao)的可(ke)擴(kuo)展(zhan)性和效(xiao)率(lv),在对齐基(ji)準(zhun)和人类評(ping)估(gu)中表(biao)现出更好的性能,這(zhe)种训练范式的轉(zhuan)變(bian)也(ye)可以讓(rang)人工(gong)智能系(xi)統(tong)更准确地反(fan)映(ying)社会規(gui)范和价值观。

SANDBOX:模拟人类社会

不同(tong)於(yu)有監(jian)督(du)微(wei)調(tiao)(SFT)預(yu)定義(yi)规則(ze)的傳(chuan)统做(zuo)法,或(huo)是依(yi)賴(lai)基于人类反饋(kui)強(qiang)化学习(RLHF)中的標(biao)量(liang)獎(jiang)勵(li),研(yan)究(jiu)人員(yuan)从人类学习駕(jia)馭(yu)社会规范的方式中获得靈(ling)感(gan),模拟人类經(jing)驗(yan)学习和叠(die)代(dai)完(wan)善(shan)的过程(cheng)。

SANDBOX是一个模拟人类社会的学习环境,在这个环境中,基于语言模型(LM)的社会智能體(ti)可以模仿(fang)人类進(jin)行互动和学习社会规范,通过煽(shan)动对有爭(zheng)議(yi)的社会話(hua)題(ti)或与風(feng)險(xian)有關(guan)的問(wen)题的討(tao)论来促(cu)进社会规范的湧(yong)现。

同時(shi),系统中還(hai)引(yin)入了一个潛(qian)规则,作(zuo)为智能体的激(ji)励来完善輸(shu)出,可以促进对齐改(gai)善(improved alignment)和印(yin)象(xiang)管(guan)理(li)(impression management)。

雖(sui)然(ran)论文的研究重(zhong)點(dian)是社会对齐,但(dan)該(gai)规则可以適(shi)應(ying)于不同的場(chang)景(jing)需求(qiu)。

SANDBOX包(bao)含(han)一个三(san)層(ceng)方法Back-Scatter,可以模拟智能体之(zhi)間(jian)的社会互动。

在收(shou)到一个社会问题后,中心(xin)智能体会生成一个初(chu)步的回(hui)復(fu),然后与附(fu)近的智能体分(fen)享(xiang)以获得反馈,其(qi)中反馈包括(kuo)评分和詳(xiang)細(xi)的解(jie)釋(shi),可以幫(bang)助(zhu)中心智能体对初步回复进行修(xiu)訂(ding)。

每(mei)个智能体都(dou)包括一个記(ji)憶(yi)模塊(kuai)来追(zhui)蹤(zong)回复歷(li)史(shi):采(cai)用(yong)基于嵌(qian)入的语义搜(sou)索(suo),从历史中檢(jian)索相关的问题-答(da)案(an)(QA)对,为智能体提供(gong)一个促进与过去(qu)意(yi)見(jian)一致的背(bei)景信(xin)息(xi)。

除(chu)了社会智能体外(wai),系统中还包括沒(mei)有记忆的观察(cha)者(zhe)智能体,其任(ren)務(wu)就是对回复的一致性和參(can)与度(du)进行评級(ji)。

SANDBOX可以輔(fu)助模拟各(ge)种语言模型的社会动態(tai),监測(ce)观察者的评分,並(bing)对收集(ji)的數(shu)據(ju)进行事(shi)后分析(xi)。

对不同语言模型模拟后进行对齐分析可以发现,虽然較(jiao)大的模型通常(chang)表现出更好的一致性和参与度,但也有令(ling)人驚(jing)訝(ya)的結(jie)果(guo):盡(jin)管模型大小(xiao)增(zeng)加(jia)了20倍(bei),但从68億(yi)到1750亿参数量GPT-3模型的过渡(du)中,并没有帶(dai)来明(ming)顯(xian)的改善。

这一结果也表明了兩(liang)个关鍵(jian)的结论:

1. 單(dan)純(chun)的模型扩展并不能保證(zheng)对齐效果的改善

2. 非(fei)常小的模型也能提供令人滿(man)意的对齐性能

对没有对齐和有对齐训练模型的对比结果表明,对齐训练主(zhu)要(yao)增强了模型以较少(shao)的交互實(shi)现较高对齐度的能力(li),在现实世(shi)界(jie)的应用中也是至(zhi)关重要的考(kao)慮(lv)因(yin)素(su),因为用戶(hu)期(qi)望(wang)立即(ji)得到社会性的对齐反应,而(er)不需要通过交互引导模型。

總(zong)之,SANDBOX平(ping)臺(tai)能夠(gou)对社会互动进行建(jian)模,不僅(jin)促进了社会对齐语言模型的发展,而且(qie)也是研究AI智能体行为模式的一个多功(gong)能环境。

穩(wen)定对齐(Stable Alignment)

稳定对齐利(li)用评分来调整(zheng)每个mini-batch数据中对負(fu)面(mian)樣(yang)本(ben)的懲(cheng)罰(fa),除了性能優(you)于现有方法外,在資(zi)源(yuan)有限(xian)的环境中还有易部(bu)署(shu)的优勢(shi)。

相比OpenAI使(shi)用的RLHF機(ji)制(zhi),稳定对齐不需要額(e)外的奖励模型就可以在训练期间提供近似(si)的有监督信號(hao)。

数据准備(bei)

对齐数据由(you)「好问题」和「壞(huai)问题」的示(shi)例(li)組(zu)成,不过在互动环境SANDBOX中生成的数据比较特別(bie),包含了对比对(comparative pairs)、集体评分(collective ratings)、细節(jie)反馈(detailed feedback)以及(ji)迭代的回复修订(iterative response revisions)。

按(an)照(zhao)Alpaca模型的要求,研究人员将数据组織(zhi)成指(zhi)令-输入-输出(Instruction-Input-Output)三部分,并添(tian)加必(bi)要的修改以适应SANDBOX的互动记錄(lu)。

研究人员使用了一种新的样本类型,叫(jiao)做重对齐(realignment),其中指令包括问题、低(di)评分的回复草(cao)稿(gao)和修改后觸(chu)发提示(如(ru)Please revise this response to improve its feedback compared to the input.);

输入为同等(deng)模型的反馈(peer feedback),输出为修改后的回复。

研究人员发现,納(na)入重对齐风格(ge)的数据可以有效地改善模型对抗「越(yue)獄(yu)提示」(jailbreaking prompting),即用户利用各种上(shang)下文視(shi)圖(tu)繞(rao)过保護(hu)措(cuo)施(shi),誘(you)导模型做出惡(e)意行为。

最終(zhong)从模拟的相互交流(liu)中构建了16.9萬(wan)个对齐数据样本。

稳定对齐算法

算法的核(he)心部分中,稳定对齐起(qi)到对比学习过程的作用,奖励高评分的回复,并对低评分的回复进行惩罚。

不过与传统方法不同的是:

1. 对比信号来自于同一mini-batch中的低评分回复,而非孿(luan)生網(wang)絡(luo)或shifted embedding,需要SANDBOX中记录数据的互动性才(cai)能使对比学习更有效地发揮(hui)作用。

2. 与hinge損(sun)失(shi)或triplet损失中通常采用的固(gu)定差值相比,稳定对齐算法在每个小batch中根据评分的不同动态调节差值。

具体来說(shuo),SFT损失和来自低评分回复损失之间的差值与離(li)最高评分回复之间的距(ju)离有关,并且是成比例地增加,这就意味(wei)著(zhe)模型必須(xu)更加努(nu)力地避(bi)免(mian)从低评分回复中学习,同时从最高评分的回复中学习。

实验部分

研究人员对训练后的模型进行了全面的评估,主要检查(zha)模型在传统的对齐基准和受到对抗性攻击评估中的表现。

实验中构建了三个不同的虛(xu)拟社会,每个社会都有100个智能体,排(pai)列在一个10x10的网格世界中,按照Back-Scatter協(xie)议进行互动。

三个社会使用三种不同的语言模型(LM)来模拟人类互动:text-davinci-002(175B)、text-davinci-003(175B)和GPT-4(大小未(wei)知(zhi));采用ChatGPT(gpt-3.5-turbo)作为观察者,但没有记忆功能。

有争议的社会问题库包括9,662个问题组成,主要来自Anthropic发布的HH-RLHF数据集。

对比的基准数据集有三个:

1. Vicuna Test,评估有用性、相关性和准确性,代表了对通用聊(liao)天(tian)机器(qi)人的要求

2. Helpful, Honest, and Harmless(HHH)基准,通过有争议的社会问题评估社会对齐效果;

3. HHH-Adversarial,用HHH基准的测試(shi)集模仿对抗性攻击(越狱提示),在相应的问题后附加不一致的回答,并评估模型是否(fou)仍(reng)能以社会一致性的方式回答问题。

对于所(suo)有的评价,遵(zun)循(xun)Vicuna的评价协议,使用GPT-4作为裁(cai)判,并修改评价提示,以便(bian)能够对多个候(hou)選(xuan)者进行比较。

从实验结果中可以发现:

1. 指令调整有助于使基礎(chu)模型有效地處(chu)理「請(qing)求-完成」(request-completion)任务,在对齐基准中很常见。

LLaMA的回答通常更冗(rong)長(chang),并且有时与问题无关,不过在经历通用指令调整后,Alpaca在Vicuna测试和HHH对齐基准中表现出明显的改进,评分分别从4.44提高到6.04和4.51提高到5.53

2. 虽然SFT对对齐任务表现出很大的优势,但单靠(kao)SFT并不能增强模型对对抗性攻击的稳健(jian)性。

当比较SFT训练前(qian)(Alpaca)和训练后(Alpaca + HHH-SFT)的模型时,尽管Vicuna测试和HHH的对齐性能有所提高,但可以註(zhu)意到HHH-Adversarial性能下降(jiang)非常多,表明加强对对齐反应的记忆并不一定使模型具备抵(di)抗越狱提示的能力。

稳定对齐可以进一步优化对齐的潜力,并且不会明显降低模型的通用能力。

可以看(kan)到,经过对齐训练(即TRLX、Chain-of-Hindsight、RRHF和稳定对齐)后,所有模型在价值对齐基准(HHH和HHH-adversarial)中表现出更强的性能,但只(zhi)有RRHF和稳定对齐提高了通用功能(即在Vicuna测试中,RRHF取(qu)得了6.81分,稳定对齐取得了7.40分--都超(chao)过了SFT的基線(xian)6.32分),表明稳定对齐在提升(sheng)对齐能力的同时保留(liu)了通用能力。

参考资料:

https://huggingface.co/papers/2305.16960返(fan)回搜狐(hu),查看更多

責(ze)任编辑:

发布于:甘肃兰州榆中县