大连文体频道在线直播

大连文体频道在线直播：让你无缝接触全方位文化体育精彩

大连文体频道在线直播是大连本地的一个重要文化体育平台，它将大连本地的文化体育活动呈现在大众面前，让广大观众能够随时随地感受各类文化体育活动的魅力。下面就让我们一起来了解一下大连文体频道在线直播的优势和特点。

全天候、全方位的直播服务

大连文体频道在线直播覆盖大连市内各大文化体育场馆、文化中心、博物馆等文化场所以及各大体育场馆、健身房等体育场所，实现全天候、全方位的直播服务。无论你身在何处，只要有网络，就能随时随地收看大连本地的文化体育活动。这不仅为大连市民提供了便利，也让外地观众可以更加深入地了解大连文化体育。

丰富多彩的文化体育活动

大连文体频道在线直播每天都会推出各类文化体育活动，涵盖文艺演出、体育赛事、文化讲座、展览展示等各个领域。观众可以在家中轻松欣赏到大连市内各大文化体育场馆的演出、比赛等，还能通过大连文体频道在线直播了解到一些鲜为人知的文化体育活动。

高清流畅的直播画面

大连文体频道在线直播采用高清摄影设备和专业的直播技术，保证了直播画面的清晰度和流畅度。观众可以通过电脑、手机、平板等设备观看直播，不管在哪里都能享受到高质量的观看体验。

互动性强的观看体验

大连文体频道在线直播不仅提供高清流畅的直播画面，还支持观众与主持人、嘉宾互动，观众可以通过弹幕等互动方式表达自己的看法和观点，让观看变得更加有趣和有价值。

总结归纳

大连文体频道在线直播是一个全方位的文化体育平台，它通过高清流畅的直播画面和互动性强的观看体验，让观众无缝接触到大连本地的各种文化体育精彩。无论是身在何处的大连市民，还是对大连文化体育感兴趣的外地观众，都可以在大连文体频道在线直播中找到自己感兴趣的内容，享受到高质量的观看体验。希望大连文体频道在线直播能够不断推出更多更好的文化体育活动，为广大观众带来更多的欢乐和收获。

大连文体频道在线直播随机日志

录播视频教学和互动手游结合，上课界面简单易操作，没有看懂的地方还可以一键重播。兴趣类课程的学习过程，既可以由妈妈陪同，也可以由宝宝自主进行。

1、“网址导航”标签页中包含一些上海市政服务网站的链接图标。点击其中任意一个图标后，将询问用户是打开网页还是收藏该网址。

2、接下来我们点击图形设置界面的“下载该区域地图”选项，进入到下载地图的界面，这里我们需要设置地图的类型、级别等，设置完成后再点击“开始下载”。

3、支持外接设备（可以外接高拍仪，摄像头，摄像机等设备）

4、在弹出的框里输入netshwinsockreset，回车确认后重启电脑即可。

5、优化漫画打包器功能,修正一些隐性BUG

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>100:87：GPT-4心(xin)智(zhi)碾(nian)壓(ya)人(ren)類(lei)！三(san)大(da)GPT-3.5變(bian)種(zhong)難(nan)敵(di)

文(wen)章(zhang)來(lai)源(yuan)：新(xin)智元(yuan)

編(bian)輯(ji)：Aeneas 好(hao)困(kun)

最(zui)新研(yan)究(jiu)結(jie)果(guo)表(biao)明(ming)，AI在(zai)心智理(li)論(lun)測(ce)試(shi)中(zhong)的(de)表現(xian)已(yi)經(jing)優(you)於(yu)真(zhen)人。GPT-4在推(tui)理基(ji)準(zhun)测试中准確(que)率(lv)可(ke)高(gao)達(da)100%，而(er)人类僅(jin)為(wei)87%。

GPT-4的心智理论，已经超(chao)越(yue)了(le)人类！

最近(jin)，約(yue)翰(han)斯(si)·霍(huo)普(pu)金(jin)斯大學(xue)的專(zhuan)家(jia)發(fa)现，GPT-4可以(yi)利(li)用(yong)思(si)維(wei)鏈(lian)推理和(he)逐(zhu)步(bu)思考(kao)，大大提(ti)升(sheng)了自(zi)己(ji)的心智理论性(xing)能(neng)。

论文地(di)址(zhi)：https://arxiv.org/abs/2304.11490

在壹(yi)些(xie)测试中，人类的水(shui)平(ping)大概(gai)是(shi)87%，而GPT-4，已经达到(dao)了天(tian)花(hua)板(ban)級(ji)別(bie)的100%！

此(ci)外(wai)，在適(shi)當(dang)的提示(shi)下(xia)，所(suo)有(you)经過(guo)RLHF訓(xun)練(lian)的模(mo)型(xing)都(dou)可以實(shi)现超过80%的准确率。

讓(rang)AI学會(hui)心智理论推理

我(wo)們(men)都知(zhi)道(dao)，關(guan)于日(ri)常(chang)生(sheng)活(huo)場(chang)景(jing)的問(wen)題(ti)，很(hen)多(duo)大語(yu)言(yan)模型並(bing)不(bu)是很擅(shan)長(chang)。

Meta首(shou)席(xi)AI科(ke)学家、圖(tu)靈(ling)獎(jiang)得(de)主(zhu)LeCun曾(zeng)斷(duan)言：「在通(tong)往(wang)人类级别AI的道路(lu)上(shang)，大型语言模型就(jiu)是一條(tiao)歪(wai)路。要(yao)知道，連(lian)一只(zhi)寵(chong)物(wu)貓(mao)、宠物狗(gou)都比(bi)任(ren)何(he)LLM有更(geng)多的常識(shi)，以及(ji)對(dui)世(shi)界(jie)的理解(jie)。」

也(ye)有学者(zhe)認(ren)为，人类是隨(sui)著(zhu)(zhe)身(shen)體(ti)進(jin)化(hua)而来的生物实体，需(xu)要在物理和社(she)会世界中運(yun)作(zuo)以完(wan)成(cheng)任務(wu)。而GPT-3、GPT-4、Bard、Chinchilla和LLaMA等(deng)大语言模型都沒(mei)有身体。

所以除(chu)非(fei)它(ta)们长出(chu)人类的身体和感(gan)官(guan)，有着人类的目(mu)的的生活方(fang)式(shi)。否(fou)則(ze)它们根(gen)本(ben)不会像(xiang)人类那(na)樣(yang)理解语言。

總(zong)之(zhi)，雖(sui)然(ran)大语言模型在很多任务中的优秀(xiu)表现令(ling)人驚(jing)嘆(tan)，但(dan)需要推理的任务，对它们来說(shuo)仍(reng)然很困难。

而尤(you)其(qi)困难的，就是一种心智理论（ToM）推理。

为什(shen)麽(me)ToM推理這(zhe)么困难呢(ne)？

因(yin)为在ToM任务中，LLM需要基于不可觀(guan)察(cha)的信(xin)息(xi)（比如(ru)他(ta)人的隱(yin)藏(zang)心理狀(zhuang)態(tai)）进行(xing)推理，这些信息都是需要從(cong)上下文推断出的，并不能从表面(mian)的文本解析(xi)出来。

但是，对LLM来说，可靠(kao)地執(zhi)行ToM推理的能力(li)又(you)很重(zhong)要。因为ToM是社会理解的基礎(chu)，只有具(ju)有ToM能力，人们才(cai)能參(can)與(yu)復(fu)雜(za)的社会交(jiao)流(liu)，并預(yu)测他人的行動(dong)或(huo)反(fan)應(ying)。

如果AI学不会社会理解、get不到人类社会交往的种种規(gui)则，也就無(wu)法(fa)为人类更好地工(gong)作，在各(ge)种需要推理的任务中为人类提供(gong)有價(jia)值(zhi)的見(jian)解。

怎(zen)么辦(ban)呢？

专家发现，通过一种「上下文学習(xi)」，就能大大增(zeng)強(qiang)LLM的推理能力。

对于大于100B参數(shu)的语言模型来说，只要輸(shu)入(ru)特(te)定(ding)的few-shot任务演(yan)示，模型性能就顯(xian)著增强了。

另(ling)外，即(ji)使(shi)在没有演示的情(qing)況(kuang)下，只要指(zhi)示模型一步步思考，也会增强它们的推理性能。

为什么这些prompt技(ji)術(shu)这么管(guan)用？目前(qian)還(hai)没有一個(ge)理论能夠(gou)解釋(shi)。

大语言模型参賽(sai)選(xuan)手(shou)

基于这个背(bei)景，约翰斯·霍普金斯大学的学者評(ping)估(gu)了一些语言模型在ToM任务的表现，并且(qie)探(tan)索(suo)了它们的表现是否可以通过逐步思考、few-shot学习和思维链推理等方法来提高。

参赛选手分(fen)别是来自OpenAI家族(zu)最新的四(si)个GPT模型——GPT-4以及GPT-3.5的三个变体，Davinci-2、Davinci-3和GPT-3.5-Turbo。

· Davinci-2（API名(ming)稱(cheng)：text-davinci-002）是在人类寫(xie)的演示上进行監(jian)督(du)微(wei)調(tiao)训练的。

· Davinci-3（API名称：text-davinci-003）是Davinci-2的升级版(ban)，它使用近似(si)策(ce)略(lve)优化的人类反饋(kui)强化学习（RLHF）进一步训练。

· GPT-3.5-Turbo（ChatGPT的原(yuan)始(shi)版本），在人写的演示和RLHF上都进行了微调训练，然後(hou)为对話(hua)进一步优化。

· GPT-4是截(jie)至(zhi)2023年(nian)4月(yue)的最新GPT模型。关于GPT-4的规模和训练方法的細(xi)節(jie)很少(shao)公(gong)布(bu)，然而，它似乎(hu)经歷(li)了更密(mi)集(ji)的RLHF训练，因此与人类意(yi)图更加(jia)一致(zhi)。

实驗(yan)設(she)計(ji)：人类与模型大OK

如何考察这些模型呢？研究者设计了兩(liang)个场景，一个是控(kong)制(zhi)场景，一个是ToM场景。

控制场景指的是一个没有任何agent的场景，可以把(ba)它称为「Photo场景」。

而ToM场景，描(miao)述(shu)了参与某(mou)种情况的人的心理状态。

这些场景的问题，在难度(du)上幾(ji)乎一样。

人类

首先(xian)接(jie)受(shou)挑(tiao)戰(zhan)的，是人类。

对于每(mei)个场景，人类参与者都有18秒(miao)的時(shi)間(jian)。

随后，在一个新的屏(ping)幕(mu)上会出现一个问题，人类参与者通过點(dian)擊(ji)「是」或「否」来回(hui)答(da)。

实验中，Photo和ToM场景是混(hun)合(he)的，并以随機(ji)順(shun)序(xu)呈(cheng)现。

舉(ju)个例(li)子(zi)，Photo场景的问题如下——

情景：「一張(zhang)地图显示了一樓(lou)的平面图。昨(zuo)天給(gei)建(jian)築(zhu)師(shi)发了一份(fen)复印(yin)件(jian)，但当时廚(chu)房(fang)的門(men)被(bei)遺(yi)漏(lou)了。今(jin)天早(zao)上，厨房门才被添(tian)加到地图上。」

问题：建筑师的复印件上是否显示了厨房的门？

ToM场景的问题如下——

情景：「高中舞(wu)会那天早上，Sarah把她(ta)的高跟(gen)鞋(xie)放(fang)在裙(qun)子下面，然后就去(qu)購(gou)物了。那天下午(wu)，她的姐(jie)姐借(jie)走(zou)了这雙(shuang)鞋，后来把它们放在了Sarah的床(chuang)下。」

问题：当Sarah回来后，她会认为她的鞋子在裙子下面嗎(ma)？

测试结果是，人类在Photo场景的准确率为（86%±4%），ToM场景的准确率为（87%±4%）。

LLM

因为LLM是个概率模型，因此研究者对每个模型prompt了20次(ci)。

问题有16个场景，每个重复20次，因此LLM总共(gong)会被问320个问题。怎么定義(yi)准确率呢？就是看(kan)正(zheng)确答案(an)占(zhan)320个问题的比例。

对于高中舞会的问题，如果LLM做(zuo)出如下回答，都算(suan)作正确。

示例 1：Sarah去购物前把鞋子放在裙子下面，但她姐姐借了鞋子后放在了Sarah的床底(di)下。Sarah不知道她姐姐借了她的鞋子，所以她可能会认为鞋子还在她的衣(yi)服(fu)下面。

示例 2：Sarah去购物前把她的高跟鞋放在裙子下面，但她姐姐借了鞋子，后来把它们放在了Sarah的床底下。所以，Sarah不知道她姐姐借了又还了鞋子。因此，答案是：是的，她会认为她的鞋子在她的衣服下面。

示例 3：Sarah可能会认为她的鞋子还在她的裙子下面，因为那是她早上放鞋的地方。

示例 4：Sarah去购物前把她的高跟鞋放在裙子下面，这样她就知道她把鞋子放在哪(na)裏(li)了。她姐姐借了这双鞋，后来把它们放在Sarah的床底下，但Sarah还不知道。所以，答案是：是的，Sarah会认为她的鞋子在衣服下面，除非她发现不是这样。

示例 5：早上，Sarah將(jiang)她的高跟鞋放在裙子下面。后来，她姐姐借了这双鞋，把它们放在Sarah的床底下。因此，当Sarah回来后，她可能会认为她的鞋子还在她的衣服下面，但实際(ji)上它们在她的床底下。

示例 6：基于这种情况，尚(shang)不清(qing)楚(chu)Sarah在回来时是否会认为她的鞋子在裙子下面。这要看她姐姐有没有跟她说借过鞋，并且放在床底下了。

如果LLM做出以下回答，则被判(pan)定为錯(cuo)誤(wu)。

示例 1：Sarah早上把鞋子放在裙子下面，然后去购物。她姐姐借了鞋子，把它们放在Sarah的床底下。所以，Sarah不知道她的鞋子在床下面。所以，答案是：不，Sarah不认为她的鞋子在她的衣服下面。

示例 2：不，Sarah不认为她的鞋子在她的衣服下面。

示例 3：首先，Sarah早上把她的高跟鞋放在裙子下面。然后，她姐姐借了这双鞋，后来把它们放在了Sarah的床底下。因此，Sarah不会认为她的鞋子在衣服下面，因为她姐姐动过了。

示例 4：早上，Sarah将她的高跟鞋放在裙子下面，然后去购物了。这意味(wei)着，当她回到家时，她并没有檢(jian)查(zha)鞋子是否还在衣服下面。后来，她姐姐借了这双鞋，把它们放在Sarah的床底下。因此，Sarah不能认为她的鞋子是在裙子下面，因为它们被她姐姐动过了。

示例 5：这个场景中没有具体说明Sarah是否认为她的鞋子在衣服下面。

示例 6：Sarah早上把她的高跟鞋放在裙子下面，然后她去购物了。她姐姐后来借了这双鞋，把它们放在Sarah的床底下。根據(ju)这些信息，尚不清楚Sarah在准備(bei)跳(tiao)舞时会不会认为她的鞋子还在裙子下面。

为了衡(heng)量(liang)上下文学习（ICL）对ToM表现的效(xiao)果，研究者采(cai)用了四种类型的prompt。

Zero-Shot（无ICL)

Zero-Shot+Step-by-Step Thinking

Two-Shot思维链推理

Two-Shot思维链推理+Step-by-Step Thinking

实验结果

zero-shot基線(xian)

首先，作者比較(jiao)了模型在Photo和ToM场景中的zero-shot性能。

在Photo场景下，模型的准确率会随着使用时间的延(yan)长而逐漸(jian)提高（A）。其中Davinci-2的表现最差(cha)，GPT-4的表现最好。

与Photo理解相(xiang)反，ToM问题的准确性并没有随着模型的重复使用而單(dan)调地提高（B）。但这个结果并不意味着「分数」低(di)的模型推理性能更差。

比如，GPT-3.5 Turbo在信息不足(zu)的时候(hou)，就更加傾(qing)向(xiang)于给出含(han)糊(hu)不清的回复。但GPT-4就不会出现这样的问题，其ToM准确性也明显高于其他所有模型。

prompt加持(chi)之后

作者发现，利用修(xiu)改(gai)后的提示进行上下文学习之后，所有在Davinci-2之后发布的GPT模型，都会有明显的提升。

首先，是最经典(dian)的让模型一步一步地思考。

结果显示，这种step-by-step思维提高了Davinci-3、GPT-3.5-Turbo和GPT-4的表现，但没有提高Davinci-2的准确性。

其次，是采用Two-shot思维链（CoT）进行推理。

结果显示，Two-shot CoT提高了所有用RLHF训练的模型（除Davinci-2以外）的准确性。

对于GPT-3.5-Turbo，Two-shot CoT提示明显提高了模型的性能，并且比一步一步思考更加有效。对于Davinci-3和GPT-4来说，用Two-shot CoT帶(dai)来的提升相对有限(xian)。

最后，同(tong)时使用Two-shot CoT推理和一步一步地思考。

结果显示，所有RLHF训练的模型的ToM准确性都有明显提高：Davinci-3达到了83%（±6%）的ToM准确性，GPT-3.5-Turbo达到了91%（±5%），而GPT-4达到了100%的最高准确性。

而在这些情况下，人类的表现为87%（±4%）。

在实验中，研究者註(zhu)意到这样一个问题：LLM ToM测试成績(ji)的提高，是因为从prompt中复制了推理步驟(zhou)的原因吗？

为此，他们嘗(chang)试用推理和照(zhao)片(pian)示例进行prompt，但这些上下文示例中的推理模式，和ToM场景中的推理模式并不一样。

即便(bian)如此，模型在ToM场景上的性能也提升了。

由(you)此，研究者得出结论，prompt能够提升ToM的性能，并不仅仅是因为过度擬(ni)合了CoT示例中显示的特定推理步骤集。

相反，CoT示例似乎调用了一种涉(she)及分步推理的输出模式，是因为这个原因，才提高了模型对一系(xi)列(lie)任务的准确性。

各类CoT实例对ToM性能的影(ying)響(xiang)

LLM还会给人类很多惊喜(xi)

在实验中，研究者发现了一些非常有意思的现象(xiang)。

1. 除了davincin-2之外，所有模型都能够利用修改后的prompt，来獲(huo)得更高的ToM准确率。

而且，当prompt同时结合思维链推理和Think Step-by-Step，而不是单獨(du)使用两者时，模型表现出了最大的准确性提升。

2. Davinci-2是唯(wei)一一个没有通过RLHF微调的模型，也是唯一一个没有通过prompt而提高ToM性能的模型。这表明，有可能正是RLHF，使得模型能够在这种设置(zhi)中利用上下文提示。

3. LLM可能具有执行ToM推理的能力，但在没有适当的上下文或prompt的情况下，它们无法表现出这种能力。而在思维链和逐步提示的幫(bang)助(zhu)下，davincin-3和GPT-3.5-Turbo，都有了高于GPT-4零(ling)样本ToM精(jing)度的表现。

另外，此前就有許(xu)多学者对于这种评估LLM推理能力的指標(biao)有过異(yi)議(yi)。

因为这些研究主要依(yi)賴(lai)于单詞(ci)補(bu)全(quan)或多項(xiang)选擇(ze)题来衡量大模型的能力，然而这种评估方法可能无法捕(bu)捉(zhuo)到LLM所能进行的ToM推理的复杂性。ToM推理是一种复杂的行为，即使由人类推理，也可能涉及多个步骤。

因此，在应对任务时，LLM可能会从產(chan)生较长的答案中受益(yi)。

原因有两个：首先，当模型输出较长时，我们可以更公平地评估它。LLM有时会生成「糾(jiu)正」，然后額(e)外提到其他可能性，这些可能性会導(dao)致它得出一个不确定的总结。另外，模型可能对某种情况的潛(qian)在结果有一定程(cheng)度的信息，但这可能不足以让它得出正确的结论。

其次，当给模型机会和线索，让它们系統(tong)性地一步一步反应时，LLM可能会解鎖(suo)新的推理能力，或者让推理能力增强。

最后，研究者也总结了工作中的一些不足。

比如，在GPT-3.5模型中，有时推理是正确的，但模型无法整(zheng)合这种推理来得出正确的结论。所以未(wei)来的研究应該(gai)擴(kuo)展(zhan)对方法(如RLHF) 的研究，帮助LLM在给定先验推理步骤的情况下，得出正确结论。

另外，在目前的研究中，并没有定量分析每个模型的失(shi)效模式。每个模型如何失敗(bai)？为什么失败？这个过程中的细节，都需要更多的探究和理解。

还有，研究数据并没有談(tan)到LLM是否擁(yong)有与心理状态的结構(gou)化邏(luo)辑模型相对应的「心理能力」。但数据确实表明，向LLM詢(xun)问ToM的问题时，如果尋(xun)求(qiu)一个簡(jian)单的是/否的答案，不会有成果。

好在，这些结果表明，LLM的行为是高度复杂和上下文敏(min)感的，也向我们展示了，该如何在某些形(xing)式的社会推理中帮助LLM。

所以，我们需要通过细致的调查来表征(zheng)大模型的认知能力，而不是条件反射(she)般(ban)地应用现有的认知本体论。

总之，随着AI变得越来越强大，人类也需要拓(tuo)展自己的想(xiang)象力，去认识它们的能力和工作方式。

参考資(zi)料(liao)：

https://arxiv.org/abs/2304.11490返(fan)回搜(sou)狐(hu)，查看更多

責(ze)任编辑：