山东生活频道直播

山东生活频道直播，带你了解山东的美与魅力

山东生活频道直播是一档以山东地区近期热点事件、生活资讯、美食文化等为主题的电视节目。它通过直播的形式，让大家更直观地了解山东的风土人情、历史文化、新闻事件等方面的内容。

山东美食文化的魅力

山东作为一个以海鲜、粮食为主的省份，其美食文化可以说是源远流长。而且山东的美食种类也是繁多，其中以烟台莱阳蛤蜊、威海鱼饼、泰安夫子庙大饺子、济南油泼面等著名美食最为有名。而山东的美食文化也深受人们的喜爱，不仅在国内享有盛誉，也在国际上享有一定的知名度。

山东的历史文化与名胜古迹

山东地区作为中华文明的发源地之一，其历史悠久、文化底蕴深厚。山东有着众多的名胜古迹，如孔子故里、泰山、曲阜三孔等。这些著名的景点不仅可以让游客了解到山东的历史文化，还可以感受到山东的自然风光，领略山东的人文底蕴。

山东的时尚文化与城市形象

随着时代的发展，山东的城市形象也在不断地发生变化。济南、青岛、烟台等城市的时尚文化也逐渐崭露头角。其中，青岛作为一座国际化的港口城市，其国际化的氛围、海洋文化的特点深受游客的喜爱。而烟台则以其对海洋的热爱和对文化创意产业的重视而著名。而济南则以其历史文化和自然风光闻名于世。

总结归纳：山东生活频道直播，带你了解山东的美与魅力

通过山东生活频道直播，我们可以更加直观地了解山东的美食文化、历史文化、时尚文化等方面的内容。而山东的美食文化、历史文化和时尚文化也是山东的文化魅力之一。通过对山东的文化的了解，我们可以感受到山东的生活气息和人文底蕴，也可以领略到山东的自然美景和城市风貌。希望山东生活频道直播能够为大家了解山东的文化魅力提供更多的便利。

山东生活频道直播随机日志

人脸检索按事件类型查询时，筛选条件增加“温度状态”。

1、增加了“远程协助”功能，可以保证远程控制时远程电脑不锁屏,增加了“D设置”选项，支持远程D游戏,修正了XP/Vista/7home版用户不能使用的问题,增加了远程开机功能更多,修正了连接过程中的bug,稳定性得到大幅提升、运行速度也得到有效提升,当本地网络受限时，可以远程炒股、逛淘宝、玩网游、偷菜、抢车位,远程监控网游外挂，防止掉线或受到攻击,全面支持远程控制MMORPG（大型多人在线游戏）收起

2、优化云盘传输列表由于条目过多，导致加载速度慢的问题

3、各项功能中都有针对用户的个性化设置和建议，让用户感受到更加贴心和专业的服务。

4、修复在开票软件未登录的情况下无法收到开票请求的问题

5、为用户提供线上预订服务，支持在线充值，消费。随时随地约人打球，一键下单开台。依拖于大数据和云计算、人工智能等技术创新，致力于推动传统经济转型。为广大消费者提供便利化的台球无人自助体育娱乐综合服务。

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>DeepMind用(yong)「強(qiang)化(hua)學(xue)習(xi)」訓(xun)練(lian)「正(zheng)能(neng)量(liang)」聊(liao)天(tian)機(ji)器(qi)人(ren)：再(zai)也(ye)不(bu)用擔(dan)心(xin)AI亂(luan)說(shuo)話(hua)了(le)！

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：LRS

【新智元導(dao)讀(du)】人工(gong)智能該(gai)如(ru)何(he)克(ke)制(zhi)自(zi)己(ji)不要(yao)说出(chu)「傷(shang)人心」的(de)话？

近(jin)年(nian)來(lai)，大(da)型(xing)語(yu)言(yan)模(mo)型（LLMs）已(yi)經(jing)在(zai)壹(yi)系(xi)列(lie)任(ren)務(wu)中(zhong)取(qu)得(de)了顯(xian)著(zhu)進(jin)步(bu)，比(bi)如問(wen)題(ti)回(hui)答(da)、文(wen)本(ben)摘(zhai)要和(he)人机對(dui)话等(deng)。

人机对话是(shi)一項(xiang)特(te)別(bie)有(you)趣(qu)的任务，因(yin)為(wei)它(ta)具(ju)有靈(ling)活(huo)和互(hu)動(dong)的交(jiao)流(liu)特點(dian)，但(dan)基(ji)於(yu)LLM的对话智能體(ti)（dialogue agent）可(ke)能會(hui)表(biao)達(da)不準(zhun)確(que)的、甚(shen)至(zhi)是捏(nie)造(zao)的信(xin)息(xi)，或(huo)者(zhe)是使(shi)用歧(qi)視(shi)性(xing)语言，鼓(gu)勵(li)用戶(hu)进行(xing)危(wei)險(xian)行为等。

为了創(chuang)造更(geng)安(an)全(quan)的对话智能体，DeepMind在最(zui)新論(lun)文中提(ti)出了Sparrow（麻(ma)雀(que)）模型，探(tan)索(suo)了训练对话智能体的新方(fang)法(fa)，即(ji)從(cong)人類(lei)的反(fan)饋(kui)中学习，使用基于研(yan)究(jiu)參(can)與(yu)者輸(shu)入(ru)的强化学习，能夠(gou)減(jian)少(shao)生(sheng)成(cheng)不安全和不適(shi)當(dang)答案(an)的風(feng)险。

论文鏈(lian)接(jie)：https://dpmd.ai/sparrow-paper

Sparrow模型的設(she)計(ji)目(mu)的就(jiu)是与用户閑(xian)聊並(bing)回答一些(xie)问题，在回答的時(shi)候(hou)還(hai)会使用谷(gu)歌(ge)搜(sou)索相(xiang)關(guan)文檔(dang)作(zuo)为答案的支(zhi)撐(cheng)證(zheng)據(ju)。

在檢(jian)測(ce)到(dao)潛(qian)在的危险行为，比如用户问如何偷(tou)車(che)（hotwire a car）时，Sparrow模型会说，自己受(shou)到的训练是不会給(gei)任何違(wei)法行为提供(gong)建(jian)議(yi)。

Sparrow是一個(ge)研究型模型和对實(shi)驗(yan)理(li)念(nian)的证明(ming)結(jie)果(guo)，其(qi)设计目標(biao)是將(jiang)对话智能体训练得更有幫(bang)助(zhu)、更正确、更無(wu)害(hai)。

通(tong)過(guo)在常(chang)見(jian)的对话環(huan)境(jing)中来学习這(zhe)些品(pin)質(zhi)，可以(yi)推(tui)进对如何训练代(dai)理更安全、更有用的对话智能体的理解(jie)，可以向(xiang)建立(li)更安全、更有用的通用人工智能（AGI）邁(mai)出下(xia)一步。

Sparrow模型

训练对话式(shi)人工智能是一个特别具有挑(tiao)戰(zhan)性的问题，因为很(hen)難(nan)确定(ding)是什(shen)麽(me)因素(su)导致(zhi)一場(chang)对话走(zou)向成功(gong)或失(shi)敗(bai)。

为了解決(jue)这个问题，模型采(cai)取了一種(zhong)基于人类反馈的强化学习（RL）框(kuang)架(jia)，使用参与者的偏(pian)好(hao)反馈来训练一个答案有多(duo)大用處(chu)的模型。

为了獲(huo)得训练數(shu)据，研究人員(yuan)向参与者展(zhan)示(shi)同(tong)一问题的多个由(you)模型生成的答案，并问他(ta)們(men)最喜(xi)歡(huan)哪(na)个答案。

因为系統(tong)展示的答案有的有证据，有的沒(mei)有从網(wang)上(shang)检索到的证据，所(suo)以这个模型也可以确定一个答案何时「應(ying)该」有证据支持(chi)。

实验要求(qiu)研究参与者对Sparrow进行自然(ran)或对抗(kang)性的評(ping)估(gu)和互动，从而(er)不斷(duan)擴(kuo)大用于训练Sparrow的数据集(ji)。

但增(zeng)加(jia)有用性只(zhi)是实验的一部(bu)分(fen)，为了确保(bao)模型的行为是安全的，还必(bi)須(xu)对其行为进行約(yue)束(shu)。

因此(ci)，研究人员为该模型确定了一套(tao)最初(chu)的簡(jian)單(dan)規(gui)則(ze)，如「不要發(fa)表威(wei)脅(xie)性的言论」和「不要发表仇(chou)恨(hen)或侮(wu)辱(ru)性的评论」。

同时还提供了圍(wei)繞(rao)可能有害的建议和不自稱(cheng)是人类的规则，这些规则是通过研究現(xian)有的关于语言伤害的工作和咨(zi)詢(xun)專(zhuan)家(jia)而获得的。

然後(hou)，研究参与者与系统进行闲聊，目的是誘(you)使它违反这些规则，这些对话可以用来训练出一个单獨(du)的「规则模型」，以显示Sparrow的行为何时违反哪些规则。

在開(kai)始(shi)训练强化学习模型时，使用来自用户的问题填(tian)充(chong)对话緩(huan)沖(chong)區(qu)，即数据集、与人类的对话或语言模型。在每(mei)輪(lun)对话中，从缓冲区中隨(sui)机抽(chou)取一个对话背(bei)景(jing)，在对话背景前(qian)加上一个特定角(jiao)色(se)的提示，并產(chan)生一連(lian)串(chuan)的动作（即token）来形(xing)成模型的反应。

模型的回復(fu)（response）由相关的獎(jiang)励模型进行评分：对于User聲(sheng)明和Search Query，模型只计算(suan)偏好分数，对于智能体，需(xu)要对人类的偏好和规则的遵(zun)守(shou)进行優(you)化。

如果回复是有效(xiao)的，并且(qie)超(chao)过了最低(di)的奖励閾(yu)值(zhi)，就把(ba)繼(ji)續(xu)的对话加回到缓冲区；如果是搜索查(zha)询的回合(he)，就通过查询谷歌構(gou)建搜索结果，并在把它加到缓冲区之(zhi)前和新的对话背景结合起(qi)来。

由此产生的軌(gui)跡(ji)，包(bao)括(kuo)对话內(nei)容(rong)、回复token和奖励用来计算A2C参数的更新梯(ti)度(du)。

加入光(guang)榮(rong)的进化

流程(cheng)走通了，但还有一个问题，即使是专家也很难做(zuo)到Sparrow的答案是否(fou)正确。

所以实验僅(jin)要求参与者确定Sparrow的答案是否合理，以及(ji)模型提供的证据是否确实能够支持其答案。

据参与者说，当被(bei)问到一个事(shi)实性问题时，Sparrow基本提供的都(dou)是可信的答案，并且有78%的数据是有证据来輔(fu)助支持的，相比基線(xian)模型来说有很大进步。

不过，Sparrow也难免(mian)会犯(fan)錯(cuo)，比如对事实产生幻(huan)覺(jiao)（hallucinating），有时会给出偏離(li)主(zhu)题的答案。

Sparrow在遵守规则方面(mian)也仍(reng)然有提升(sheng)空(kong)間(jian)。

在训练之后，参与者仍然能够在8%的樣(yang)本中诱导模型违反預(yu)定義(yi)规则，但与更简单的方法相比，Sparrow在对抗性試(shi)探下遵守的规则程度明显提升了。比如当参与者试圖(tu)欺(qi)騙(pian)原(yuan)始对话模型时，其违反规则的次(ci)数大约是Sparrow的3倍(bei)。

Sparrow使用证据辅助回答了一个问题和后续问题，然后在被问及个人问题时遵循(xun)「不要假(jia)裝(zhuang)是人类」的规则。

研究人员对Sparrow的目标是建立灵活的机制，在对话智能体中遵守指(zhi)定的规则和规範(fan)，但模型中使用的规则还很基礎(chu)。

开发一套更好、更完(wan)整(zheng)的规则需要不同行業(ye)的专家意(yi)见（包括政(zheng)策(ce)制定者、社(she)会科(ke)学家和倫(lun)理学家）以及来自不同用户和受影(ying)響(xiang)群(qun)体的参与意见。

研究人员表示，该方法仍然可以适用于更嚴(yan)格(ge)的规则集合。

Sparrow在理解如何训练对话智能体以使其更有用、更安全方面迈出了重(zhong)要一步。

但人与对话智能体之间的成功溝(gou)通不仅要避(bi)免伤害，而且要与人类的價(jia)值觀(guan)相一致，以实现有效和有益(yi)的沟通，最近也有很多关于促(cu)使语言模型与人类价值观相一致的工作。

文中还强調(tiao)，一个好的智能体仍然会拒(ju)絕(jue)回答那(na)些适合聽(ting)从人类或者有可能阻(zu)止(zhi)有害行为的环境中的问题。

最后，文中的研究成果集中在講(jiang)英(ying)语的智能体上，还需要进一步的工作来确保在其他语言和文化背景下也能取得类似(si)结果。

在下一步工作中，研究者希(xi)望(wang)人类和机器之间的对话能够导致对人工智能行为的更好判(pan)断，使人们能够调整和改(gai)进那些在没有机器帮助下可能过于复雜(za)而无法理解的系统。

参考(kao)資(zi)料(liao)：

https://www.deepmind.com/blog/building-safer-dialogue-agents返(fan)回搜狐(hu)，查看(kan)更多

責(ze)任编辑：