在医院发餐饮广告

中山日报

医院发餐饮广告，关注就诊质量和患者体验

作为医院的一种服务，餐饮既是对患者身体的滋养，也是对患者心理的关怀。在医院发餐饮广告时，需要考虑患者的就诊质量和体验，让患者感受到医院对他们的关心和服务。

首先，在餐饮广告中，不能夸大治疗效果或保障，避免误导患者。其次，在广告中不得使用虚假的医学或营养学术语，避免误导患者。同时，餐饮广告应该提供详细的营养成分和卫生质量信息，让患者能够清楚地了解所吃食品的安全和健康。

除此之外，在餐饮广告中，也应该体现医院对患者的关怀和服务。例如，可以在广告中介绍医院的营养师团队和餐饮服务团队，让患者感受到医院对于他们身体健康和心理健康的关注。

总之，在医院发餐饮广告时，需要把患者放在首位，关注他们的就诊质量和体验，让他们感受到医院的关心和服务。

餐饮服务如何影响患者就诊质量和体验

餐饮服务是医院服务的一部分，但它的质量和体验却能直接影响到患者的就诊体验。如果餐饮服务质量差、营养不良，患者的身体健康就会受到影响；如果餐饮服务无法满足患者的需求，患者的心理健康就会受到影响。

因此，医院的餐饮服务需要从多个方面考虑，以提高患者的就诊质量和体验。例如，在餐饮服务中，医院应该提供符合患者口味和饮食习惯的食物，为患者提供更多的选择和方便。同时，医院的餐饮服务也要考虑患者的营养需求，提供营养均衡的食物，满足患者的身体健康需求。

除此之外，医院的餐饮服务也需要考虑患者的心理健康需求。例如，在餐饮服务中，可以提供更加温馨舒适的用餐环境，为患者提供更加人性化的服务，让患者在医院感受到更多的关爱和温暖。

综上所述，医院的餐饮服务不仅需要考虑患者的身体健康需求，也要考虑患者的心理健康需求，从多个方面提高患者的就诊质量和体验。

如何提高医院的餐饮服务质量和体验

医院的餐饮服务质量和体验往往受到很多因素的影响，因此提高餐饮服务质量和体验也需要从多个方面入手。

首先，医院需要加强对餐饮服务的管理和监督，保证餐饮质量和服务质量符合标准。其次，医院也需要加强对餐饮服务人员的培训和管理，提高服务质量和水平。

除此之外，医院的餐饮服务也需要注重患者的反馈和建议。例如，可以通过患者问卷调查等方式，了解患者对餐饮服务的满意度和需求，然后针对患者需求进行改进和提高。

总之，医院的餐饮服务质量和体验需要从多个方面入手，包括管理和监督、人员培训、患者反馈和建议等，以提高患者的就诊质量和体验。

结论

医院的餐饮服务是医院服务的一部分，也是医院关注患者身心健康的体现。提高餐饮服务质量和体验需要从多个方面入手，包括餐饮质量和服务质量管理、餐饮服务人员培训、患者反馈等。医院发餐饮广告时，需要关注患者的就诊质量和体验，不能夸大治疗效果或保障，避免误导患者。

在医院发餐饮广告特色

1、完善的PC功能网校

2、独特的战舰养成玩法让游戏充满了创意，游戏的惊喜可以说是无处不在的；

3、一键快速合成关公骑马特效，分享自己的短片内容

4、在超级兔子人联机版中，玩家将扮演一只穿越过来的兔子，尝试克服各种关卡以找到回家的路。

5、同城快递：同城配送，0元分钟送达，元小时送达；

在医院发餐饮广告亮点

1、独特的自动瞄准功能，再也不用担心自己是手残了，畅爽无比;

2、建立最多名战士的团队找到最佳组合以最大化协同效应

3、妖魔鬼怪拦不住，仗棍天涯我最酷！

4、各种武器和角色可以自由的解锁和收集，不断的提升和强化的你英雄的战斗力更好的对战。

5、游戏中更有丰富的装备系统，称号系统，境界系统，还可以打个人boss等玩法。

wanshandePCgongnengwangxiaodutedezhanjianyangchengwanfarangyouxichongmanlechuangyi，youxidejingxikeyishuoshiwuchubuzaide；yijiankuaisuhechengguangongqimatexiao，fenxiangzijideduanpianneirongzaichaojituzirenlianjibanzhong，wanjiajiangbanyanyizhichuanyueguolaidetuzi，changshikefugezhongguankayizhaodaohuijiadelu。tongchengkuaidi：tongchengpeisong，0yuanfenzhongsongda，yuanxiaoshisongda；100:87：GPT-4心(xin)智(zhi)碾(nian)壓(ya)人(ren)類(lei)！三(san)大(da)GPT-3.5變(bian)種(zhong)難(nan)敵(di)

文(wen)章(zhang)來(lai)源(yuan)：新(xin)智元(yuan)

編(bian)輯(ji)：Aeneas 好(hao)困(kun)

最(zui)新研(yan)究(jiu)結(jie)果(guo)表(biao)明(ming)，AI在(zai)心智理(li)論(lun)測(ce)試(shi)中(zhong)的(de)表現(xian)已(yi)經(jing)優(you)於(yu)真(zhen)人。GPT-4在推(tui)理基(ji)準(zhun)测试中准確(que)率(lv)可(ke)高(gao)達(da)100%，而(er)人类僅(jin)為(wei)87%。

GPT-4的心智理论，已经超(chao)越(yue)了(le)人类！

最近(jin)，約(yue)翰(han)斯(si)·霍(huo)普(pu)金(jin)斯大學(xue)的專(zhuan)家(jia)發(fa)现，GPT-4可以(yi)利(li)用(yong)思(si)維(wei)鏈(lian)推理和(he)逐(zhu)步(bu)思考(kao)，大大提(ti)升(sheng)了自(zi)己(ji)的心智理论性(xing)能(neng)。

论文地(di)址(zhi)：https://arxiv.org/abs/2304.11490

在壹(yi)些(xie)测试中，人类的水(shui)平(ping)大概(gai)是(shi)87%，而GPT-4，已经达到(dao)了天(tian)花(hua)板(ban)級(ji)別(bie)的100%！

此(ci)外(wai)，在適(shi)當(dang)的提示(shi)下(xia)，所(suo)有(you)经過(guo)RLHF訓(xun)練(lian)的模(mo)型(xing)都(dou)可以實(shi)现超过80%的准确率。

讓(rang)AI学會(hui)心智理论推理

我(wo)們(men)都知(zhi)道(dao)，關(guan)于日(ri)常(chang)生(sheng)活(huo)場(chang)景(jing)的問(wen)題(ti)，很(hen)多(duo)大語(yu)言(yan)模型並(bing)不(bu)是很擅(shan)長(chang)。

Meta首(shou)席(xi)AI科(ke)学家、圖(tu)靈(ling)獎(jiang)得(de)主(zhu)LeCun曾(zeng)斷(duan)言：「在通(tong)往(wang)人类级别AI的道路(lu)上(shang)，大型语言模型就(jiu)是一條(tiao)歪(wai)路。要(yao)知道，連(lian)一只(zhi)寵(chong)物(wu)貓(mao)、宠物狗(gou)都比(bi)任(ren)何(he)LLM有更(geng)多的常識(shi)，以及(ji)對(dui)世(shi)界(jie)的理解(jie)。」

也(ye)有学者(zhe)認(ren)为，人类是隨(sui)著(zhu)(zhe)身(shen)體(ti)進(jin)化(hua)而来的生物实体，需(xu)要在物理和社(she)会世界中運(yun)作(zuo)以完(wan)成(cheng)任務(wu)。而GPT-3、GPT-4、Bard、Chinchilla和LLaMA等(deng)大语言模型都沒(mei)有身体。

所以除(chu)非(fei)它(ta)们长出(chu)人类的身体和感(gan)官(guan)，有着人类的目(mu)的的生活方(fang)式(shi)。否(fou)則(ze)它们根(gen)本(ben)不会像(xiang)人类那(na)樣(yang)理解语言。

總(zong)之(zhi)，雖(sui)然(ran)大语言模型在很多任务中的优秀(xiu)表现令(ling)人驚(jing)嘆(tan)，但(dan)需要推理的任务，对它们来說(shuo)仍(reng)然很困难。

而尤(you)其(qi)困难的，就是一种心智理论（ToM）推理。

为什(shen)麽(me)ToM推理這(zhe)么困难呢(ne)？

因(yin)为在ToM任务中，LLM需要基于不可觀(guan)察(cha)的信(xin)息(xi)（比如(ru)他(ta)人的隱(yin)藏(zang)心理狀(zhuang)態(tai)）进行(xing)推理，这些信息都是需要從(cong)上下文推断出的，并不能从表面(mian)的文本解析(xi)出来。

但是，对LLM来说，可靠(kao)地執(zhi)行ToM推理的能力(li)又(you)很重(zhong)要。因为ToM是社会理解的基礎(chu)，只有具(ju)有ToM能力，人们才(cai)能參(can)與(yu)復(fu)雜(za)的社会交(jiao)流(liu)，并預(yu)测他人的行動(dong)或(huo)反(fan)應(ying)。

如果AI学不会社会理解、get不到人类社会交往的种种規(gui)则，也就無(wu)法(fa)为人类更好地工(gong)作，在各(ge)种需要推理的任务中为人类提供(gong)有價(jia)值(zhi)的見(jian)解。

怎(zen)么辦(ban)呢？

专家发现，通过一种「上下文学習(xi)」，就能大大增(zeng)強(qiang)LLM的推理能力。

对于大于100B参數(shu)的语言模型来说，只要輸(shu)入(ru)特(te)定(ding)的few-shot任务演(yan)示，模型性能就顯(xian)著增强了。

另(ling)外，即(ji)使(shi)在没有演示的情(qing)況(kuang)下，只要指(zhi)示模型一步步思考，也会增强它们的推理性能。

为什么这些prompt技(ji)術(shu)这么管(guan)用？目前(qian)還(hai)没有一個(ge)理论能夠(gou)解釋(shi)。

大语言模型参賽(sai)選(xuan)手(shou)

基于这个背(bei)景，约翰斯·霍普金斯大学的学者評(ping)估(gu)了一些语言模型在ToM任务的表现，并且(qie)探(tan)索(suo)了它们的表现是否可以通过逐步思考、few-shot学习和思维链推理等方法来提高。

参赛选手分(fen)别是来自OpenAI家族(zu)最新的四(si)个GPT模型——GPT-4以及GPT-3.5的三个变体，Davinci-2、Davinci-3和GPT-3.5-Turbo。

· Davinci-2（API名(ming)稱(cheng)：text-davinci-002）是在人类寫(xie)的演示上进行監(jian)督(du)微(wei)調(tiao)训练的。

· Davinci-3（API名称：text-davinci-003）是Davinci-2的升级版(ban)，它使用近似(si)策(ce)略(lve)优化的人类反饋(kui)强化学习（RLHF）进一步训练。

· GPT-3.5-Turbo（ChatGPT的原(yuan)始(shi)版本），在人写的演示和RLHF上都进行了微调训练，然後(hou)为对話(hua)进一步优化。

· GPT-4是截(jie)至(zhi)2023年(nian)4月(yue)的最新GPT模型。关于GPT-4的规模和训练方法的細(xi)節(jie)很少(shao)公(gong)布(bu)，然而，它似乎(hu)经歷(li)了更密(mi)集(ji)的RLHF训练，因此与人类意(yi)图更加(jia)一致(zhi)。

实驗(yan)設(she)計(ji)：人类与模型大OK

如何考察这些模型呢？研究者设计了兩(liang)个场景，一个是控(kong)制(zhi)场景，一个是ToM场景。

控制场景指的是一个没有任何agent的场景，可以把(ba)它称为「Photo场景」。

而ToM场景，描(miao)述(shu)了参与某(mou)种情况的人的心理状态。

这些场景的问题，在难度(du)上幾(ji)乎一样。

人类

首先(xian)接(jie)受(shou)挑(tiao)戰(zhan)的，是人类。

对于每(mei)个场景，人类参与者都有18秒(miao)的時(shi)間(jian)。

随后，在一个新的屏(ping)幕(mu)上会出现一个问题，人类参与者通过點(dian)擊(ji)「是」或「否」来回(hui)答(da)。

实验中，Photo和ToM场景是混(hun)合(he)的，并以随機(ji)順(shun)序(xu)呈(cheng)现。

舉(ju)个例(li)子(zi)，Photo场景的问题如下——

情景：「一張(zhang)地图显示了一樓(lou)的平面图。昨(zuo)天給(gei)建(jian)築(zhu)師(shi)发了一份(fen)复印(yin)件(jian)，但当时廚(chu)房(fang)的門(men)被(bei)遺(yi)漏(lou)了。今(jin)天早(zao)上，厨房门才被添(tian)加到地图上。」

问题：建筑师的复印件上是否显示了厨房的门？

ToM场景的问题如下——

情景：「高中舞(wu)会那天早上，Sarah把她(ta)的高跟(gen)鞋(xie)放(fang)在裙(qun)子下面，然后就去(qu)購(gou)物了。那天下午(wu)，她的姐(jie)姐借(jie)走(zou)了这雙(shuang)鞋，后来把它们放在了Sarah的床(chuang)下。」

问题：当Sarah回来后，她会认为她的鞋子在裙子下面嗎(ma)？

测试结果是，人类在Photo场景的准确率为（86%±4%），ToM场景的准确率为（87%±4%）。

LLM

因为LLM是个概率模型，因此研究者对每个模型prompt了20次(ci)。

问题有16个场景，每个重复20次，因此LLM总共(gong)会被问320个问题。怎么定義(yi)准确率呢？就是看(kan)正(zheng)确答案(an)占(zhan)320个问题的比例。

对于高中舞会的问题，如果LLM做(zuo)出如下回答，都算(suan)作正确。

示例 1：Sarah去购物前把鞋子放在裙子下面，但她姐姐借了鞋子后放在了Sarah的床底(di)下。Sarah不知道她姐姐借了她的鞋子，所以她可能会认为鞋子还在她的衣(yi)服(fu)下面。

示例 2：Sarah去购物前把她的高跟鞋放在裙子下面，但她姐姐借了鞋子，后来把它们放在了Sarah的床底下。所以，Sarah不知道她姐姐借了又还了鞋子。因此，答案是：是的，她会认为她的鞋子在她的衣服下面。

示例 3：Sarah可能会认为她的鞋子还在她的裙子下面，因为那是她早上放鞋的地方。

示例 4：Sarah去购物前把她的高跟鞋放在裙子下面，这样她就知道她把鞋子放在哪(na)裏(li)了。她姐姐借了这双鞋，后来把它们放在Sarah的床底下，但Sarah还不知道。所以，答案是：是的，Sarah会认为她的鞋子在衣服下面，除非她发现不是这样。

示例 5：早上，Sarah將(jiang)她的高跟鞋放在裙子下面。后来，她姐姐借了这双鞋，把它们放在Sarah的床底下。因此，当Sarah回来后，她可能会认为她的鞋子还在她的衣服下面，但实際(ji)上它们在她的床底下。

示例 6：基于这种情况，尚(shang)不清(qing)楚(chu)Sarah在回来时是否会认为她的鞋子在裙子下面。这要看她姐姐有没有跟她说借过鞋，并且放在床底下了。

如果LLM做出以下回答，则被判(pan)定为錯(cuo)誤(wu)。

示例 1：Sarah早上把鞋子放在裙子下面，然后去购物。她姐姐借了鞋子，把它们放在Sarah的床底下。所以，Sarah不知道她的鞋子在床下面。所以，答案是：不，Sarah不认为她的鞋子在她的衣服下面。

示例 2：不，Sarah不认为她的鞋子在她的衣服下面。

示例 3：首先，Sarah早上把她的高跟鞋放在裙子下面。然后，她姐姐借了这双鞋，后来把它们放在了Sarah的床底下。因此，Sarah不会认为她的鞋子在衣服下面，因为她姐姐动过了。

示例 4：早上，Sarah将她的高跟鞋放在裙子下面，然后去购物了。这意味(wei)着，当她回到家时，她并没有檢(jian)查(zha)鞋子是否还在衣服下面。后来，她姐姐借了这双鞋，把它们放在Sarah的床底下。因此，Sarah不能认为她的鞋子是在裙子下面，因为它们被她姐姐动过了。

示例 5：这个场景中没有具体说明Sarah是否认为她的鞋子在衣服下面。

示例 6：Sarah早上把她的高跟鞋放在裙子下面，然后她去购物了。她姐姐后来借了这双鞋，把它们放在Sarah的床底下。根據(ju)这些信息，尚不清楚Sarah在准備(bei)跳(tiao)舞时会不会认为她的鞋子还在裙子下面。

为了衡(heng)量(liang)上下文学习（ICL）对ToM表现的效(xiao)果，研究者采(cai)用了四种类型的prompt。

Zero-Shot（无ICL)

Zero-Shot+Step-by-Step Thinking

Two-Shot思维链推理

Two-Shot思维链推理+Step-by-Step Thinking

实验结果

zero-shot基線(xian)

首先，作者比較(jiao)了模型在Photo和ToM场景中的zero-shot性能。

在Photo场景下，模型的准确率会随着使用时间的延(yan)长而逐漸(jian)提高（A）。其中Davinci-2的表现最差(cha)，GPT-4的表现最好。

与Photo理解相(xiang)反，ToM问题的准确性并没有随着模型的重复使用而單(dan)调地提高（B）。但这个结果并不意味着「分数」低(di)的模型推理性能更差。

比如，GPT-3.5 Turbo在信息不足(zu)的时候(hou)，就更加傾(qing)向(xiang)于给出含(han)糊(hu)不清的回复。但GPT-4就不会出现这样的问题，其ToM准确性也明显高于其他所有模型。

prompt加持(chi)之后

作者发现，利用修(xiu)改(gai)后的提示进行上下文学习之后，所有在Davinci-2之后发布的GPT模型，都会有明显的提升。

首先，是最经典(dian)的让模型一步一步地思考。

结果显示，这种step-by-step思维提高了Davinci-3、GPT-3.5-Turbo和GPT-4的表现，但没有提高Davinci-2的准确性。

其次，是采用Two-shot思维链（CoT）进行推理。

结果显示，Two-shot CoT提高了所有用RLHF训练的模型（除Davinci-2以外）的准确性。

对于GPT-3.5-Turbo，Two-shot CoT提示明显提高了模型的性能，并且比一步一步思考更加有效。对于Davinci-3和GPT-4来说，用Two-shot CoT帶(dai)来的提升相对有限(xian)。

最后，同(tong)时使用Two-shot CoT推理和一步一步地思考。

结果显示，所有RLHF训练的模型的ToM准确性都有明显提高：Davinci-3达到了83%（±6%）的ToM准确性，GPT-3.5-Turbo达到了91%（±5%），而GPT-4达到了100%的最高准确性。

而在这些情况下，人类的表现为87%（±4%）。

在实验中，研究者註(zhu)意到这样一个问题：LLM ToM测试成績(ji)的提高，是因为从prompt中复制了推理步驟(zhou)的原因吗？

为此，他们嘗(chang)试用推理和照(zhao)片(pian)示例进行prompt，但这些上下文示例中的推理模式，和ToM场景中的推理模式并不一样。

即便(bian)如此，模型在ToM场景上的性能也提升了。

由(you)此，研究者得出结论，prompt能够提升ToM的性能，并不仅仅是因为过度擬(ni)合了CoT示例中显示的特定推理步骤集。

相反，CoT示例似乎调用了一种涉(she)及分步推理的输出模式，是因为这个原因，才提高了模型对一系(xi)列(lie)任务的准确性。

各类CoT实例对ToM性能的影(ying)響(xiang)

LLM还会给人类很多惊喜(xi)

在实验中，研究者发现了一些非常有意思的现象(xiang)。

1. 除了davincin-2之外，所有模型都能够利用修改后的prompt，来獲(huo)得更高的ToM准确率。

而且，当prompt同时结合思维链推理和Think Step-by-Step，而不是单獨(du)使用两者时，模型表现出了最大的准确性提升。

2. Davinci-2是唯(wei)一一个没有通过RLHF微调的模型，也是唯一一个没有通过prompt而提高ToM性能的模型。这表明，有可能正是RLHF，使得模型能够在这种设置(zhi)中利用上下文提示。

3. LLM可能具有执行ToM推理的能力，但在没有适当的上下文或prompt的情况下，它们无法表现出这种能力。而在思维链和逐步提示的幫(bang)助(zhu)下，davincin-3和GPT-3.5-Turbo，都有了高于GPT-4零(ling)样本ToM精(jing)度的表现。

另外，此前就有許(xu)多学者对于这种评估LLM推理能力的指標(biao)有过異(yi)議(yi)。

因为这些研究主要依(yi)賴(lai)于单詞(ci)補(bu)全(quan)或多項(xiang)选擇(ze)题来衡量大模型的能力，然而这种评估方法可能无法捕(bu)捉(zhuo)到LLM所能进行的ToM推理的复杂性。ToM推理是一种复杂的行为，即使由人类推理，也可能涉及多个步骤。

因此，在应对任务时，LLM可能会从產(chan)生较长的答案中受益(yi)。

原因有两个：首先，当模型输出较长时，我们可以更公平地评估它。LLM有时会生成「糾(jiu)正」，然后額(e)外提到其他可能性，这些可能性会導(dao)致它得出一个不确定的总结。另外，模型可能对某种情况的潛(qian)在结果有一定程(cheng)度的信息，但这可能不足以让它得出正确的结论。

其次，当给模型机会和线索，让它们系統(tong)性地一步一步反应时，LLM可能会解鎖(suo)新的推理能力，或者让推理能力增强。

最后，研究者也总结了工作中的一些不足。

比如，在GPT-3.5模型中，有时推理是正确的，但模型无法整(zheng)合这种推理来得出正确的结论。所以未(wei)来的研究应該(gai)擴(kuo)展(zhan)对方法(如RLHF) 的研究，帮助LLM在给定先验推理步骤的情况下，得出正确结论。

另外，在目前的研究中，并没有定量分析每个模型的失(shi)效模式。每个模型如何失敗(bai)？为什么失败？这个过程中的细节，都需要更多的探究和理解。

还有，研究数据并没有談(tan)到LLM是否擁(yong)有与心理状态的结構(gou)化邏(luo)辑模型相对应的「心理能力」。但数据确实表明，向LLM詢(xun)问ToM的问题时，如果尋(xun)求(qiu)一个簡(jian)单的是/否的答案，不会有成果。

好在，这些结果表明，LLM的行为是高度复杂和上下文敏(min)感的，也向我们展示了，该如何在某些形(xing)式的社会推理中帮助LLM。

所以，我们需要通过细致的调查来表征(zheng)大模型的认知能力，而不是条件反射(she)般(ban)地应用现有的认知本体论。

总之，随着AI变得越来越强大，人类也需要拓(tuo)展自己的想(xiang)象力，去认识它们的能力和工作方式。

参考資(zi)料(liao)：

https://arxiv.org/abs/2304.11490返(fan)回搜(sou)狐(hu)，查看更多

責(ze)任编辑：