平安好医生的广告创意

快科技新闻中心

平安好医生：你身边的健康管家

在这个快节奏的社会里，越来越多的人开始关注健康问题。而平安好医生作为一款智能健康应用，为人们提供了便捷、高效的健康管理服务。

无论你是身体不适、需要体检还是有健康咨询需求，平安好医生都能为你提供全方位的健康服务。

平安好医生的使用非常简单。只需要下载应用并注册，就可以开始享受专业的医疗服务。应用内包含了在线咨询、预约挂号、健康管理等多个功能模块，满足了用户不同的健康需求。

与传统医疗相比，平安好医生最大的优势在于其高效性和便捷性。用户可以通过应用随时随地进行医疗咨询，不必再排长队等待叫号。同时，应用内的健康管理模块可以帮助用户记录健康数据，提供个性化的健康方案，让用户更加科学地管理自己的健康。

此外，平安好医生拥有庞大的医疗资源，包括了优秀的医生团队和先进的医疗设备。在医疗咨询过程中，用户可以与优秀的医生进行交流，得到更为专业的医疗建议和诊疗方案。

综上所述，平安好医生作为一款智能健康应用，为用户提供了高效、便捷、专业、全方位的医疗服务。我们相信，随着科技的不断进步，平安好医生将会为更多用户提供更完善的健康管理服务。

如何使用平安好医生

使用平安好医生非常简单。只需要按照以下步骤操作，就可以轻松享受专业的医疗服务：

Step1：下载应用

在手机应用商店中搜索“平安好医生”，并下载应用。

Step2：注册账号

打开应用后，按照提示信息，输入手机号码和验证码，即可注册账号。

Step3：选择服务

根据自己的需求，选择医疗咨询、预约挂号、健康管理等服务模块，并按照提示信息进行操作。

Step4：享受服务

完成操作后，即可享受平安好医生为您提供的专业医疗服务。

平安好医生的优势

作为一款智能健康应用，平安好医生拥有以下的优势：

高效性

用户可以通过应用随时随地进行医疗咨询和预约挂号，避免了长时间等待和排队的繁琐过程。

便捷性

用户可以在家、在办公室或者在路上使用平安好医生，不必再为医疗服务奔波于医院之间。

专业性

平安好医生拥有专业的医生团队和先进的医疗设备，可以为用户提供更为专业的医疗服务。

个性化

平安好医生的健康管理模块可以帮助用户记录健康数据，提供个性化的健康方案，让用户更加科学地管理自己的健康。

综合性

平安好医生集在线咨询、预约挂号、健康管理于一体，满足了用户不同的医疗需求。

总之，平安好医生作为一款智能健康应用，以其高效、便捷、专业、个性化、综合等优势赢得了越来越多用户的青睐。

结论

随着人们对健康问题的日益关注，智能健康应用正在成为未来趋势。而平安好医生作为中国领先的智能健康平台，为用户提供了高效、便捷、专业、个性化、综合等多重优势的医疗服务。

我们相信，在平安好医生的帮助下，大家的健康生活将会更加美好。

平安好医生的广告创意特色

1、精致唯美的画面，无比壮观独特的场景，细腻的人物立绘，视觉享受；

2、享受愉快的全新建造挑战在这里你的每一次努力都会有收获；

3、功能很强大，操作也很简单。谁都可以快速上手。

4、免费的游戏大家在这里任意的选择关卡挑战吧。

5、大家其实来手机上观看这些视频教程，一样可以练习好书写，写出一手好字来的，赶快来这里学习下了。

平安好医生的广告创意亮点

1、这是一款集合多种经典玩法的游戏，朋友间转发的游戏在这里你都能找到！

2、口语训练课文跟读配音,实时智能评分纠正发音

3、各种不同类型的文学著作全部都能在这里找到，所以能给大家提供很多不错的新资源;

4、乾坤仙佛最新版

5、有大量的建筑类型可以让你选择，你可以给城堡增添许多不同风格的建筑。

jingzhiweimeidehuamian，wubizhuangguandutedechangjing，xiniderenwulihui，shijiaoxiangshou；xiangshouyukuaidequanxinjianzaotiaozhanzaizhelinidemeiyicinulidouhuiyoushouhuo；gongnenghenqiangda，caozuoyehenjiandan。shuidoukeyikuaisushangshou。mianfeideyouxidajiazaizhelirenyidexuanzeguankatiaozhanba。dajiaqishilaishoujishangguankanzhexieshipinjiaocheng，yiyangkeyilianxihaoshuxie，xiechuyishouhaozilaide，gankuailaizhelixuexixiale。戴(dai)著(zhu)(zhe)蘋(ping)果(guo)Vision Pro打(da)麻(ma)將(jiang)！NTU微(wei)軟(ruan)華(hua)人(ren)團(tuan)隊(dui)聯(lian)手(shou)打造(zao)Otter-E，專(zhuan)為(wei)AR頭(tou)顯(xian)設(she)計(ji)

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：桃(tao)子(zi) 拉(la)燕(yan)

【新智元導(dao)讀(du)】近(jin)日(ri)，南(nan)洋(yang)理(li)工(gong)&微软华人团队联手推(tui)出(chu)多(duo)模(mo)態(tai)模型(xing)「水(shui)獺(ta)」，未(wei)來(lai)還(hai)可(ke)成(cheng)为AR头显的(de)AI助(zhu)手，超(chao)越(yue)賈(jia)維(wei)斯(si)不(bu)是(shi)夢(meng)！

苹果封(feng)神(shen)头显Vision Pro誕(dan)生(sheng)，直(zhi)接(jie)開(kai)啟(qi)了(le)空(kong)間(jian)计算(suan)之(zhi)路(lu)。

如(ru)果开發(fa)壹(yi)個(ge)AI助手「贾维斯」，能(neng)夠(gou)讓(rang)下(xia)一代(dai)头显在(zai)生活(huo)中(zhong)发揮(hui)極(ji)致(zhi)，那(na)才(cai)真(zhen)的让人興(xing)奮(fen)。

打麻将時(shi)，直接問(wen)我(wo)該(gai)棄(qi)什(shen)麽(me)牌(pai)？Otter-E給(gei)出打牌建(jian)議(yi)，以(yi)後(hou)还不是把(ba)把胡(hu)。

空中飛(fei)行(xing)时问Otter-E我想(xiang)停(ting)在某(mou)个位(wei)置(zhi)，它(ta)便(bian)會(hui)詳(xiang)細(xi)講(jiang)解(jie)让妳(ni)如何(he)落(luo)地(di)。

?还有(you)踢(ti)球(qiu)时，也(ye)能尋(xun)求(qiu)Otter-E的建议。

甚(shen)至(zhi)，當(dang)你看(kan)到(dao)水裏(li)嬉(xi)戲(xi)的水獭，有感(gan)而(er)发，就(jiu)可以让Otter-E为你做(zuo)一首(shou)五(wu)行詩(shi)。

以上(shang)，便是来自(zi)南洋理工大(da)學(xue)和(he)微软的研(yan)究(jiu)人員(yuan)专为AR头显訓(xun)練(lian)的AI助手「Otter-E」。

其(qi)實(shi)，這(zhe)是Otter模型的另(ling)一个進(jin)化(hua)體(ti)。

Otter是一个基(ji)於(yu)OpenFlamingo的多模态的模型，在MIMIC-IT上进行了训练，並(bing)展(zhan)示(shi)了改(gai)进的指(zhi)令(ling)遵(zun)循(xun)能力(li)和上下文(wen)学習(xi)。

值(zhi)得(de)一提(ti)的是，Otter在2个消(xiao)費(fei)級(ji)的RTX3090 GPU便可跑(pao)。

另外(wai)，MIMIC-IT橫(heng)跨(kua)了7个圖(tu)片(pian)和視(shi)頻(pin)的數(shu)據(ju)集(ji)，涵(han)蓋(gai)了各(ge)種(zhong)各樣(yang)的場(chang)景(jing)，支(zhi)持(chi)8种語(yu)言(yan)。

從(cong)通(tong)用(yong)的场景理解，到发現(xian)细微差(cha)異(yi)，再(zai)到增(zeng)強(qiang)AR头显的第(di)一人稱(cheng)视图理解。

有網(wang)友(you)表(biao)示，很(hen)兴奋能够看到人們(men)为为苹果Vision Pro制(zhi)作(zuo)的AI AR應(ying)用。

支持8种语言，横跨7个数据集

目(mu)前(qian)，AI发展最(zui)快(kuai)的領(ling)域(yu)就集中在對(dui)話(hua)助手上，AI擁(yong)有强大的能力来理解用戶(hu)的意(yi)图，然(ran)后執(zhi)行。

除(chu)了大型语言模型（LLMs）的强大概(gai)括(kuo)能力外，指令調(tiao)優(you)功(gong)不可沒(mei)。

指令调优涉(she)及(ji)在一系(xi)列(lie)不同(tong)的高(gao)質(zhi)量(liang)的指令上对LLM进行微调。通過(guo)指令调优，LLMs獲(huo)得了对用户意图更(geng)强大的理解能力。

雖(sui)說(shuo)LLaVA的性(xing)能还算强大，但(dan)LLaVA-Instruct-150K仍(reng)然存(cun)在三(san)个限(xian)制。

(1) 有限的视覺(jiao)多样性。

(2) 以單(dan)一的图像(xiang)作为视觉数据。

(3) 僅(jin)有和语言相(xiang)關(guan)的上下文信(xin)息(xi)：

为了解決(jue)这些(xie)限制，研究人员引(yin)入(ru)了多模态上下文指令调整(zheng)（MIMIC-IT）。

MIMIC-IT有三个最大的特(te)點(dian)：

(1) 多样化的视觉场景，包(bao)含(han)了一般(ban)场景、自我中心(xin)视角(jiao)场景和室(shi)內(nei)RGB-D图像等(deng)不同数据集的图像和视频。

(2) 多个图像（或(huo)一个视频）作为视觉数据。

(3) 多模态的语境(jing)信息，特点是以多模态格(ge)式(shi)制定(ding)的语境信息，包括多个指令——回(hui)应对和多个图像或视频。

論(lun)文地址(zhi)：https://arxiv.org/pdf/2306.05425.pdf

下图为MIMIC-IT的示意图。

MIMIC-IT的数据集包括280萬(wan)个多模态指令——反(fan)应对，涵盖以下基本(ben)能力：感知(zhi)、推理，以及计劃(hua)。

每(mei)條(tiao)指令都(dou)伴(ban)隨(sui)着多模态的对话背(bei)景，使(shi)得在MIMIC-IT上训练的VLM能够在交(jiao)互(hu)式指令之后表现出强大的熟(shu)练度(du)，并能实现零(ling)样本泛(fan)化（zero-shot generalization）。

研究人员建立(li)了MIMIC-IT数据集，以支持更多的VLMs获得理解真实世(shi)界(jie)的能力。

下图是兩(liang)种模型数据格式的比(bi)較(jiao)：LLaVA-Instruct-150K vs MIMIC-IT

(a) LLaVA-Instruct150K由(you)单一图像和相应的仅有语言的语境信息（黃(huang)框(kuang)部(bu)分(fen)）組(zu)成。

(b) MIMIC-IT在輸(shu)入数据中容(rong)納(na)了多个图像或视频，并支持多模态的语境信息，即(ji)把图像/视频和语言输入都视为语境信息。

同时，研究人员提出了Sythus，这是一个用于生成多语言高质量指令-答(da)案(an)对的自動(dong)管(guan)道。

在LLaVA提出的框架(jia)基礎(chu)上，研究人员利(li)用ChatGPT来生成基于视觉内容的指令-回应对。

为了確(que)保(bao)生成的指令-回应对的质量，研究人员的数据管道将系統(tong)信息、视觉註(zhu)釋(shi)和上下文中的例(li)子作为ChatGPT的prompt。

由于核(he)心集的质量影(ying)響(xiang)到后續(xu)的数据收(shou)集过程(cheng)，研究人员采(cai)用了一个冷(leng)启动策(ce)略(lve)。

在冷启动階(jie)段(duan)，研究人员采用启发式方(fang)法(fa)，仅通过系统消息和视觉注释来提示ChatGPT收集上下文中的例子。

这个阶段只(zhi)有在确定了滿(man)意的语境中的例子后才会結(jie)束(shu)。

在第四(si)步(bu)，一旦(dan)获得指令-反应对，数据管道将它们擴(kuo)展为中文（zh）、日文（ja）、西(xi)班(ban)牙(ya)文（es）、德(de)文（de）、法文（fr）、韓(han)文（ko）和阿(e)拉伯(bo)语（ar）。

Sythus概述(shu)。研究人员采用了一个冷启动阶段来确定最佳(jia)的系统信息和语境中的例子，以便在给定的数据集中查(zha)詢(xun)指令-响应对。

随后，Sythus跨越步驟(zhou)1到4，生成了8种语言的高质量指令-响应对。

下图为MIMIC-IT與(yu)其他(ta)多模态指令数据集的比较。

MIMICIT憑(ping)借(jie)以下特点脫(tuo)穎(ying)而出：

(1) 最大的视觉语言指令数据集。

(2) 第一个包括视频数据的指令数据集。

(3) 支持多模态的上下文场景（数据格式見(jian)图2）。

(4) 支持八(ba)种语言，包括：英(ying)语、中文、西班牙语、日语、法语、德语、韩语和阿拉伯语。

MIMIC-IT的数据源(yuan)包括七(qi)个数据集：COCO, Spot-the-diff, ScanNetV2, VisualStorytelling, DenseCaption/Activity caption, TVCaption, and Ego4D。

其中lang.表示语言，vis.表示视觉。

下图为多模态的语境中指令-反应对的数据统计。

(a)和(b)，指令和回应的根(gen)动詞(ci)-名(ming)词对，图中内圈(quan)代表输出回应的根动词，外圈代表直接名词。

(c)指令和回应的统计，保留(liu)了25%的Ego4D指令，以使分布(bu)更均(jun)衡(heng)。

上图表现了Otter在不同场景下的反应实例。

在MIMIC-IT数据集上进行训练后，Otter能够为情(qing)境理解和推理、用语境中示例学习，以及自我视觉AI助手。

Otter诞生

研究者(zhe)展示了MIMIC-IT数据集的各种应用，以及在其上训练的视觉语言模型（VLM）的潛(qian)在能力。

研究者首先(xian)介(jie)紹(shao)了Otter，一种使用MIMIC-IT数据集训练的上下文指令调优模型。

接下来，研究人员还探(tan)討(tao)了在MIMIC-IT数据集上训练Otter的各种方法，并讨论了可以有效(xiao)使用Otter的許(xu)多场景

- 场景理解和推理

MIMIC-IT数据集包含大約(yue)280万个上下文指令-响应对，它们被(bei)结構(gou)化为一个内聚(ju)的模板(ban)，以便于完(wan)成各种任(ren)務(wu)。

下面(mian)的模板包括图像，用户指令和模型生成的响应，利用人類(lei)和助手角色(se)標(biao)簽(qian)，以实现用户与助手的無(wu)縫(feng)交互。

在MIMIC-IT数据集上训练Otter模型，可以让其获得不同的能力，这一点在LA和SD任务中得到了證(zheng)明(ming)。

在LA任务上的训练，Otter表现出卓(zhuo)越的场景理解力、推理能力和多輪(lun)对话能力。同时，在SD任务中，可以熟练地发现日常(chang)场景中的一般差异或微妙(miao)區(qu)別(bie)。

如图，在MIMIC-IT数据集上训练后Otter的回应，突(tu)出了它在多轮对话中理解和推理的能力。

- 用上下文示例学习

正(zheng)如前面提到的，关于组織(zhi)视觉语言在上下文实例的概念(nian)，研究人员演(yan)示了Otter模型在LA-T2T任务训练后遵循上下文间指令的能力。对于其他任务，输入数据的组织格式如下:

- 自我视觉理解

MIMIC-IT数据集的一个显著特点是，包含了一个第一人称的视频和連(lian)续图像的綜(zong)合(he)集合，来自IEP、E4D场景。

在IEP场景中，内容强调在室内環(huan)境中的理解和規(gui)划，包含了旨(zhi)在指导模型根据室内布局(ju)进行事(shi)件(jian)规划的指令和响应。

另一方面，E4D场景专門(men)为第一人称增强现实（AR）头显助理应用定制了指令和响应。

根据这部分数据，研究人员训练了一个自我视觉助手，称为Otter-E，专门为AR头显应用设计的。

MIMIC-IT增强了该模型从第一人称视角感知场景的能力，为即将到来的任务制定策略，并为AR耳(er)機(ji)用户提供(gong)有價(jia)值的见解和建议。

因(yin)此(ci)，Otter-E模型成为AR头显的一个特殊(shu)和有遠(yuan)见的视觉语言模型，为开創(chuang)性的沈(chen)浸(jin)式体驗(yan)鋪(pu)平(ping)道路。

实验評(ping)估(gu)

如下表，研究人员利用MMAGIBench框架对视觉语言模型的感知和推理能力的廣(guang)泛评估。

Otter通过在感知和推理任务中实现最高的平均準(zhun)确性，优于所(suo)有基線(xian)模型。

目前视觉语言模型的评估指标，如VQAv2，在穩(wen)健(jian)性方面存在缺(que)陷(xian)。例如，VQAv2主(zhu)要(yao)评估单字(zi)或短(duan)语的反应，而许多模型則(ze)產(chan)生句(ju)子输出。

为了彌(mi)補(bu)这一差距(ju)，研究人员通过要求ChatGPT将其标签預(yu)測(ce)，与每个输入的真实标签进行比较来评估这些模型。如果ChatGPT的反应表明预测与相应的标签一致，则認(ren)为测試(shi)样本是正确的。

如图，Otter 在视频理解方面的表现优于基线模型。(b)人类评估比较。Otter 展示了优越的实用性和一致性。(c)上下文学习评估中的少(shao)量鏡(jing)头。Otter 优于 OpenFlamingo 作为一个更好(hao)的语境和零镜头学习者。

作者介绍

Li Bo

Li Bo是南洋理工大学计算机系一年(nian)级博(bo)士(shi)生，导師(shi)是劉(liu)子緯(wei)。他熱(re)衷(zhong)的深(shen)度学习研究话題(ti)包括：

基础模型：稳定扩散(san)，GPT，它们似(si)乎(hu)有望(wang)将具(ju)有真正智能的人工智能投(tou)入实際(ji)应用。

具身(shen)AI: 一种通过互动和探索(suo)学习解决环境中具有挑(tiao)戰(zhan)性任务的自主智能体。

这些都是登(deng)月(yue)计划的狂(kuang)野(ye)梦想，也是Li将長(chang)期(qi)关注的问题。目前他的第一步研究課(ke)题是聚集于真实世界的场景中的计算机视觉和基础模型的新兴能力。

Yuanhan Zhang (張(zhang)元瀚(han))

张元瀚是南洋理工的博士生，导师也是刘子纬。他的研究兴趣(qu)在于计算机视觉和深度学习。特别是，对表征(zheng)学习和可轉(zhuan)移(yi)性感兴趣。

Ziwei Liu（刘子纬）

刘子纬，新加(jia)坡(po)南洋理工大学助理教(jiao)授(shou)，并获得南洋学者称號(hao)（Nanyang Assistant Professor）。他的研究兴趣包括计算机视觉、机器(qi)学习与计算机图形(xing)学。

參(can)考(kao)資(zi)料(liao)：

https://www.reddit.com/r/MachineLearning/comments/1460dsr/otter_is_a_multimodal_model_developed_on/

https://otter-ntu.github.io/

https://arxiv.org/pdf/2306.05425.pdf返(fan)回搜(sou)狐(hu)，查看更多

責(ze)任编辑：