北京威泰广告有限公司

北京威泰广告有限公司:为您的品牌打造更好的未来

北京威泰广告有限公司是中国领先的广告服务提供商之一,专注于为客户提供卓越的广告和营销解决方案。作为一家多年来累积的丰富经验和实力的公司,我们努力为每个客户创造出最好的品牌形象和推广效果,帮助他们在市场竞争中脱颖而出。

北京威泰广告有限公司

我们的公司集中于广告设计、广告投放和媒体咨询,我们的服务涵盖了多个行业,包括金融、房地产、教育、医疗、消费品、电子商务等。我们成功地为众多客户提供了广告策略规划、品牌形象策划、广告创意制作、广告投放、网络推广、电视广告广告策划和制作、公关活动策划等各种服务。

我们的专业团队

北京威泰广告有限公司的专业团队是我们成功的保证。我们拥有一支经验丰富的资深营销人员、广告设计师、媒体投放专家、网络推广专家和公关活动策划师。我们的团队致力于为客户提供最专业、最优质的服务。

广告团队

我们的团队不仅能够为客户提供创新、而且还具备大量的实践经验。我们的专业人员具有创造力和想象力,可以帮助客户打造出最好的广告和品牌形象。我们的团队还会根据客户的实际需求,提供最佳的解决方案,确保客户的满意度。

我们的服务承诺

北京威泰广告有限公司非常注重客户的需求和满意度。我们承诺为客户提供最优质的服务,确保客户获得最佳的广告效果。我们的服务承诺包括:

  • 为客户提供最专业、最优质的广告和营销解决方案;
  • 为客户提供全方位的服务,包括广告策略规划、品牌形象策划、广告创意制作、广告投放、网络推广等服务;
  • 遵守中国广告法规,不会进行违法或不道德的广告宣传;
  • 确保客户的满意度,提供完善的售后服务。
广告效果

我们的公司一直秉承“以客户为中心”的理念,不断提升服务质量,为客户提供最优质的广告服务和完美的品牌形象。我们期待与您合作,共同打造出更好的未来。

结论

北京威泰广告有限公司是中国领先的广告服务提供商之一,拥有丰富的经验和实力,致力于为客户提供最优质的广告和营销解决方案。我们的专业团队和优质服务承诺,能够为客户带来最佳的广告效果和品牌形象。我们期待与您合作,共同打造出更好的未来。

北京威泰广告有限公司随机日志

时间和语言界面点击区域,如果是中文,切换成英文重启,然后在切换到中文重新启动

1、海量题库。让学生可以随时随地提高自己的数学成绩,在这里还为学生精挑细选的提供了海量的题库进行练习,包含了口算练习,速算练习,以及实景应用练习等不一样的练习方式。

2、点击上传的下拉框,选择继续文件传输点击确定就可以了

3、根据项目实际的工作时间修改,可以保证排期时,任务准确分布

4、【智能关爱】智能健康设备管理,测量数据实时同步。为您提供专业的数据管理、分析服务;

5、是否使用我们这个软甲默认打开种子文件。这个设置是设置文件关联的,设置过后我们可以直接双击torrent文件添加下载到Qdown。该设置需要使用管理员权限,并且可能会收到杀毒软件的阻拦!注意在添加过后可能会发现点击种子文件不能添加到Qdown,这时候在种子文件上右键,选择“打开方式”,里面选择这个软件,然后你就会发现下载被添加到了Qdown并且种子文件的图标全部变为了软件的图标,以后就可以双击种子文件进行添加了;

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>北(bei)大(da)、西(xi)湖(hu)大學(xue)等(deng)開(kai)源(yuan)「裁(cai)判(pan)大模(mo)型(xing)」PandaLM:三(san)行(xing)代(dai)碼(ma)全(quan)自(zi)動(dong)評(ping)估(gu)LLM,準(zhun)確(que)率(lv)達(da)ChatGPT的(de)94%

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji):LRS

【新智元導(dao)讀(du)】大模型誰(shui)強(qiang)谁弱(ruo),用(yong)PandaLM比(bi)壹(yi)比就(jiu)知(zhi)道了(le)!

ChatGPT發(fa)布(bu)後(hou),自然(ran)語(yu)言(yan)處(chu)理(li)領(ling)域(yu)的生(sheng)態(tai)徹(che)底(di)发生了變(bian)化(hua),很(hen)多(duo)之(zhi)前(qian)無(wu)法(fa)完(wan)成(cheng)的問(wen)題(ti)都(dou)可(ke)以(yi)利(li)用ChatGPT解(jie)決(jue)。

不(bu)過(guo)也(ye)帶(dai)來(lai)了一個(ge)问题:大模型的性(xing)能(neng)都太(tai)强了,光(guang)靠(kao)肉(rou)眼(yan) 很難(nan)评估各(ge)个模型的差(cha)異(yi)。

比如(ru)用不同(tong)的基(ji)座(zuo)模型和(he)超(chao)參(can)數(shu)訓(xun)練(lian)了幾(ji)版(ban)模型,從(cong)樣(yang)例(li)来看(kan)性能可能都差不多,无法完全量(liang)化兩(liang)个模型之間(jian)的性能差距(ju)。

目(mu)前 评估大语言模型主(zhu)要(yao)有(you)两个方(fang)案(an):

1、調(tiao)用OpenAI的API接(jie)口(kou)评估。

ChatGPT可以用来评估两个模型輸(shu)出(chu)的質(zhi)量,不过ChatGPT一直(zhi)在(zai)疊(die)(die)代升(sheng)級(ji),不同時(shi)间對(dui)同一个问题的回(hui)復(fu)可能會(hui)有所(suo)不同,评估結(jie)果(guo)存(cun)在 无法复現(xian)的问题。

2、人(ren)工(gong)標(biao)註(zhu)

如果在眾(zhong)包(bao)平(ping)臺(tai)上(shang)請(qing)人工标注的話(hua), 經(jing)費(fei)不足(zu)的團(tuan)隊(dui)可能无力(li)負(fu)擔(dan),也存在第(di)三方公(gong)司(si) 泄(xie)露(lu)数據(ju)的情(qing)況(kuang)。

為(wei)了解决諸(zhu)如此(ci)類(lei)的「大模型评估问题」,来自北京(jing)大学、西湖大学、北卡(ka)羅(luo)来納(na)州(zhou)立(li)大学、卡內(nei)基梅(mei)隆(long)大学、MSRA的研(yan)究(jiu)人員(yuan)合(he)作(zuo)开发了一个全新的语言模型评估框(kuang)架(jia)PandaLM,致(zhi)力於(yu)實(shi)现保(bao)護(hu)隱(yin)私(si)、可靠、可复现及(ji)廉(lian)價(jia)的大模型评估方案。

項(xiang)目鏈(lian)接:https://github.com/WeOpenML/PandaLM

提(ti)供(gong)相(xiang)同的上下(xia)文(wen),PandaLM可以比較(jiao)不同LLM的響(xiang)應(ying)输出,並(bing)提供具(ju)體(ti)的理由(you)。

为了證(zheng)明(ming)該(gai)工具的可靠性和一致性,研究人员創(chuang)建(jian)了一个由大約(yue)1000个样本(ben)組(zu)成的多样化的人类标注測(ce)試(shi)数据集(ji),其(qi)中(zhong)PandaLM-7B的准确率达到(dao)了 ChatGPT的94%评估能力。

三行代码用上PandaLM

當(dang)两个不同的大模型对同一个指(zhi)令(ling)和上下文產(chan)生不同响应时,PandaLM旨(zhi)在比较這(zhe)两个大模型的响应质量,并输出比较结果,比较理由以及可供参考(kao)的响应。

比较结果有三種(zhong):响应1更(geng)好(hao),响应2更好,响应1與(yu)响应2质量相似(si)。

比较多个大模型的性能时,只(zhi)需(xu)使(shi)用PandaLM对其進(jin)行两两比较,再(zai)匯(hui)總(zong)两两比较的结果进行多个大模型的性能排(pai)名(ming)或(huo)畫(hua)出模型偏(pian)序(xu)關(guan)系(xi)圖(tu),即(ji)可清(qing)晰(xi)直觀(guan)地(di)分(fen)析(xi)不同模型间的性能差异。

PandaLM只需要在「本地部(bu)署(shu)」,且(qie)「不需要人类参与」,因(yin)此PandaLM的评估是(shi)可以保护隐私且相当廉价的。

为了提供更好的可解釋(shi)性,PandaLM亦(yi)可用自然语言对其選(xuan)擇(ze)进行解释,并額(e)外(wai)生成一组参考响应。

在项目中,研究人员不僅(jin)支(zhi)持(chi)使用Web UI使用PandaLM以便(bian)于进行案例分析,为了方便使用,還(hai)支持三行代码调用PandaLM对任(ren)意(yi)模型和数据生成的文本评估。

考慮(lv)到现有的許(xu)多模型、框架并不开源或难以在本地完成推(tui)理,PandaLM支持利用指定(ding)模型權(quan)重(zhong)生成待(dai)评估文本,或直接傳(chuan)入(ru)包含(han)待评估文本的.json文件(jian)。

用戶(hu)只需传入一个包含模型名稱(cheng)/HuggingFace模型ID或.json文件路(lu)徑(jing)的列(lie)表(biao),即可利用PandaLM对用户定義(yi)的模型和输入数据进行评估。下面(mian)是一个極(ji)簡(jian)的使用示(shi)例:

为了能讓(rang)大家(jia)靈(ling)活(huo)的運(yun)用PandaLM进行自由评测,研究人员也將(jiang)PandaLM的模型权重公布在了huggingface網(wang)站(zhan)上,可以通(tong)过以下命(ming)令加(jia)載(zai)PandaLM-7B模型:

PandaLM的特(te)點(dian)

可复现性

因为PandaLM的权重是公开的,即使语言模型的输出有隨(sui)機(ji)性,当固(gu)定随机种子(zi)之后,PandaLM的评价结果仍(reng)可始(shi)終(zhong)保持一致。

而(er)基于在線(xian)API的模型的更新不透(tou)明,其输出在不同时间有可能很不一致,且舊(jiu)版模型不再可訪(fang)问,因此基于在线API的评测往(wang)往不具有可复现性。

自动化、保护隐私性和开銷(xiao)低(di)

只需本地部署PandaLM模型,调用现成的命令即可开始评估各种大模型,不需像(xiang)雇(gu)傭(yong)專(zhuan)家标注时要时刻(ke)与专家保持溝(gou)通,也不会存在数据泄露的问题,同时也不涉(she)及任何(he)API费用以及勞(lao)務(wu)费用,非(fei)常(chang)廉价。

评估水(shui)平

为了证明PandaLM的可靠性,研究人员雇佣了三个专家进行獨(du)立重复标注,创建了一个人工标注的测试集。

测试集包含50个不同的場(chang)景(jing),每(mei)个场景中又(you)包含若(ruo)幹(gan)任务。这个测试集是多样化、可靠且与人类对文本的偏好相一致的。测试集的每个样本由一个指令和上下文,以及两个由不同大模型生成的响应共(gong)同组成,并由人类来比较这两个响应的质量。

篩(shai)除(chu)了标注员之间有较大差异的样本,以确保每个标注者(zhe)在最(zui)终测试集上的IAA(Inter Annotator Agreement)接近(jin)0.85。值(zhi)得(de)注意的是,PandaLM的训练集与创建的人工标注测试集无任何重叠。

这些(xie)被(bei)过濾(lv)的样本需要额外的知識(shi)或难以獲(huo)取(qu)的信(xin)息(xi)来輔(fu)助(zhu)判斷(duan),这使得人类也难以对它(ta)們(men)进行准确标注。

经过筛选的测试集包含1000个样本,而原(yuan)始未(wei)经过滤的测试集包含2500个样本。测试集的分布为{0:105,1:422,2:472},其中0表示两个响应质量相似,1表示响应1更好,2表示响应2更好。以人类测试集为基准,PandaLM与gpt-3.5-turbo的性能对比如下:

可以看到,PandaLM-7B在准确度(du)上已(yi)经达到了gpt-3.5-turbo 94%的水平,而在精(jing)确率,召(zhao)回率,F1分数上,PandaLM-7B已于gpt-3.5-turbo相差无几。

因此,相比于gpt-3.5-turbo而言,可以認(ren)为PandaLM-7B已经具備(bei)了相当的大模型评估能力。

除了在测试集上的准确度,精确率,召回率,F1分数之外,还提供了5个大小(xiao)相近且开源的大模型之间比较的结果。

首(shou)先(xian)使用了相同的训练数据对这个5个模型进行指令微(wei)调,接著(zhe)用人类,gpt-3.5-turbo,PandaLM对这5个模型分別(bie)进行两两比较。

下表中第一行第一个元组(72,28,11)表示有72个LLaMA-7B的响应比Bloom-7B的好,有28个LLaMA-7B的响应比Bloom-7B的差,两个模型有11个响应质量相似。

因此在这个例子中,人类认为LLaMA-7B優(you)于Bloom-7B。下面三張(zhang)表的结果說(shuo)明人类,gpt-3.5-turbo与PandaLM-7B对于各个模型之间优劣(lie)关系的判断完全一致。

总结

PandaLM提供了除人类评估与OpenAI API评估之外的第三條(tiao)评估大模型的方案,PandaLM不仅评估水平高(gao),而且评估结果可复现,评估流(liu)程(cheng)自动化,保护隐私且开销低。

未来,PandaLM将推动学術(shu)界(jie)和工業(ye)界关于大模型的研究,使得更多人受(shou)益(yi)于大模型的发展(zhan)。

参考資(zi)料(liao):

https://zhuanlan.zhihu.com/p/626391857返(fan)回搜(sou)狐(hu),查(zha)看更多

責(ze)任编辑:

发布于:山东济宁兖州市