北京威泰广告有限公司

北京威泰广告有限公司：为您的品牌打造更好的未来

北京威泰广告有限公司是中国领先的广告服务提供商之一，专注于为客户提供卓越的广告和营销解决方案。作为一家多年来累积的丰富经验和实力的公司，我们努力为每个客户创造出最好的品牌形象和推广效果，帮助他们在市场竞争中脱颖而出。

我们的公司集中于广告设计、广告投放和媒体咨询，我们的服务涵盖了多个行业，包括金融、房地产、教育、医疗、消费品、电子商务等。我们成功地为众多客户提供了广告策略规划、品牌形象策划、广告创意制作、广告投放、网络推广、电视广告广告策划和制作、公关活动策划等各种服务。

我们的专业团队

北京威泰广告有限公司的专业团队是我们成功的保证。我们拥有一支经验丰富的资深营销人员、广告设计师、媒体投放专家、网络推广专家和公关活动策划师。我们的团队致力于为客户提供最专业、最优质的服务。

我们的团队不仅能够为客户提供创新、而且还具备大量的实践经验。我们的专业人员具有创造力和想象力，可以帮助客户打造出最好的广告和品牌形象。我们的团队还会根据客户的实际需求，提供最佳的解决方案，确保客户的满意度。

我们的服务承诺

北京威泰广告有限公司非常注重客户的需求和满意度。我们承诺为客户提供最优质的服务，确保客户获得最佳的广告效果。我们的服务承诺包括：

为客户提供最专业、最优质的广告和营销解决方案；
为客户提供全方位的服务，包括广告策略规划、品牌形象策划、广告创意制作、广告投放、网络推广等服务；
遵守中国广告法规，不会进行违法或不道德的广告宣传；
确保客户的满意度，提供完善的售后服务。

我们的公司一直秉承“以客户为中心”的理念，不断提升服务质量，为客户提供最优质的广告服务和完美的品牌形象。我们期待与您合作，共同打造出更好的未来。

结论

北京威泰广告有限公司是中国领先的广告服务提供商之一，拥有丰富的经验和实力，致力于为客户提供最优质的广告和营销解决方案。我们的专业团队和优质服务承诺，能够为客户带来最佳的广告效果和品牌形象。我们期待与您合作，共同打造出更好的未来。

北京威泰广告有限公司随机日志

时间和语言界面点击区域，如果是中文，切换成英文重启，然后在切换到中文重新启动

1、海量题库。让学生可以随时随地提高自己的数学成绩，在这里还为学生精挑细选的提供了海量的题库进行练习，包含了口算练习，速算练习，以及实景应用练习等不一样的练习方式。

2、点击上传的下拉框，选择继续文件传输点击确定就可以了

3、根据项目实际的工作时间修改，可以保证排期时，任务准确分布

4、【智能关爱】智能健康设备管理，测量数据实时同步。为您提供专业的数据管理、分析服务；

5、是否使用我们这个软甲默认打开种子文件。这个设置是设置文件关联的，设置过后我们可以直接双击torrent文件添加下载到Qdown。该设置需要使用管理员权限，并且可能会收到杀毒软件的阻拦！注意在添加过后可能会发现点击种子文件不能添加到Qdown，这时候在种子文件上右键，选择“打开方式”，里面选择这个软件，然后你就会发现下载被添加到了Qdown并且种子文件的图标全部变为了软件的图标，以后就可以双击种子文件进行添加了；

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>北(bei)大(da)、西(xi)湖(hu)大學(xue)等(deng)開(kai)源(yuan)「裁(cai)判(pan)大模(mo)型(xing)」PandaLM：三(san)行(xing)代(dai)碼(ma)全(quan)自(zi)動(dong)評(ping)估(gu)LLM，準(zhun)確(que)率(lv)達(da)ChatGPT的(de)94%

新(xin)智(zhi)元(yuan)報(bao)道(dao)

編(bian)輯(ji)：LRS

【新智元導(dao)讀(du)】大模型誰(shui)強(qiang)谁弱(ruo)，用(yong)PandaLM比(bi)壹(yi)比就(jiu)知(zhi)道了(le)！

ChatGPT發(fa)布(bu)後(hou)，自然(ran)語(yu)言(yan)處(chu)理(li)領(ling)域(yu)的生(sheng)態(tai)徹(che)底(di)发生了變(bian)化(hua)，很(hen)多(duo)之(zhi)前(qian)無(wu)法(fa)完(wan)成(cheng)的問(wen)題(ti)都(dou)可(ke)以(yi)利(li)用ChatGPT解(jie)決(jue)。

不(bu)過(guo)也(ye)帶(dai)來(lai)了一個(ge)问题：大模型的性(xing)能(neng)都太(tai)强了，光(guang)靠(kao)肉(rou)眼(yan) 很難(nan)评估各(ge)个模型的差(cha)異(yi)。

比如(ru)用不同(tong)的基(ji)座(zuo)模型和(he)超(chao)參(can)數(shu)訓(xun)練(lian)了幾(ji)版(ban)模型，從(cong)樣(yang)例(li)来看(kan)性能可能都差不多，无法完全量(liang)化兩(liang)个模型之間(jian)的性能差距(ju)。

目(mu)前评估大语言模型主(zhu)要(yao)有(you)两个方(fang)案(an)：

1、調(tiao)用OpenAI的API接(jie)口(kou)评估。

ChatGPT可以用来评估两个模型輸(shu)出(chu)的質(zhi)量，不过ChatGPT一直(zhi)在(zai)疊(die)(die)代升(sheng)級(ji)，不同時(shi)间對(dui)同一个问题的回(hui)復(fu)可能會(hui)有所(suo)不同，评估結(jie)果(guo)存(cun)在无法复現(xian)的问题。

2、人(ren)工(gong)標(biao)註(zhu)

如果在眾(zhong)包(bao)平(ping)臺(tai)上(shang)請(qing)人工标注的話(hua)，經(jing)費(fei)不足(zu)的團(tuan)隊(dui)可能无力(li)負(fu)擔(dan)，也存在第(di)三方公(gong)司(si) 泄(xie)露(lu)数據(ju)的情(qing)況(kuang)。

為(wei)了解决諸(zhu)如此(ci)類(lei)的「大模型评估问题」，来自北京(jing)大学、西湖大学、北卡(ka)羅(luo)来納(na)州(zhou)立(li)大学、卡內(nei)基梅(mei)隆(long)大学、MSRA的研(yan)究(jiu)人員(yuan)合(he)作(zuo)开发了一个全新的语言模型评估框(kuang)架(jia)PandaLM，致(zhi)力於(yu)實(shi)现保(bao)護(hu)隱(yin)私(si)、可靠、可复现及(ji)廉(lian)價(jia)的大模型评估方案。

項(xiang)目鏈(lian)接：https://github.com/WeOpenML/PandaLM

提(ti)供(gong)相(xiang)同的上下(xia)文(wen)，PandaLM可以比較(jiao)不同LLM的響(xiang)應(ying)输出，並(bing)提供具(ju)體(ti)的理由(you)。

为了證(zheng)明(ming)該(gai)工具的可靠性和一致性，研究人员創(chuang)建(jian)了一个由大約(yue)1000个样本(ben)組(zu)成的多样化的人类标注測(ce)試(shi)数据集(ji)，其(qi)中(zhong)PandaLM-7B的准确率达到(dao)了 ChatGPT的94%评估能力。

三行代码用上PandaLM

當(dang)两个不同的大模型对同一个指(zhi)令(ling)和上下文產(chan)生不同响应时，PandaLM旨(zhi)在比较這(zhe)两个大模型的响应质量，并输出比较结果，比较理由以及可供参考(kao)的响应。

比较结果有三種(zhong)：响应1更(geng)好(hao)，响应2更好，响应1與(yu)响应2质量相似(si)。

比较多个大模型的性能时，只(zhi)需(xu)使(shi)用PandaLM对其進(jin)行两两比较，再(zai)匯(hui)總(zong)两两比较的结果进行多个大模型的性能排(pai)名(ming)或(huo)畫(hua)出模型偏(pian)序(xu)關(guan)系(xi)圖(tu)，即(ji)可清(qing)晰(xi)直觀(guan)地(di)分(fen)析(xi)不同模型间的性能差异。

PandaLM只需要在「本地部(bu)署(shu)」，且(qie)「不需要人类参与」，因(yin)此PandaLM的评估是(shi)可以保护隐私且相当廉价的。

为了提供更好的可解釋(shi)性，PandaLM亦(yi)可用自然语言对其選(xuan)擇(ze)进行解释，并額(e)外(wai)生成一组参考响应。

在项目中，研究人员不僅(jin)支(zhi)持(chi)使用Web UI使用PandaLM以便(bian)于进行案例分析，为了方便使用，還(hai)支持三行代码调用PandaLM对任(ren)意(yi)模型和数据生成的文本评估。

考慮(lv)到现有的許(xu)多模型、框架并不开源或难以在本地完成推(tui)理，PandaLM支持利用指定(ding)模型權(quan)重(zhong)生成待(dai)评估文本，或直接傳(chuan)入(ru)包含(han)待评估文本的.json文件(jian)。

用戶(hu)只需传入一个包含模型名稱(cheng)/HuggingFace模型ID或.json文件路(lu)徑(jing)的列(lie)表(biao)，即可利用PandaLM对用户定義(yi)的模型和输入数据进行评估。下面(mian)是一个極(ji)簡(jian)的使用示(shi)例：

为了能讓(rang)大家(jia)靈(ling)活(huo)的運(yun)用PandaLM进行自由评测，研究人员也將(jiang)PandaLM的模型权重公布在了huggingface網(wang)站(zhan)上，可以通(tong)过以下命(ming)令加(jia)載(zai)PandaLM-7B模型：

PandaLM的特(te)點(dian)

可复现性

因为PandaLM的权重是公开的，即使语言模型的输出有隨(sui)機(ji)性，当固(gu)定随机种子(zi)之后，PandaLM的评价结果仍(reng)可始(shi)終(zhong)保持一致。

而(er)基于在線(xian)API的模型的更新不透(tou)明，其输出在不同时间有可能很不一致，且舊(jiu)版模型不再可訪(fang)问，因此基于在线API的评测往(wang)往不具有可复现性。

自动化、保护隐私性和开銷(xiao)低(di)

只需本地部署PandaLM模型，调用现成的命令即可开始评估各种大模型，不需像(xiang)雇(gu)傭(yong)專(zhuan)家标注时要时刻(ke)与专家保持溝(gou)通，也不会存在数据泄露的问题，同时也不涉(she)及任何(he)API费用以及勞(lao)務(wu)费用，非(fei)常(chang)廉价。

评估水(shui)平

为了证明PandaLM的可靠性，研究人员雇佣了三个专家进行獨(du)立重复标注，创建了一个人工标注的测试集。

测试集包含50个不同的場(chang)景(jing)，每(mei)个场景中又(you)包含若(ruo)幹(gan)任务。这个测试集是多样化、可靠且与人类对文本的偏好相一致的。测试集的每个样本由一个指令和上下文，以及两个由不同大模型生成的响应共(gong)同组成，并由人类来比较这两个响应的质量。

篩(shai)除(chu)了标注员之间有较大差异的样本，以确保每个标注者(zhe)在最(zui)终测试集上的IAA（Inter Annotator Agreement）接近(jin)0.85。值(zhi)得(de)注意的是，PandaLM的训练集与创建的人工标注测试集无任何重叠。

这些(xie)被(bei)过濾(lv)的样本需要额外的知識(shi)或难以獲(huo)取(qu)的信(xin)息(xi)来輔(fu)助(zhu)判斷(duan)，这使得人类也难以对它(ta)們(men)进行准确标注。

经过筛选的测试集包含1000个样本，而原(yuan)始未(wei)经过滤的测试集包含2500个样本。测试集的分布为{0：105，1：422，2：472}，其中0表示两个响应质量相似，1表示响应1更好，2表示响应2更好。以人类测试集为基准，PandaLM与gpt-3.5-turbo的性能对比如下：

可以看到，PandaLM-7B在准确度(du)上已(yi)经达到了gpt-3.5-turbo 94%的水平，而在精(jing)确率，召(zhao)回率，F1分数上，PandaLM-7B已于gpt-3.5-turbo相差无几。

因此，相比于gpt-3.5-turbo而言，可以認(ren)为PandaLM-7B已经具備(bei)了相当的大模型评估能力。

除了在测试集上的准确度，精确率，召回率，F1分数之外，还提供了5个大小(xiao)相近且开源的大模型之间比较的结果。

首(shou)先(xian)使用了相同的训练数据对这个5个模型进行指令微(wei)调，接著(zhe)用人类，gpt-3.5-turbo，PandaLM对这5个模型分別(bie)进行两两比较。

下表中第一行第一个元组（72，28，11）表示有72个LLaMA-7B的响应比Bloom-7B的好，有28个LLaMA-7B的响应比Bloom-7B的差，两个模型有11个响应质量相似。

因此在这个例子中，人类认为LLaMA-7B優(you)于Bloom-7B。下面三張(zhang)表的结果說(shuo)明人类，gpt-3.5-turbo与PandaLM-7B对于各个模型之间优劣(lie)关系的判断完全一致。

总结

PandaLM提供了除人类评估与OpenAI API评估之外的第三條(tiao)评估大模型的方案，PandaLM不仅评估水平高(gao)，而且评估结果可复现，评估流(liu)程(cheng)自动化，保护隐私且开销低。

未来，PandaLM将推动学術(shu)界(jie)和工業(ye)界关于大模型的研究，使得更多人受(shou)益(yi)于大模型的发展(zhan)。

参考資(zi)料(liao)：

https://zhuanlan.zhihu.com/p/626391857返(fan)回搜(sou)狐(hu)，查(zha)看更多

責(ze)任编辑：