家乡土特产品宣传广告

青海日报

家乡土特产品：美味的贵州腊肉

贵州是一个美丽的地方，这里山清水秀，物产丰富。其中最出名的莫过于土特产品了，其中最受欢迎的是贵州腊肉。这种美味的食物不仅仅是一种零食，更是一个文化的象征。贵州腊肉具有鲜美的口感和独特的制作工艺，让人们无法停止品尝。

贵州腊肉的口感鲜美，肉质酥软，甜咸适度，而且口感细腻，香味浓郁。这种美味的腊肉是由当地的农民用当地的优质猪肉制作而成。制作的过程非常考究，需要经过腌制、晾晒、熏制等多个环节。只有这样，腊肉才能达到最好的口感。

贵州腊肉的历史和文化

贵州腊肉的历史可以追溯到明朝时期，那时它是一种贵族食品。随着时间的推移，贵州腊肉逐渐普及到民间，成为了广大人民的最爱。现在，贵州腊肉已经成为了贵州的代表性土特产品之一，越来越多的人开始关注它的文化魅力。

贵州腊肉不仅仅是一种美味的食品，更是一种文化的象征。腊肉的制作需要花费很长时间，需要用到一些特殊的工具和材料。这些工具和材料不仅能够传承下来，还可以用来纪念那些曾经制作腊肉的人们。因此，贵州腊肉已经成为了一个文化的代表，代表着这个地方的历史和文化。

贵州腊肉的营养价值

贵州腊肉不仅仅美味，还非常有营养。腊肉富含蛋白质、脂肪和维生素，对人体健康非常有益。腊肉中的脂肪主要是不饱和脂肪酸，对心血管疾病有很好的预防作用。此外，腊肉中的蛋白质含量也很高，可以提供人体所需的营养成分。

如果你想品尝到正宗的贵州腊肉，可以到当地的土特产品市场购买，或者在一些知名的购物网站上购买。总之，贵州腊肉是一种非常美味的食品，无论你是当地人还是外地人，都可以品尝到这种美味的食品。

结论

贵州腊肉不仅仅是一种美味的食品，更是一个文化的象征。它的历史可以追溯到几百年前，它的制作工艺也是非常讲究的。贵州腊肉不仅仅在当地很受欢迎，而且在全国范围内也很有名气。如果你想品尝到正宗的贵州腊肉，可以到当地购买，或者在一些购物网站上购买。总之，贵州腊肉是一种非常美味的食品，如果你还没有尝试过，不妨去品尝一下。

家乡土特产品宣传广告随机日志

采用Web开发技术与Native系统技术相结合的方式开发的应用程序，Native和Web应用一体化融合，兼顾Native高性能应用和业务需求多变应用，支持基于插件的独立功能开发，有效避免新业务拓展带来客户端频繁升级。

1、修改入驻时图片验证码会在点击其他编辑框时更新的bug

2、消息查询：可及时收取S店相关信息、故障消息等。

3、米压在解压或者压缩时新增错误的提示,新增米压压缩完成时关机的窗口,新增米压压缩完成时对当前包的测试,新增米压压缩完成时删除源文件更多,解压路径和选项窗口的配置文件修改,解压目标文件路径的修改收起

4、在类型选项卡有一项端口号（，对于端口号我们在没有特别要求的情况下就使用默认的（，而不必再进行任何改变。

5、客户端支持UDP私有协议，延时低、抗网络抖动强，为您提供更流畅更稳定的互动直播教学体验

<随心_句子c><随心_句子c><随心_句子c><随心_句子c><随心_句子c>AI考(kao)公(gong)考編(bian)指(zhi)日(ri)可(ke)待(dai)！微(wei)軟(ruan)華(hua)人(ren)團(tuan)隊(dui)發(fa)布(bu)全(quan)新(xin)基(ji)準(zhun)AGIEval，專(zhuan)為(wei)人類(lei)考試(shi)而(er)生(sheng)

新智(zhi)元(yuan)報(bao)道(dao)

编輯(ji)：LRS

【新智元導(dao)讀(du)】讓(rang)AI參(can)加(jia)法(fa)考、高(gao)考、公務(wu)員(yuan)考试的(de)話(hua)，能(neng)拿(na)幾(ji)個(ge)offer？

隨(sui)著(zhe)語(yu)言(yan)模(mo)型(xing)的能力(li)越(yue)來(lai)越強(qiang)，現(xian)有(you)的這(zhe)些(xie)評(ping)估(gu)基准實(shi)在(zai)有點(dian)小(xiao)兒(er)科(ke)了(le)，有些任(ren)务的性(xing)能都(dou)甩(shuai)了人类壹(yi)截(jie)。

通(tong)用(yong)人工(gong)智能（AGI）的一个重(zhong)要(yao)特(te)点是(shi)模型具(ju)有處(chu)理(li)人类水(shui)平(ping)任务的泛(fan)化(hua)能力，而依(yi)賴(lai)於(yu)人工數(shu)據(ju)集(ji)的傳(chuan)統(tong)基准測(ce)试並(bing)不(bu)能准確(que)表(biao)示(shi)人类的能力。

最(zui)近(jin)，微软的研(yan)究(jiu)人员发布了一个全新基准 AGIEval，专門(men)用于评估基礎(chu)模型在「以(yi)人为本(ben)」（human-centric）的標(biao)准化考试中(zhong)，如(ru)高考、公务员考试、法學(xue)院(yuan)入(ru)学考试、数学競(jing)賽(sai)和(he)律(lv)師(shi)資(zi)格(ge)考试中的表现。

論(lun)文(wen)鏈(lian)接(jie)：https://arxiv.org/pdf/2304.06364.pdf

数据链接：https://github.com/microsoft/AGIEval

研究人员使(shi)用AGIEval基准评估了三(san)个最先(xian)進(jin)的基础模型，包(bao)括(kuo)GPT-4、 ChatGPT和Text-Davinci-003，实驗(yan)結(jie)果(guo)发现GPT-4在SAT、 LSAT和数学竞赛中的成(cheng)績(ji)超(chao)過(guo)了人类平均(jun)水平，SAT数学考试的准确率(lv)達(da)到(dao)了95% ，中國(guo)高考英(ying)语考试的准确率达到了92.5% ，表明(ming)了目(mu)前(qian)基础模型的非(fei)凡(fan)表现。

但(dan)GPT-4在需(xu)要復(fu)雜(za)推(tui)理或(huo)特定(ding)領(ling)域(yu)知(zhi)識(shi)的任务中不太(tai)熟(shu)練(lian)，文中對(dui)模型能力(理解(jie)、知识、推理和計(ji)算(suan))的全面(mian)分(fen)析(xi)揭(jie)示了这些模型的優(you)勢(shi)和局(ju)限(xian)性。

AGIEval数据集

近年(nian)来，大(da)型基础模型如GPT-4在各(ge)个领域已(yi)經(jing)表现出(chu)非常(chang)强大的能力，可以輔(fu)助(zhu)人类处理日常事(shi)件(jian)，甚(shen)至(zhi)還(hai)能在法律、醫(yi)学和金(jin)融(rong)等(deng)专業(ye)领域提(ti)供(gong)決(jue)策(ce)建(jian)議(yi)。

也(ye)就(jiu)是說(shuo)，人工智能系(xi)统正(zheng)逐(zhu)步(bu)接近并实现通用人工智能（AGI）。

研究人员構(gou)造(zao)AGIEval数据集主(zhu)要遵(zun)循(xun)兩(liang)个設(she)计原(yuan)則(ze)：

1. 强調(tiao)人腦(nao)級(ji)別(bie)的認(ren)知任务

设计「以人为本」的主要目标是以與(yu)人类认知和解决問(wen)題(ti)密(mi)切(qie)相(xiang)關(guan)的任务为中心(xin)，并以一種(zhong)更(geng)有意(yi)義(yi)和全面的方(fang)式(shi)评估基础模型的泛化能力。

为了实现这一目标，研究人员選(xuan)擇(ze)了各种官(guan)方的、公開(kai)的、高标准的招(zhao)生和资格考试，以滿(man)足(zu)一般(ban)人类應(ying)试者(zhe)的需要，包括大学入学考试、法学院入学考试、数学考试、律师资格考试和国家(jia)公务员考试，每(mei)年都有数百(bai)萬(wan)尋(xun)求(qiu)进入高等教(jiao)育(yu)或新職(zhi)业道路(lu)的人参加这些考试。

通过遵守(shou)这些官方认可的评估人类水平能力的标准，AGIEval可以确保(bao)对模型性能的评估与人类决策和认知能力直(zhi)接相关。

2. 与现实世(shi)界(jie)場(chang)景(jing)的相关性

通过选择来自(zi)高标准的入学考试和资格考试的任务，可以确保评估结果能夠(gou)反(fan)映(ying)个人在不同(tong)领域和背(bei)景下(xia)经常遇(yu)到的挑(tiao)戰(zhan)的复杂性和实用性。

这种方法不僅(jin)可以衡(heng)量(liang)模型在人类认知能力方面的表现，而且(qie)可以更好(hao)地(di)了解在现实生活(huo)中的適(shi)用性和有效(xiao)性，即(ji)有助于开发出更可靠(kao)、更实用、更适合(he)于解决廣(guang)泛的现实世界问题的人工智能系统。

根(gen)据上(shang)述(shu)设计原则，研究人员选择了多(duo)种标准化的高質(zhi)量考试，强调人类水平的推理和现实世界的相关性，具體(ti)包括：

1. 普(pu)通高校(xiao)入学考试

大学入学考试包含(han)各种科目，需要批(pi)判(pan)性思(si)維(wei)、解决问题和分析能力，是评估大型语言模型与人类认知相关性能的理想(xiang)选择。

具体包括研究生入学考试（GRE），学術(shu)评估考试（SAT）和中国高考（Gaokao），可以评估寻求进入高等教育機(ji)构的学生的一般能力和特定学科知识。

数据集中收(shou)集了与中国高考8个科目对应的考试：歷(li)史(shi)、数学、英语、中文、地理、生物(wu)、化学和物理；從(cong)GRE中选择数学题；从SAT中选择英语和数学科目来构建基准数据集。

2. 法学院入学考试

法学院入学考试，如LSAT，旨(zhi)在衡量未(wei)来的法律学生的推理和分析能力，考试內(nei)容(rong)包括邏(luo)辑推理、閱(yue)读理解和分析推理等部(bu)分，需要应试者分析复杂信(xin)息(xi)和得(de)出准确结论的能力，这些任务可以评估语言模型在法律推理和分析方面的能力。

3. 律师资格考试

可以评估追(zhui)求法律职业的个人的法律知识、分析能力和道德(de)理解，考试内容涵(han)蓋(gai)了广泛的法律主题，包括憲(xian)法、合同法、刑(xing)法和財(cai)產(chan)法，并要求考生展(zhan)示他(ta)們(men)有效应用法律原则和推理的能力，可以在专业法律知识和道德判斷(duan)的背景下评估语言模型的表现。

4. 研究生管(guan)理入学考试（GMAT）

GMAT是一个标准化的考试，可以评估未来商(shang)学院研究生的分析、定量、言语和綜(zong)合推理能力，由(you)分析性寫(xie)作(zuo)评估、综合推理、定量推理和言语推理等部分組(zu)成，评估应试者的批判性思考、分析数据和有效溝(gou)通的能力。

5. 高中数学竞赛

这些比(bi)赛涵盖了广泛的数学主题，包括数论、代(dai)数、几何(he)和组合学，并且经常出现一些非常規(gui)的问题，需要用創(chuang)造性的方法来解决。

具体包括美(mei)国数学竞赛（AMC）和美国数学邀(yao)請(qing)考试（AIME），可以测试学生的数学能力、创造力和解决问题的能力，能够进一步评估语言模型处理复杂和创造性数学问题的能力，以及(ji)模型生成新穎(ying)解决方案(an)的能力。

6. 国内公务员考试

可以评估寻求进入公务员队伍(wu)的个人的能力和技(ji)能，考试内容包括评估一般知识、推理能力、语言技能，以及与中国各种公务员职位(wei)的角(jiao)色(se)和职責(ze)有关的特定科目的专业知识，可以衡量语言模型在公共(gong)管理背景下的表现，以及他们对政(zheng)策制(zhi)定、决策和公共服(fu)务提供过程(cheng)的潛(qian)力。

评估结果

选择的模型包括：

ChatGPT，由OpenAI开发的对话式人工智能模型，可以参与用戶(hu)互(hu)動(dong)和动態(tai)对话，使用龐(pang)大的指令(ling)数据集进行(xing)訓(xun)练，并通过强化学習(xi)与人类反饋(kui)（RLHF）进一步调整(zheng)，使其(qi)能够提供与人类期(qi)望(wang)相一致(zhi)的上下文相关和連(lian)貫(guan)的回(hui)复。

GPT-4，作为第(di)四(si)代GPT模型，包含範(fan)圍(wei)更广的知识庫(ku)，在許(xu)多应用场景中都表现出人类水平的性能。GPT-4利(li)用对抗(kang)性测试和ChatGPT进行了反复调整，从而在事实性、可引(yin)导性和对规则的遵守方面有了明顯(xian)的改(gai)进。

Text-Davinci-003是GPT-3和GPT-4之(zhi)間(jian)的一个中间版(ban)本，通过指令微调後(hou)比GPT-3的性能更好。

除(chu)此(ci)之外(wai)，实验中还报告(gao)了人类应试者的平均成绩和最高成绩，作为每个任务的人类水平界限，但并不能完(wan)全代表人类可能擁(yong)有的技能和知识范围。

Zero-shot/Few-shot评估

在零(ling)樣(yang)本的设置(zhi)下，模型直接对问题进行评估；在少(shao)样本任务中，在对测试样本进行评估之前，先輸(shu)入同一任务中的少量例(li)子(zi)（如5个）。

为了进一步测试模型的推理能力，实验中还引入思维链（CoT）提示，即先输入提示「Let’s think step by step」为給(gei)定的问题生成解釋(shi)，然(ran)后输入提示「Explanation is」根据解释生成最終(zhong)的答(da)案。

基准中的「多选题」使用标准分类准确率；「填(tian)空(kong)题」使用精(jing)确匹(pi)配(pei)（EM）和F1指标。

从实验结果中可以发现：

1. GPT-4在所(suo)有任务设置下都明显优于其同类产品(pin)，其中在Gaokao-English上更是取(qu)得了93.8%的准确率，在SAT-MATH上取得了95%的准确率，表明GPT-4在处理以人为本的任务方面具有卓(zhuo)越的通用能力。

2. ChatGPT在需要外部知识的任务中明显优于Text-Davinci-003，例如涉(she)及地理、生物、化学、物理和数学的任务，表明ChatGPT拥有更强大的知识基础，能够更好地处理那(na)些需要对特定领域有深(shen)刻(ke)理解的任务。

另(ling)一方面，ChatGPT在所有评估设置中，在需要純(chun)粹(cui)理解和不嚴(yan)重依赖外部知识的任务中，如英语和LSAT任务，略(lve)微优于Text-Davinci-003，或取得相當(dang)的结果。这一觀(guan)察(cha)结果意味(wei)着，这两个模型都能够处理以语言理解和逻辑推理为中心的任务，而不需要专门的领域知识。

3. 盡(jin)管这些模型的總(zong)体表现不錯(cuo)，但所有的语言模型都在复杂的推理任务中表现不佳(jia)，比如MATH、LSAT-AR、GK-physics和GK-Math，突(tu)出了这些模型在处理需要高级推理和解决问题技能的任务方面的局限性。

观察到的处理复杂推理问题的困(kun)難(nan)为未来的研究和开发提供了机會(hui)，目的是提高模型的一般推理能力。

4. 与zero-shot学习相比， few-shot学习通常只(zhi)能帶(dai)来有限的性能改善(shan)，表明目前大型语言模型的zero-shot学习能力正在接近few-shot学习能力，也标誌(zhi)着与最初(chu)的GPT-3模型相比有了很(hen)大的进步，当時(shi)few-shot性能要比zero-shot好得多。

对这一发展的一个合理解释是，在目前的语言模型中加强了人类的调整和指令的调整，这些改进使模型能够提前更好地理解任务的含义和背景，从而使它(ta)们即使在zero-shot的情(qing)況(kuang)下也能有良(liang)好的表现，證(zheng)明了指令的有效性。

参考资料(liao)：

https://arxiv.org/pdf/2304.06364.pdf返(fan)回搜(sou)狐(hu)，查(zha)看(kan)更多

责任编辑：