校园文化，点亮你的生活！

校园文化，点亮你的生活！随着社会的发展和教育的深入，校园文化已经成为学校教育的重要组成部分。优秀的校园文化不仅能够激发学生的学习兴趣，增强学生的自信心和创新力，还能够促进学生的全面发展。如何开展优秀的校园文化建设已经成为每一个学校和教育工作者不可回避的问题。一、校园文化建设的重要性学校是学生学习和生活的场所，校园文化建设是学校教育工作中的重要任务。优秀的校园文化可以提高学生的学习兴趣和自信心，增强学生的创新能力和实践能力。同时，良好的校园文化建设也可以促进学生的全面发展，营造良好的学习氛围，增强师生互动与交流，让学生在健康、快乐、和谐的环境中成长。在我校校园文化建设中，我们坚持以学生需求为核心，注重发扬学校特色，注重提升学校软实力，着力推进学校教育教学改革，不断强化学生的个性化、全面发展。我们建立了具有学校特色的校园文化，使学生在这里能够感受到浓厚的学校氛围和文化氛围。二、校园文化建设的实践在校园文化建设实践中，我们注重学生参与，创造良好的校园文化氛围和学习环境。我们积极开展各种丰富多彩的校园文化活动，如文艺汇演、体育竞赛、科技创新、志愿服务等。这些活动既能够满足学生的兴趣爱好，也能够促进学生的全面发展和才艺展示。我们注重学生自主参与和管理，在活动的策划、组织、实施等方面全面发挥学生的主体作用。学生在活动中不仅能够增强自己的组织能力、协调能力、实践能力，同时也能够提高自身的综合素质和能力水平。我们更注重发挥校园文化的教育作用，在校园文化建设中融入思想政治教育、创新创业教育、志愿服务教育等，培养学生的正确价值观和社会责任感，提高学生的社会实践能力和创新创业能力，让学生在校园文化建设中得到全面发展。三、展望未来，继续点亮生活未来，在校园文化建设中，我们将更注重发掘学生的特长与潜能，加强学生个性化的培养，引导学生在校园文化中实现自我价值的发现和实现。未来，在校园文化建设中，我们将更注重学术创新与实践创新的结合，推动学校教学改革和创新创业教育，培养学生的创新精神和实践能力，为学生未来的发展奠定坚实的基础。未来，在校园文化建设中，我们将更注重学生自主管理与服务，建立学生自治的机制和平台，让学生在管理和服务中全面发挥主体作用，提高学生的组织协调能力和社会责任感。结语校园文化建设是学校教育工作中的重要组成部分，是学生全面培养的重要载体。在校园文化建设中，我们应该注重学生的参与与管理，发挥校园文化的教育作用，不断提高学生的创新能力和实践能力，为学生全面发展奠定坚实的基础，让校园文化成为点亮学生生活的光芒。问答话题 Q1：如何促进学生的创新能力和实践能力？A1：通过举办各种科技创新比赛、创业大赛、志愿服务活动等，给学生提供创新和实践的舞台。并通过课堂教育与实践相结合，引导学生在实践中发现问题，解决问题，提高创新与实践的能力。 Q2：如何在校园文化建设中发挥教育的作用，培养正确的价值观和社会责任感？A2：在校园文化建设中融入思想政治教育，引导学生树立正确的价值观和观念，提高学生的社会责任感。并通过举办各种志愿服务活动，让学生全面发展，增强社会责任感，让学生在校园文化建设中获得真正的教育。

校园文化，点亮你的生活！特色

1、运作异常提醒，一旦智能家居运作发生异常会自动发送信息提醒用户。

2、还在等什么？绘分享王国早已为您敞开大门，期待您的加入。

3、零风险、低成本、大量匹配生源，品牌宣传，增值服务

4、每天登陆都有非常多的福利可以领取，玩家还能够拥有一个自己的牧场；

5、拥有多个刺激的关卡等待玩家来挑战，感受不同的场景和挑战玩法。

校园文化，点亮你的生活！亮点

1、按照你自己的想法，我们的角色将在副本当中不断的战斗并强；

2、大量的兵种选择，体验着合成的精彩，释放战力快速强大自己。

3、丰富新闻媒体资源实时发布，第一时间掌握有价值的内容。

4、收集的材料和装备用不到的，能够进行自由的交易的功能了。

5、课程学习，在线即可选择直播课程或录播课程观看和学习；

yunzuoyichangtixing，yidanzhinengjiajuyunzuofashengyichanghuizidongfasongxinxitixingyonghu。haizaidengshenme？huifenxiangwangguozaoyiweininchangkaidamen，qidainindejiaru。lingfengxian、dichengben、daliangpipeishengyuan，pinpaixuanchuan，zengzhifuwumeitiandengludouyoufeichangduodefulikeyilingqu，wanjiahainenggouyongyouyigezijidemuchang；yongyouduogecijideguankadengdaiwanjialaitiaozhan，ganshoubutongdechangjinghetiaozhanwanfa。OpenAI要(yao)為(wei)GPT-4解(jie)決(jue)數(shu)學(xue)問(wen)題(ti)了(le)：獎(jiang)勵(li)模(mo)型(xing)指(zhi)錯(cuo)，解题水(shui)平(ping)達(da)到(dao)新(xin)高(gao)度(du)

來(lai)源(yuan)：機(ji)器(qi)之(zhi)心(xin)

對(dui)於(yu)具(ju)有(you)挑(tiao)戰(zhan)性(xing)的(de) step-by-step 数学推(tui)理(li)问题，是(shi)在(zai)每(mei)壹(yi)步(bu)給(gei)予(yu)奖励還(hai)是在最(zui)後(hou)给予單(dan)個(ge)奖励更(geng)有效(xiao)呢(ne)？OpenAI 的最新研(yan)究(jiu)给出(chu)了他(ta)們(men)的答(da)案(an)。

圖(tu)片(pian)来源：由(you)無(wu)界(jie) AI工(gong)具生(sheng)成(cheng)

現(xian)在，大(da)語(yu)言(yan)模型迎(ying)来了「无所(suo)不(bu)能(neng)」的時(shi)代(dai)，其(qi)中(zhong)在執(zhi)行(xing)復(fu)雜(za)多(duo)步推理方(fang)面(mian)的能力(li)也(ye)有了很(hen)大提(ti)高。不過(guo)，即(ji)使(shi)是最先(xian)進(jin)的大模型也會(hui)產(chan)生邏(luo)輯(ji)错誤(wu)，通(tong)常(chang)稱(cheng)为幻(huan)覺(jiao)。因(yin)此(ci)，減(jian)輕(qing)幻觉是構(gou)建(jian)对齊(qi) AGI 的關(guan)鍵(jian)一步。

为了訓(xun)練(lian)更可(ke)靠(kao)的模型，目(mu)前(qian)可以(yi)選(xuan)擇(ze)兩(liang)種(zhong)不同(tong)的方法(fa)来训练奖励模型，一种是結(jie)果(guo)監(jian)督(du)，另(ling)一种是过程(cheng)监督。结果监督奖励模型（ORMs）僅(jin)使用(yong)模型思(si)維(wei)鏈(lian)的最終(zhong)结果来训练，而(er)过程监督奖励模型（PRMs）則(ze)接(jie)受(shou)思维链中每个步驟(zhou)的奖励。

考(kao)慮(lv)到训练可靠模型的重(zhong)要性以及(ji)人(ren)工反(fan)饋(kui)的高成本(ben)，仔(zai)細(xi)比(bi)較(jiao)结果监督與(yu)过程监督非(fei)常重要。雖(sui)然(ran)最近(jin)的工作(zuo)已(yi)經(jing)開(kai)展(zhan)了這(zhe)种比较，但(dan)仍(reng)然存(cun)在很多问题。

在本文(wen)中，OpenAI 进行了調(tiao)研，结果發(fa)现在训练模型解决 MATH 数據(ju)集(ji)的问题时，过程监督顯(xian)著(zhu)優(you)于结果监督。OpenAI 使用自(zi)己(ji)的 PRM 模型解决了 MATH 測(ce)試(shi)集中代表(biao)性子(zi)集的 78% 的问题。

此外(wai)为了支(zhi)持(chi)相(xiang)关研究，OpenAI 还开源了 PRM800K，它(ta)是一个包(bao)含(han) 800K 个步級(ji)人類(lei)反馈標(biao)簽(qian)的完(wan)整(zheng)数据集，用于训练它们的最佳(jia)奖励模型。

如(ru)下(xia)为一个真(zhen)正(zheng)（True positive）的问答示(shi)例(li)。該(gai)问题以及 OpenAI 列(lie)舉(ju)的其他问题示例均(jun)来自 GPT-4。这个具有挑战性的三(san)角(jiao)学问题需(xu)要並(bing)不明(ming)显地(di)連(lian)續(xu)應(ying)用多个恒(heng)等(deng)式(shi)。大多数解决方案嘗(chang)试都(dou)失(shi)敗(bai)了，因为很難(nan)知(zhi)道(dao)哪(na)些(xie)恒等式實(shi)際(ji)上(shang)有用。盡(jin)管(guan) GPT-4 通常无法解决这个问题（正確(que)率(lv)仅为 0.1% ），但本文的奖励模型正确地識(shi)別(bie)出了这个解决方案是有效的。

再(zai)看(kan)一个假(jia)正（False positive）的问答示例。在第(di)四(si)步中，GPT-4 错误地聲(sheng)称该序(xu)列每 12 个項(xiang)重复一次(ci)，而实际上是每 10 个项重复一次。这种計(ji)数错误偶(ou)爾(er)会愚(yu)弄(nong)奖励模型。

論(lun)文作者(zhe)之一、OpenAI Alignment 團(tuan)隊(dui)負(fu)責(ze)人 Jan Leike 表示，「使用 LLM 做(zuo)数学题的真正有趣(qu)结果是：监督每一步比只(zhi)檢(jian)查(zha)答案更有效。」

英(ying)偉(wei)达 AI 科(ke)学家(jia) Jim Fan 認(ren)为，「这篇(pian)论文的觀(guan)點(dian)很簡(jian)单：对于挑战性的逐(zhu)步问题，要在每一步给予奖励，而不要在最后给予单个奖励。從(cong)根(gen)本上来說(shuo)，密(mi)集奖励信(xin)號(hao)＞稀(xi)疏(shu)。」

我(wo)们接下来细看 OpenAI 这篇论文的方法和(he)结果。

论文地址(zhi)：https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf

数据集地址：https://github.com/openai/prm800k

方法概(gai)覽(lan)

该研究按(an)照(zhao)与 Uesato et al. (2022) 类似(si)的方法对结果监督和过程监督进行了比较。值(zhi)得(de)註(zhu)意(yi)的是这项研究无需人工即可提供(gong)结果监督，因为 MATH 数据集中的所有问题都有可自動(dong)检查的答案。相比之下，沒(mei)有简单的方法来自动化(hua)过程监督。该研究依(yi)靠人类数据标記(ji)者来提供过程监督，具體(ti)来说是需要人工标记模型生成的解决方案中每个步骤的正确性。该研究在大規(gui)模和小(xiao)规模两种情(qing)況(kuang)下分(fen)别进行了实驗(yan)。

範(fan)圍(wei)

对于每种模型规模，该研究都使用一个固(gu)定(ding)模型来生成所有解决方案。这个模型被(bei)称为生成器，OpenAI 表示不会通过強(qiang)化学習(xi) (RL) 来改(gai)进生成器。

基(ji)礎(chu)模型

所有大型模型均是基于 GPT-4 模型进行微(wei)调得来的。该研究还添(tian)加(jia)了一个額(e)外的預(yu)训练步骤 —— 在含有約(yue) 1.5B 数学相关 token 的数据集 MathMix 上微调所有模型。与 Lewkowycz et al. (2022) 类似，OpenAI 的研究团队发现这种方法可以提高模型的数学推理能力。

生成器

为了更容(rong)易(yi)解析(xi)单个步骤，该研究训练生成器在生成解决方案时，步骤之間(jian)用換(huan)行符(fu)分隔(ge)。具体来说，该研究对 MATH 训练问题使用少(shao)樣(yang)本生成解决方案，过濾(lv)出得到最终正确答案的解决方案，并在该数据集上对基础模型进行一个 epoch 的微调。

数据采(cai)集

为了收(shou)集过程监督数据，该研究向(xiang)人类数据标记者展示了大规模生成器采样的数学问题的逐步解决方案。人类数据标记者的任(ren)務(wu)是为解决方案中的每个步骤分配(pei)正面、负面或(huo)中性标签，如下图 1 所示。

该研究只标记大型生成器生成的解决方案，以最大限(xian)度地发揮(hui)有限的人工数据資(zi)源的價(jia)值。该研究將(jiang)收集到的按步骤标记的整个数据集称为 PRM800K。PRM800K 训练集包含 800K 步骤标签，涵(han)蓋(gai) 12K 问题的 75K 解决方案。为了最大限度地减少过擬(ni)合(he)，PRM800K 训练集包含来自 MATH 的 4.5K 测试问题数据，并仅在剩(sheng)余(yu)的 500 个 MATH 测试问题上評(ping)估(gu)模型。

结果监督奖励模型 (ORM)

该研究按照与 Cobbe et al. (2021) 类似的方法训练 ORM，并从生成器中为每个问题采样固定数量(liang)的解决方案，然后训练 ORM 来预测每个解决方案的正确与否(fou)。实踐(jian)中，自动检查最终答案来确定正确性是一种常用的方法，但原(yuan)则上由人工标记者来提供标签。在测试时，该研究使用 ORM 在最终 token 處(chu)的预测作为每个解决方案的總(zong)分。

过程监督奖励模型（PRM）

PRM 用来预测每个步骤（step）中最后一个 token 之后的步骤的正确性。这种预测采用单个 token 形(xing)式，并且(qie) OpenAI 在训练过程中最大化这些目标 token 的对数似然。因此，PRM 可以在标準(zhun)的语言模型 pipeline 中进行训练，无需任何(he)特(te)殊(shu)的適(shi)应措(cuo)施(shi)。

图 2 为同一个问题的 2 种解决方案，左(zuo)邊(bian)的答案是正确的，右(you)边的答案是错误的。綠(lv)色(se)背(bei)景(jing)表示 PRM 得分高，紅(hong)色背景表示 PRM 得分低(di)。PRM 可以正确识别错误解决方案中的错误。

在进行过程监督时，OpenAI 有意选择仅对第一个错误步骤进行监督，从而使得结果监督和过程监督之间的比较更加直(zhi)接。对于正确的解决方案，两种方法提供的信息(xi)相同，因为每一步都是正确的解题方法。对于错误的解决方案，两种方法都能揭(jie)示至(zhi)少存在一个错误，并且过程监督还揭示了该错误的确切(qie)位(wei)置(zhi)。

大规模监督

OpenAI 使用全(quan)流(liu)程监督数据集 PRM800K 来训练 PRM，为了使 ORM 基准更加强大，OpenAI 还为每个问题进行了 100 个样本的训练，这些样本均来自生成器，由此 ORM 训练集与 PRM800K 没有重疊(die)样本。

下图为结果监督和过程监督奖励模型以及投(tou)票(piao)方案的比较，结果表明在搜(sou)索(suo)模型生成的解决方案时，PRM 比 ORM 和多数投票更有效。

小规模綜(zong)合监督

为了更好(hao)的比较结果监督和过程监督，首(shou)先需要注意的是 ORM 和 PRM 的训练集不具有直接可比性，PRM 训练集是使用主(zhu)动学习构建的，偏(pian)向于答案错误的解决方案，还比 ORM 训练集少一个数量级。

过程监督 VS 结果监督

首先 OpenAI 从小规模生成器中为每个问题采样 1 到 200 个解决方案。对于每个数据集，OpenAI 提供三种形式的监督：来自 PRM_large 的过程监督，来自 PRM_large 的结果监督以及来自最终答案检查的结果监督。

图 4a 表明，过程监督明显优于其他两种形式的结果监督；图 4b 表明，使用 PRM_large 进行结果监督明显比最终答案检查的结果监督更有效。

OOD 泛(fan)化

为了衡(heng)量模型在分布(bu)外（OOD）泛化的性能，OpenAI 对大规模 ORM 和 PRM 在一个由 224 个 STEM 问题組(zu)成的 held-out（留(liu)出法）上进行评估，这些问题来自最新的 AP 物(wu)理（美(mei)國(guo)大学先修(xiu)課(ke)程简称 AP）、AP 微積(ji)分、AP 化学、AMC10（理解为数学競(jing)賽(sai)）和 AMC12 考试，模型没有見(jian)过这些问题。表格(ge) 1 中報(bao)告(gao)了 ORM、PRM 和多数投票的前 100 个的最佳表现。表明，PRM 的性能优于 ORM 和多数投票，同时意味(wei)著(zhe) PRM 在新的测试问题上性能仍然保(bao)持不變(bian)。

返(fan)回(hui)搜狐(hu)，查看更多

责任編(bian)辑：