猛龙nba总冠军

猛龙NBA总冠军:历史性的时刻

2019年6月13日,多伦多猛龙队在NBA总决赛中以4-2战胜金州勇士队,首次获得NBA总冠军,也成为了加拿大历史上第一个获得这一荣誉的球队。这是一个历史性的时刻,对于球队和球迷来说,这是一个值得铭记的时刻。

球队历史

多伦多猛龙队成立于1995年,是NBA联盟中最年轻的球队之一。在球队成立的前几个赛季里,球队的表现并不理想,甚至在某些赛季里还无缘季后赛。但是,随着球队的不断发展壮大,多伦多猛龙队逐渐成为了一支强劲的球队,多次进入季后赛并打出了不俗的战绩。

在2013-2014赛季中,球队在常规赛中获得了48胜34负的战绩,进入季后赛并在第一轮中淘汰了布鲁克林篮网队。但是在第二轮比赛中,球队输给了麻省理工勇士队,止步于八强。这一轮的失败让球队意识到他们需要做出一些改变才能够进一步发展壮大。

总经理的决策

在球队进步的道路上,总经理马斯伦的决策起到了关键作用。他在2013年选秀中选中了独行侠队的德玛尔·德罗赞,并在2014年交换了路易斯·威廉姆斯,得到了凯尔·洛瑞。这两个球员成为了球队的核心,也为球队的成功奠定了基础。此外,总经理马斯伦在2018年交换了德维恩·凯西为主教练,这也是球队成功的关键之一。

总决赛

2018-2019赛季,多伦多猛龙队在常规赛中获得了58胜24负的战绩,排名东部第二。在季后赛中,他们先后淘汰了奥兰多魔术队、费城76人队和密尔沃基雄鹿队,成功晋级总决赛。在总决赛中,猛龙队首战就以118-109击败了金州勇士队,展现出了强大的实力和信心。

接下来的几场比赛,猛龙队和勇士队打得难解难分,双方交替取得胜利。但是在第六场比赛中,猛龙队在客场以114-110战胜了勇士队,拿到了总冠军。凯尔·洛瑞、卡哇伊·伦纳德、帕斯卡尔·西亚卡姆等球员都发挥出色,在球队的历史性时刻中留下了浓墨重彩的一笔。

总结

对于多伦多猛龙队来说,这是一个历史性的时刻,他们不仅获得了总冠军,也为加拿大篮球的发展做出了重要贡献。球队历经多年的努力和奋斗,最终实现了他们的目标。总经理马斯伦的明智决策、教练凯西的良好指导、球员们的努力和配合,所有这些都为球队的胜利奠定了基础。这一时刻将永远铭刻在球队和球迷的心中。

猛龙nba总冠军特色

1、瘦脸、瘦腰、瘦腿、提臀、减腹、瑜伽、素食,只要有需求这里就有靠谱的方案

2、与其他的玩家对比,获取高评价,感受着换装游戏带来的悠闲愉快的感觉。

3、1。五丈原之战,蜀军,本关开始后5分钟内玩家击破甄姬、曹仁、许褚,贵重品报告。

4、选择正确的汉字将它们填充到指定的地方,点击选择汉字然后在选择空格;

5、有很多小伙伴都可以当上一会主公,在众位武将和谋士帮助下,成为三国一霸。

猛龙nba总冠军亮点

1、全新“跨境平台”,整合全球的电商平台资源,助力您的品牌走向世界;

2、不断的答题闯关,加官进爵,一路闯关,平步青云,加官进爵,迎娶妻妾;

3、超过400位合作音乐老师,专业老师可以及时解答大家在学乐器中遇到的各种问题

4、校园信息一键查询,学校的空教室表、考场安排与校招日历等可以随时查询

5、一玩即会:充满趣味的任务会带您立即感受游戏最为纯粹的游戏魅力!

shoulian、shouyao、shoutui、titun、jianfu、yujia、sushi,zhiyaoyouxuqiuzhelijiuyoukaopudefanganyuqitadewanjiaduibi,huoqugaopingjia,ganshouzhehuanzhuangyouxidailaideyouxianyukuaideganjiao。1。wuzhangyuanzhizhan,shujun,benguankaishihou5fenzhongneiwanjiajipozhenji、caoren、xuchu,guizhongpinbaogao。xuanzezhengquedehanzijiangtamentianchongdaozhidingdedifang,dianjixuanzehanziranhouzaixuanzekongge;youhenduoxiaohuobandoukeyidangshangyihuizhugong,zaizhongweiwujianghemoushibangzhuxia,chengweisanguoyiba。GPT-4 滿(man)分(fen)通(tong)過(guo) MIT本(ben)科(ke)數(shu)學(xue)?恐(kong)怕(pa)是(shi)假(jia)的(de),数據(ju)集(ji)本身(shen)有(you)問(wen)題(ti)

原(yuan)文(wen)標(biao)题:《爆(bao)火(huo)的「GPT-4 MIT本科数学满分」論(lun)文作(zuo)弊(bi),数据集本身有问题》

這(zhe)兩(liang)天(tian),壹(yi)篇(pian)關(guan)於(yu) GPT-4 满分通过麻(ma)省(sheng)理(li)工(gong) MIT EECS 和(he)数学本科考(kao)試(shi)的论文在(zai)推(tui)特(te)上(shang)瘋(feng)傳(chuan)。

论文地(di)址(zhi):https://arxiv.org/pdf/2306.08997.pdf?

簡(jian)單(dan)概(gai)括(kuo),一個(ge)來(lai)自(zi) MIT 的研(yan)究(jiu)團(tuan)隊(dui)從(cong)自己(ji)学校(xiao)的数学、電(dian)氣(qi)工程(cheng)和計(ji)算(suan)機(ji)科学 (EECS) 專(zhuan)業(ye)的課(ke)程问题、期(qi)中(zhong)考试和期末(mo)考试中,整(zheng)理出(chu)了(le)一个包(bao)含(han) 4550 个问题和解(jie)決(jue)方(fang)案(an)的綜(zong)合(he)数据集。

然(ran)後(hou),研究团队讓(rang)各(ge)種(zhong)大(da)語(yu)言(yan)模(mo)型(xing)去(qu)完(wan)成(cheng)这个数据集的题目(mu),結(jie)果(guo)太(tai)嚇(xia)人(ren):GPT-3.5 能(neng)做(zuo)對(dui) 1/3,GPT-4 幾(ji)乎(hu)满分通过。

论文作者(zhe)表(biao)示(shi),提(ti)升(sheng)模型表現(xian)主(zhu)要(yao)靠(kao)「四(si)件(jian)套(tao)」:Few-shot learning、CoT、Self-critique、Expert。

就(jiu)像(xiang)上表中所(suo)示,加(jia)持(chi) GPT-4 的手(shou)法(fa)越(yue)多(duo),模型的答(da)题正(zheng)確(que)率(lv)就越高(gao)。原始(shi)的 GPT-4 本来就能拿(na)到(dao) 90% 的正确率得(de)分,一番(fan)運(yun)作之(zhi)后,甚(shen)至(zhi)直(zhi)接(jie)拿到满分。

但(dan)大部(bu)分討(tao)论得很(hen)激(ji)烈(lie)的網(wang)友(you)可(ke)能沒(mei)註(zhu)意(yi)到,这个分数本身就是用(yong) GPT-4 打(da)的……

三(san)位(wei)同(tong)樣(yang)来自 MIT 的学生(sheng)第(di)一時(shi)間(jian)發(fa)现了这篇论文,作為(wei)險(xian)些(xie)被(bei) GPT-4 趕(gan)超(chao)的群(qun)體(ti),他(ta)們(men)想(xiang)立(li)即(ji)領(ling)會(hui)一下(xia)爆款(kuan)论文的方法论。

研究了一小(xiao)时后,他们对該(gai)论文的方法產(chan)生了懷(huai)疑(yi)。

两小时后,他们意識(shi)到:数据集本身有问题。

盡(jin)管(guan)原论文的作者宣(xuan)稱(cheng)已(yi)手動(dong)審(shen)查(zha)了发布(bu)的数据集質(zhi)量(liang),但三人发现,有明(ming)顯(xian)的跡(ji)象(xiang)表明,測(ce)试数据集的很大一部分被汙(wu)染(ran)了。

也(ye)就是說(shuo),模型就像一个学生在考试前(qian)被告(gao)知(zhi)了答案,这是赤(chi)裸(luo)裸的「作弊」。

产生质疑后,他们立即著(zhe)手在数据集上完成了零(ling)样本 GPT-4 的运行(xing),並(bing)对数据的前 30% 進(jin)行了手动評(ping)分,结果與(yu)原论文相(xiang)差(cha)甚遠(yuan),應(ying)该说是一个天上、一个地下。

「作为麻省理工学院(yuan)的本科生,至少(shao)根(gen)据我(wo)们的經(jing)驗(yan),这个测试集并不(bu)能準(zhun)确地代(dai)表在麻省理工学院獲(huo)得 EECS 学位所需(xu)的理解廣(guang)度(du)和深(shen)度。」三人在博(bo)客(ke)中这麽(me)寫(xie)道(dao)。

最(zui)新(xin)进展(zhan):零样本 GPT-4 的准确率能達(da)到 62.5% 了,但還(hai)是和论文裏(li)宣称的 90% 差很多。

三人还质疑了「过度宣传」的風(feng)潮(chao):「这些论文通常(chang)在任(ren)何(he)合法的同行评审之前就被上传到 Arxiv,并在 Twitter 上广泛(fan)分享(xiang)。在这种情(qing)況(kuang)下,可能会传播(bo)不良(liang)信(xin)息(xi),并为未(wei)来的工作樹(shu)立一个糟(zao)糕(gao)的先(xian)例(li)。」

「深度学習(xi)」鬥(dou)士(shi) Gary Marcus 也不出意料(liao)地聲(sheng)援(yuan)了这波(bo)质疑:

同时,三人也在博客中指(zhi)出一點(dian):《Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models》论文上列(lie)出的几个作者都(dou)是本科生研究人員(yuan),让这些人对工作中出现的任何失(shi)誤(wu)負(fu)責(ze)是不合適(shi)的。相反(fan),责任应该在指導(dao)作者身上 —— 他们才(cai)是被期望(wang)确保(bao)工作符(fu)合其(qi)领域(yu)內(nei)公(gong)共(gong)学術(shu)标准的人。

接下来让我们看(kan)下,这篇「爆火」论文都有哪(na)些问题。

数据集到底(di)有什(shen)么问题?

首(shou)先,从原论文中得知,研究者收(shou)集的数据集包含获得 MIT 学位考试所需的 30 門(men)数学和 EECS 课程的 4550 个问题和相应的解决方案,涵(han)蓋(gai)核(he)心(xin)课程和選(xuan)修(xiu)课程。

论文中写道:「在没有圖(tu)像和有解决方案的问题中隨(sui)机选擇(ze)了 288 个问题的测试集。」

这个数据集(不包括用于微(wei)調(tiao)開(kai)源(yuan) LLM 的訓(xun)練(lian)集)随着论文的公开也被发布到 GitHub 上,同时发布的还有用于生成報(bao)告的测试性(xing)能的代碼(ma)。然而(er),作者 Drori 教(jiao)授(shou)在最近(jin)的一次(ci)提交(jiao)中已经將(jiang)其刪(shan)除(chu)。

经过檢(jian)查、对比(bi),三人确信这个被删掉(diao)的文件代表了论文中分析(xi)的测试集,因(yin)为评估(gu)代码中的所有数据的文件路(lu)徑(jing)都指向(xiang)它(ta),没有提供(gong)任何修改(gai)其内容(rong)的代码,而且(qie)它在最初(chu)发布的 GitHub 倉(cang)庫(ku)中是可用的。此(ci)外(wai),该文件满足(zu)了论文中規(gui)定(ding)的所有模式(shi)要求(qiu)(行数等(deng))。这些證(zheng)据似(si)乎非(fei)常有力(li)地支(zhi)持了下面(mian)的所有主張(zhang),

「但我们要承(cheng)認(ren),这个文件有可能被換(huan)成了一个用于测试的不同文件。如(ru)果是这样的話(hua),我们认为证明的责任在于作者公开发布这个数据和用它做的所有分析。」

那(na)么,被掩(yan)盖的问题究竟(jing)是什么呢(ne)?三人給(gei)出了自己的分析。

無(wu)法解决的问题(約(yue)占(zhan)测试集的 4%)

鑒(jian)于原论文表示,任何形(xing)式的 GPT-4 都能在测试集上产生一个完美(mei)的分数,三人开始检查个別(bie)数据点。他们很快(kuai)就发现,根本不可能有满分,因为数据集中至少有 10 个问题是无法用所提供的信息解决的,另(ling)外几个问题在这种情况下根本就不是有效(xiao)的问题。

像这种「有问题的问题」,至少占据了测试集的 4%。

在一个擴(kuo)展的 excel 文檔(dang)里,三人对已经发现有问题的数据集例子(zi)进行了注釋(shi)。「紅(hong)色(se)」代表用提供的信息无法解决的问题,「黃(huang)色」代表一部分不太合理的问题。

頁(ye)面地址:https://docs.google.com/spreadsheets/d/1FZ58hu-lZR-e70WP3ZPNjp9EK_4RgrQvQfsvjthQh_Y/edit?usp=sharing

重(zhong)復(fu)的问题(约占测试集的 5%)

使(shi)用文本相似性检测,三人发现有 14 个问题(7 对)在 288 个问题的测试集中是重复的,在这些情况下,问题串(chuan)之间的唯(wei)一區(qu)别是極(ji)小的字(zi)符級(ji)噪(zao)音(yin),甚至完全(quan)相同。

鉴于这些无法解决的问题,GPT-4 能夠(gou)通过任何方式获得 100% 的准确率,也是難(nan)以(yi)置(zhi)信。要么是在某(mou)个階(jie)段(duan)出现了答案泄(xie)漏(lou)到 prompt 中,要么是问题没有被正确打分。

这些初步(bu)的发现促(cu)使他们从少样本示例开始进一步调查(如果模型在零样本正确率方面失敗(bai)的话),最終(zhong)发现,既(ji)有解题信息的泄露(lu),也有用于对模型輸(shu)出进行分级的方法问题。具(ju)体情况如下:

少样本示例中的信息泄露

值(zhi)得注意的是,原论文中还提到了「少样本示例」这个事(shi)。

简而言之,论文对 OpenAI 嵌(qian)入(ru)的数据集内的類(lei)似问题进行余(yu)弦(xian)相似度搜(sou)索(suo),并将这些问题和解决方案作为額(e)外的上下文納(na)入模型的 prompt,幫(bang)助(zhu)模型解决问题。

这个方法本身是没问题的,只(zhi)要这些示例与有关问题有足够的差異(yi),且避(bi)免(mian)暴(bao)露不公平(ping)的信息。

只是随机掃(sao)描(miao)已发布的测试数据集时,三人注意到一些奇(qi)怪(guai)的事情:許(xu)多提供给模型的「少样本示例」与问题本身几乎一字不差。

为了进一步了解这一点,他们写了一个简单的腳(jiao)本,查看了所提供的几个示例的问题陳(chen)述(shu)和所列出的问题之间的重疊(die)情况,并繪(hui)出了直方图:

许多提供的少样本与问题本身几乎相同,这意味(wei)着模型得到的是问题的答案或(huo)与问题非常相似的问题。通常情况下,这来自于大量的共享背(bei)景(jing)的多環(huan)節(jie)问题的重复。

他们认为,为了正确评估 GPT 的解题能力,多环节问题的其他部分应该被完全排(pai)除在某一问题的少样本示例之外。事實(shi)上,他们发现这些多环节问题的解决方案,往(wang)往直接提到或给出了模型被要求解决的另一部分问题的答案。

不僅(jin)如此,在对这些数据的挖(wa)掘(jue)中,他们还发现了整个问题被重复的样本。比如:

在这两种情况下,答案是完全相同的。很难说不算信息泄漏了。

GPT-4 自动打分,有问题

此外,三人还在原论文开源的打分机制(zhi)中发现了问题:

def repeat_grading(input_path, output_path, num_experts = 3, num_fs = 3, most_recent_q = 0): df = pd.read_csv(input_path) df = df.iloc[most_recent_q:] for index, row in df.iterrows: print('Completing question', index) question_output = row.values.tolist course_name = row['Course Name'] question = row['Question'] solution = row['Solution'] fs_qs = [[row['Few shot question 1'], row['Few shot solution 1']], [row['Few shot question 2'], row['Few shot solution 2']], [row['Few shot question 3'], row['Few shot solution 3']]] experts = get_experts(course_name, question, num_experts).split(', ') prompts = [lambda expert: zero_shot_response(question, expert), lambda expert: few_shot_response(expert, question, fs_qs), lambda expert: few_shot_response(expert, question, fs_qs, True) ] critiques = [["Review your previous answer and find problems with your answer.","Based on the problems you found, improve your answer."], ["Please provide feedback on the following incorrect answer.","Given this feedback, answer again."]] for expert in experts: print("Using expert", expert) question_output.append(expert) crit = True for prompt in prompts: prompt_response = prompt(expert) # calls fresh ChatCompletion.create prompt_grade = grade(course_name, question, solution, prompt_response) # GPT-4 auto-grading comparing answer to solution question_output+=[prompt_response, prompt_grade] if correct(prompt_grade): crit = False break if crit: for critique in critiques: crit_response = self_critique_response(expert, course_name, question, question_output[-2], critique) # calls fresh ChatCompletion.create crit_grade = grade(course_name, question, solution, crit_response) # GPT-4 auto-grading comparing answer to solution question_output+=[crit_response,crit_grade] if correct(crit_grade): break repeat_grading('MIT_test_set.csv', 'MIT_test_set_graded.csv')

在代码中,能看出流(liu)程上處(chu)理分级存(cun)在嚴(yan)重的问题:论文是用 GPT-4 去评估检查的,包括 a)原始问题,b)解决方案,c)GPT 自己的答案,作为分级 prompt 中的參(can)数。

在更(geng)多的技(ji)术领域,GPT 更有可能出现隱(yin)性误解,这种自动评分更有可能出现「自我欺(qi)騙(pian)」的结果。

此外,雖(sui)然 prompt 级聯(lian)是最近许多 GPT 论文中常見(jian)的技术,但这里有大量数据泄漏的可能性。每(mei)一级不仅提供基(ji)于 ground truth 的二(er)元(yuan)信息,而且还在繼(ji)續(xu) prompt,直到达到正确答案。

尽管这些創(chuang)建(jian)的 prompt 并没有看到实際(ji)的答案,但重新 prompt 直到达到正确答案的形式已经足够了,尤(you)其是在占测试集 16% 的多选题中,无限(xian)次的嘗(chang)试(几乎)保证了正确答案一定会出现。

这就好(hao)比有人拿着答题紙(zhi),告訴(su)正在考试的学生答得对不对,一直提示到学生得到正确答案。

總(zong)结

在博客的最后,三位这样写道:

这篇论文道出了最近人工智(zhi)能领域研究的一个更大趨(qu)勢(shi)。随着该领域的进展越来越快,新发现的时间节奏(zou)似乎在縮(suo)短(duan),这往往伴(ban)随着捷(jie)径。一个特别令(ling)人擔(dan)憂(you)的趋势是使用像 GPT-4 这样基于语言的模型来评估一个模型的准确性的技术。

虽然是一个有用的工具,但它的结论絕(jue)不应该被誇(kua)大,也不应该被當(dang)作 ground truth。最近的工作表明,如果没有准确的 ground truth 信息,GPT-4 评估器(qi)就不能可靠地用于验证。至少,应该选择一个随机的数据集子集,将 GPT-4 的性能与人类的评估进行比較(jiao)。语言模型还不能被当作产生 ground truth 的神(shen)諭(yu)。

此外,在使用数据之前,无论是用于训练、推理、基准测试还是其他方面,重新评估每一个数据点并进行基本的检查是极其重要的。鉴于有关数据集的规模较小,简单的人工验证很容易(yi)在工作範(fan)圍(wei)内完成。

我们的批(pi)评主要是針(zhen)对这項(xiang)研究的方法和严謹(jin)性,而不是针对其内容。我们对大型语言模型实际解决麻省理工学院课程的能力没有任何意见,只是认为本文未能以科学严谨的方式证明这一点。

参考鏈(lian)接:https://flower-nutria-41d.notion.site/No-GPT4-can-t-ace-MIT-b27e6796ab5a48368127a98216c76864#c49f4b29e01745de9bf1ffdf2170b067?返(fan)回(hui)搜狐(hu),查看更多

责任編(bian)輯(ji):

发布于:广东汕头濠江区