官宣!德扑AI之父Noam Brown加盟OpenAI,下注AI智能体

官宣!德扑AI之父Noam Brown加盟OpenAI,下注AI智能体

新智元报道

编辑:拉燕 桃子

【新智元导读】AI智能体或许会是下一个前沿。今天,德扑AI之父Noam Brown宣布加入OpenAI。

首席科学家Andrej Karpathy认为,AI智能体代表着一个疯狂的未来,此刻正是再次回归神经科学,从中寻求灵感的时刻。

他表示,每次有与智能体相关研究一出来,OpenAI团队都要仔细研究一番。

OpenAI对AI智能体的押注,称得上很彻底。

就在今天,德扑AI之父Noam Brown官宣重磅加盟OpenAI!

Brown在推特上发布了这一重量级消息,表示自己在德扑AI领域的经验将会让LLM比现有的GPT-4强上1000倍。

「我很激动地宣布,我已加入OpenAI!很多年来,我一直在研究如何让AI学会自己和自己玩一些类似扑克牌的游戏,以及训练它们在游戏中的推理能力。

现在,我有机会能够探索如何在更广泛的情况下推广这些方法了!如果成功的话,有一天我们能看到新的大语言模型性能要比GPT-4好上1000倍。」

德扑AI之父

Brown是OpenAI的研究科学家,从事多步骤推理、自我游戏(self-play)和多智能体AI的研究。

Brown之前曾在Meta工作,Brown和他的队友们开发了CICERO,这是第一个在战略游戏「Diplomacy」中达到人类水平的AI。

论文地址:https://noambrown.github.io/downloads/diplomacy_science_all.pdf

Brown还将他的研究用于制作第一个在无上限扑克中击败顶级人类的AI。

Brown和他在CMU的顾问一起创造了Libratus和Pluribus,它们在人类与机器的比赛中击败了顶级的人类德扑大师。

同时,Libratus获得了Marvin Minsky AI杰出成就奖。Pluribus还登上了「Science」的封面,并获得了「Science」2019年年度突破的亚军。

他还被评为「麻省理工科技评论」35位35岁以下创新者之一。

Noam Brown在卡耐基梅隆大学获得了计算机科学博士学位。在CMU之前,Brown在联邦储备委员会的国际金融市场部工作,研究金融市场的算法交易。

Brown还在推特下面回顾了游戏AI的简易版发展史,从AlphaGo说起。

2016年,AlphaGo击败了李世石。

但其中的关键是,AI在走每一步棋之前都要思考1分钟。这对它的提高有多大?对于AlphaGoZero来说,这相当于将预训练扩大了100000倍。

可以看到,上图中横坐标是不同版本的AlphaGo,纵坐标则是各版本的Elo评分。

这里简单插播一个科普,Elo评分是一种用于衡量棋手、运动员、游戏玩家等竞技水平的评分系统。

一开始是由美国国际象棋大师艾洛(Arpad Elo)于20世纪50年代提出的,目的就是为了更加公正地评定国际象棋选手的水平。

可以看到,人类的最佳水平大概在3500+的位置,而带有树状搜索的Zero版AlphaGo一骑绝尘,Elo高达5000+。

而同样的现象Brown也在德扑中发现了。

该发现也是让Brown开发的Libratus玩儿牌AI首次战胜了人类。

Jim Fan:游戏AI很重要

Jim Fan也在推上表示,游戏AI研究中的很多内容都可以应用在LLM上,这会是很关键的一个点。

「我相信,下一代的大语言模型会大量从游戏AI的研究中借鉴东西。

Noam Brown加入OpenAI,以及DeepMind Gemini表示会从AlphaGo中借鉴技术等等,都在佐证这一点。

这实际上是很有道理的。游戏AI在训练中所采用的自己和自己对打的策略,以及在推理时采用的树状搜索(tree search)的方法,让AI在诸如围棋、扑克、Dota、星际争霸等游戏中能够赢过人类。根源在于,这些方法以一种高度可扩展的方式提升了模型推理的能力。

目前,我们已经见过很多这种方法被应用在LLM领域了。比如Voyager,这是一个能推断时间的算法,可以让AI智能体不停写代码,

引导其在我的世界(Minecraft)中的技能。

此外,思维之树(Tree of Thought)在语境中的LLM与搜索引擎结合,以此促进推理的进步。

同时,更多应用还在路上,等待实践。」

参考资料:返回搜狐,查看更多

责任编辑:

发布于:山西晋城城区