十分快3网址德扑AI之父解答Libratus的13个疑问:没有用到任何深度学习,DL远非AI的全部 | 雷锋网

  • 时间:
  • 浏览:26

雷锋网 AI 科技评论按:昨天晚上,卡耐基梅隆大学计算机系在读博士生 十分快3网址Noam Bro十分快3网址wn 和计算机系教授 Tuomas Sandholm 来到 reddit 的机器学习分版,和前网民们同去来了一场「你问我答」(ask me anything)。这另三个 名字大伙儿现在也比较眼熟了,大伙随后今年早些从前在人机大赛中首次打败职业扑克选手的 AI「冷扑大师」(Libratus)的创造者。

具体来说,在持续了 20 天、4 位人类职业选手分别上阵的十二万手一对一无限注德州扑克中,四位职业选手一共输给「冷扑大师」17662500 分,单独来看每买车人类选手也都负于 AI。(如下图)

Noam Brown 和 Tuomas Sandholm 两位撰写的介绍你你这名 AI 中核心技术的论文《Safe and Nested Subgame Solving for Imperfect-Information Games》(在不完整篇 信息博弈中安全、嵌套地求解子博弈)可能被评选为 NIPS 2017的最佳论文,雷锋字幕组也翻译了作者们的论文介绍视频。随后就在这五六天,两位作者的新论文可能发表在《Science》,其中介绍了关于整个 AI 的更多细节。

借着 NIPS 2017 论文被关注,以及 AI 的更多细节发表在《Science》的可能,Noam Brown 和 Tuomas Sandholm 教授两位作者就来到 reddit 与前网民们进行这次「你问我答」,回答前网民们提出的关于「冷扑大师」、这次比赛、人工智能领域、不完整篇 信息博弈、卡耐基梅隆大学、在读博士生可能教授的学术生活等等各种问題。

以下雷锋网(公众号:雷锋网) AI 科技评论精选了某些热门问答呈现给大伙儿

这次的比赛是一对一的,大伙打算做另三个 能玩 6 人局比赛的 AI 吗?

Noam Brown  简单来说,目前看来大伙儿提出的技术在 6 人局里十分快3网址总要很好的实战效果(表现超过人类)。着实多于 3 个玩家参与的游戏是着实有一定技术挑战的,但扑克你你这名领域里体现得不明显。别的某些游戏更适合做多玩家参与的 AI 的研究。

下面仔细解释下:多于另三个 玩家参与的游戏对现有技术提出了某些某些有趣的理论和实践方面的挑战。对于博弈论的初学者来说,可能要估计另三个 纳什均衡,从计算深度图讲可能变得很低效了。即便找到了另三个 ,这随后一定有你在随后执行的玩法。在另三个 玩家参与的零和博弈中,不管你的对手为什么么么做,纳什均衡都都都能否 保证你的期望是「不需要输」。然而在另三个 玩家及以上的博弈中就不需要处于从前的事情了,即便你达成了纳什均衡,你还是可能会输。某些某些大伙儿时需新的技术不能避免另三个 玩家及以上的博弈,随后时需考虑如保在从前的博弈中评价 AI 的表现。

话虽从前说,但目前大伙儿在一对一 AI 中所用的技巧,看起来在另三个 玩家及以上的扑克中总要很好的实战表现。这件事有另三个 主要意味着着:

1,在玩扑克的从前,人类调快就会弃牌,某些某些实际比赛中,大多数手牌调快就变成了一对一比赛。

2,玩扑克的从前,玩家之间基本上这么 哪此可能企业企业合作,你没辦法 和另三个 玩家组队攻击从前玩家。真的尝试从前做话语(玩家间串通),就会违十分快3网址反游戏规则。

可能这另三个 意味着着,我认识的开发训练用途的 AI(以及训练 AI 的工具)的人真不知道哪此技巧在 6 人局的德扑比赛里总要很好的表现,随后基本上每项能在网上玩的扑克类型,现在总要有超过人类水平的 AI 的。说到底,达成有意义的 6 人局比赛可行性很低,可能比较慢避免人类玩家之间串通起来对抗 AI(即便大伙是无意识的)。

有这么 哪此辦法 ,尽量小地修改扑克的玩法,同去把它变成 AI 玩不了的游戏?

Noam Brown  你你这名问題非常好!根据我和你你这名领域其它的人工智能开发者同去的研究和讨论,大伙儿认为目前所有的扑克玩法都都都能否 找到超越人类水平的 AI。即便是奥马哈扑克、9 买车人玩的奥马哈扑克之都都能否阻止 AI 胜过人类。

可能要让 AI 搞不定某个游戏,有另三个 很有可能会起到很大作用的每项,随后在游戏中引进某些半企业企业合作机制,比如《Settlers of Catan》中的买卖和《Diplomacy》中的谈判。某些某些可能在游戏规则里加一根绳子 都都能否 和其它玩家换牌?当然了,真随后这么 改了,这还与否不算扑克总要好说了。

目前来讲还这么 找到哪此成功的理论辦法 都都能否 避免半企业企业合作游戏。着实这将是未来研究的重要方向之一,而大伙儿真正看完这类于于游戏中的良好表现也相当于还时需好几年的时间。

参加比赛的职业选手们如保评价「冷扑大师」的牌技?有这么 哪此很有趣可能很惊人的特点?

Noam Brown  简单说几条:

  1.  AI 都都能否 使用各种不同的下注大小,随后都都能否 高效地在它们之间做出选泽。人类玩家通常只用一到三种下注大小。

  2. AI 会使用另三个 混合策略(对于不同的可能采取不同的行动),而人类玩家倾向于单独使用某三种策略。某些某些局面复杂化的从前人类玩家会着实非常难以估计 AI 处于的情况表,可能 AI 各种行为都做得出来。

  3.  AI 用了某些某些不常见的下注大小。具体来说,下很大的注会给人类选手带来很大的压力。我从好几条职业牌手那里听说,在这场比赛从前顶级选手之间也现在始于了了更多地再次老出你你这名做法,很大程度上和「冷扑大师」用很大的下注大小取得了不小的成功有关系。

AlphaZero 和「冷扑大师」的泛化性谁高谁低?

Tuomas Sandholm 教授  AlphaZero 是为完整篇 信息博弈设计的(比如围棋、国际象棋),而冷扑大师是为不完整篇 信息博弈设计的。这是非常大的另三个 区别。在不完整篇 信息博弈中,有一每项信息是这么 对所有玩家公开的,比如,谈判时谈判者的买车人偏好、扑克中玩家的手牌、拍卖时参与者心中的价值函数、网络安全攻防中某一方被泄露出的零日漏洞,等等。多数真实世界中人和人之间的互动过程总要不完整篇 信息博弈。

对于给定的博弈大小,不完整篇 信息博弈避免起来要难得多,可能玩家时需在不同的子博弈间寻找平衡。比如在扑克中,玩家不应该一个劲看完好牌就加注、看完差牌就弃牌。相比之下,在完整篇 信息博弈中,要避免另三个 子博弈,只时需那个子博弈中的信息就够了,随后不时需与其它的子博弈之间作选泽。

现在,在大伙儿的 NIPS 论文和《Science》论文中,大伙儿可能阐述了理论上非常有力的不完整篇 信息博弈中的子博弈避免辦法 。哪此辦法 中借助对整个博弈的策略蓝本得出不同子博弈的值,随后也随后依靠哪此值在不同的子博弈之间取得平衡。

「冷扑大师」这么 使用深度图学习啊。这是大伙有意识地选的吗?还是说到了最后发现反正没用上?大伙有这么 试过,效果不好吗?以及,现在大伙儿都知道了从前用了神经网络的扑克 AI DeepStack 表现如保。可能回过头重新考虑一下,大伙有可能用神经网络吗?

Noam Brown  对,「冷扑大师」这么 用到任何深度图学习。大伙儿希望这能告诉大伙深度图学习远远总要人工智能的完整篇 。只靠深度图学习买车人,还缺陷以玩好扑克从前的游戏。

不过,大伙儿开发出的哪此技术也是和深度图学习兼容的。着实它们更像是蒙特卡洛树搜索的另三个 替代选泽。对于避免扑克从前的游戏,深度图学习的必要性总要很高。随后着实在其它某些游戏中,三种形式的价值函数近似会有很大的帮助。

DeepStack 用的是深度图学习,随后目前还不清楚它的下行传输速率 高到哪此程度。比如它并这么 连续击败从前的顶级扑克 AI。着实 DeepStack 的实际表现还不错的意味着着是它也用了嵌套子博弈求解,大伙团队和大伙儿团队每个人同去开发了相关的技术。这件事不时需深度图学习。「冷扑大师」的嵌套子策略求解辦法 比大伙的更高级某些,加在在其它方面的某些优势,最终让大伙儿达成了很强力的表现。

DeepStack 2017 年 5 月就在《Science》发表了论文,大伙发表论文的 NIPS 2017 则是在 12 月了,这么 是谁先做出来的?都都能否 做一下对比吗?大伙和其它的研究团队有企业企业合作吗?

Tuomas Sandholm 教授  DeepStack 的辦法 着实有买车人的有意思的地方,不过我赞同前网民 LetterRip 对它的评价(「冷扑大师肯定都都能否 碾压 DeepStack,另三个 AI 面对的选手的质量大伙说天上地下。DeepStack 比赛中遇到的职业扑克选手多数都很弱,着实总要几条非常厉害的,但这么 另三个 是算得上顶级选手的。另外,比赛设定里非要人类选手的第一名有奖金,这着实是在鼓励不常见的玩法」)。

下面我来谈谈另三个 AI 之间的异同点。同去我推荐大伙儿读读大伙儿从前发表在《Science》上的论文,其中完整篇 介绍「冷扑大师」同去也和 DeepStack 做了对比。

DeepStack 中的算法和「冷扑大师」的嵌套子策略求解很这类于,大伙称之为连续重新求解。在冷扑大师中它的工作辦法 是,剩余的子博弈在抽象提取、求解时,也会加在对手的确切下注数目。大伙儿的论文 2016 年 10 月就在网上发布了,2017 年 2 月也参加了 AAAI2017 的另三个 workshop;DeepStack 的论文是 2017 年 1 月上传到 arXiv 的(投稿给《Science》的时间是 2017 年春末)。考虑到开发哪此技术时需很长的时间,着实大伙儿另三个 团队总要此从前就花了好几条月做研究,说「哪此辦法 是另三个 团队分别开发但时间上同步」是没哪此问題的。随后,另三个 团队的辦法 总要很大的区别。「冷扑大师」的子策略求解辦法 相当于在下面几条方面都更先进,在大伙儿的《Science》论文中总要完整篇 的解释:

  • 「冷扑大师」中改进了手牌的避免辦法 ,降低了非要当对手犯过错误从前持有的手牌的看重程度;DeepStack 中就这么 你你这名项。

  • DeepStack 中对于不同手的牌,子博弈行为的抽象不需要处于改变

  • 大伙儿有某些不依赖算法的均衡搜索辦法 都都能否 保证安全性,大伙儿的子策略求解也是接近安全的,这在大伙儿的《Science》论文和 NIPS2017 论文中总要讲到

另外还有另三个 区别是另三个 AI 是如保避免前两轮下注的。DeepStack 会在前两轮下注中求解另三个 有限深度图的子博弈,而你你这名深度图值的估计是通过神经网络做出的。这随后它一个劲都都能否 实时计算如保应对对手做出的预测树之外的行为。而「冷扑大师」只在前两轮中做短暂的计算,随后根据提前算好的策略蓝本向下执行(可能赌注很高了就会用买车人的子博弈求解器)。可能「冷扑大师」是根据前两轮下注时提前计算好的策略蓝本执行的,它会把对手做出的策略树之外的下注大小约等到某个相近的、可能经过抽象的行为上去。这几轮中的行为蓝本抽象总要很高的密度,随后为了改善你你这名问題。另外,「冷扑大师」有另三个 独特的自我学习模块,都都能否 随着时间逐渐增强策略蓝本的计算水平,对于每项博弈树中对手有可能在它的策略中发现潜在的漏洞的从前,它都都能否 计算出更接近纳什均衡的近似解。

在表现评估方面,除了刚才 LetterRip 写的与人类选手对局中体现的之外,DeepStack 也从未表示过买车人都都能否 在正面交锋中打败在此从前就已公开的各个顶级扑克 AI,而「冷扑大师」以很大优势击败了此前最好的 HUNL 扑克 AI Baby Tartanian8(它是 2016 年计算机扑克大赛的冠军)。

至于企业企业合作,大伙儿另三个 研究团队一个劲总要发表买车人的工作、也一个劲学习借鉴对方的技巧,这可能有 13 年的时间了。另外,加拿大扑克社团的负责人 Michael Bowling 随后在 CMU 拿到他的博士学位的,我随后他的学位评审委员会成员之一。不过,大伙儿目前还这么 过任何直接的企业企业合作。

可能许多人在超级计算机上跑另三个 超大规模的 PIO 求解器,你你这名做法和大伙的软件区别在哪里?

Noam Brown 「冷扑大师」中的做法比 PIO 求解器真不知道高明到哪里去了。下面我列举几条意味着着说明为哪此在你你这名比赛中 PIO 求解器某些总要好使:

  1. PIO 求解器时需有另三个 人类输入双方的信念分布。「冷扑大师」完总要靠买车人判断哪此信息的。

  2. PIO 求解器是都都能否 欺骗的,都都能否 故意做某些均衡中再次老出概率为 0 的行为。比如保能你下注了 10%,随后 PIO 求解器认为你你这名情况表可能处于话语,这么 它对你手牌的信念分布随后未经定义的,随后就会给出不合理的答案。着实 PIO 是另三个 很明显的反面例子,提醒大伙儿当对手做了「奇怪」的事情的从前并不完整篇 相信他。同样明显的是,可能你和顶级人类选手对局,而大伙随后发现你的 AI 的弱点,这就肯定会再次老出严重的问題。「冷扑大师」就不需要有哪此问題。即便对手做出了在均衡中理应再次老出概率为 0 的行为,它不能做出鲁棒的、正确的敲定。

都都能否 话语模型中为哪此这么 加入强化学习吗?强化学习挺配你你这名问題的。

Noam Brown  大伙儿在「冷扑大师」中使用了反事实遗憾最小化(CFR)的三种变体。具体来说,大伙儿用了蒙特卡洛 CFR 计算策略蓝本,随后用 CFR+ 避免实时的子博弈求解。

CFR 随后三种自我对弈的算法,和强化学习很重这类于,随后 CFR 会更多地考虑自我对局中这么 选泽的哪此选泽,假设选了从回会有为什么么么样的投入产出。完整篇 像强化学习一样的 CFR 变体也是有的,不过实际应用中一个劲要花更长时间不能找到好的策略。

我听说上一次「Claudico」人工智能对阵人类输的一败涂地,这么 从「Claudico」到「冷扑大师」,都做出了哪此改进可能调整?「Claudico」被打败的事情是总要对「冷扑大师」的成功有很大的启发?

Tuomas Sandholm 教授  2015年的从前,Claudico 对阵人类输了每一百手 9 盲注,而「冷扑大师」以每一百手 15 盲注胜出了人类。「冷扑大师」在以下另三个 方面都编写了新的算法:

  1.  新的、更好的平衡搜索算法,用来在比赛现在始于了了前计算策略蓝本

  2.  新的子博弈求解辦法 ,这次的辦法 是安全的、嵌套的。Claudico 中的残局求解器既不安全,随后嵌套。

  3.  另三个 自我学习模块,都都能否 随着时间逐渐增强策略蓝本的计算水平,对于每项博弈树中对手有可能在它的策略中发现潜在的漏洞的从前,它都都能否 计算出更接近纳什均衡的近似解。

「冷扑大师」可能很厉害了,都都能否 打败人类职业选手。随后根据我的理解,它还总要「不可战胜」的,你说哪此过几年总要再次老出都都能否 打败「冷扑大师」的 AI。这么 「冷扑大师」距离能玩出完美的扑克的 AI 还有多远?

Noam Brown  着实各种主流的无限制德州扑克玩法里,要说达到另三个 完美的、理论上可能被打败的策略,是做非要的一件事。游戏的可能随后过多了。有这么 激励研发更好的德扑 AI 也难说,现在 AI 可能在哪此游戏里超越人类了,着实整个研究领域更可能转向其它还这么 避免的游戏中。

大伙接下来计划研究哪此任务/游戏?

Noam Brown  有意思的方向有某些某些!大伙儿目前还没决定下来。

三种非常有意思的研究路线是「半企业企业合作博弈」,比如谈判。在这里,玩家们有激励同去企业企业合作,但同去每买车人也都想达到买车人的买车人效用最大化。现有的技术在这类于于博弈中根本无效,某些某些还有某些某些有意思的研究等待英文大伙儿去做。蕴含你你这名行态的休闲游戏有某些某些,比如《Settlers of Catan》(买卖)和《Diplomacy》(谈判)。

Dota2 和星际争霸从前的 RTS 游戏也是非常有意思的研究领域,它们也是不完整篇 信息博弈,这么 可能随后研究另三个 难以捉摸、但一个劲都都能否 击败顶尖人类选手的 AI 话语,大伙儿在扑克方面做的研究某些某些某些某些都都能否 起到帮助。

着实还有另三个 问題很有意思,随后如保缩小游戏 AI 之间的差距,比如 AlphaZero 和「冷扑大师」之间的差距。现在,随后避免围棋和国际象棋,大伙儿有一组很棒的辦法 ;要避免扑克从前的游戏,大伙儿有另一组很棒的辦法 ;但最好的情况表当然是大伙儿用另三个 算法就都都能否 避免所有哪此游戏。现有的不同游戏的避免方案之间有巨大的差别,如保缩小差距目前也这么 明确的答案。

对于目前的算术辦法 博弈论,大伙着实有哪此有意思的研究方向?

Tuomas Sandholm 教授  有趣的问題有某些某些,整个领域也非常活跃。以我买车人来讲,我最喜欢有哪此特点的研究工作:1. 针对实际问題,而总要深度图复杂化的抽象模型,这类于于问題也就通常时需真实世界的数据;2,研究哪此可能理论研究每项得到了成果,就能对真实世界有某些正面影响的问題。

我买车人很重喜欢的某些某些动手在研究的方向有这么 几条:

  • 不完整篇 信息博弈中的博弈理论求解以及利用对手。在我的 CMU 实验室和创业公司 Strategic Machine 中,我总要做这方面的研究。

  • 自动规则设计 (比如通过数据对多物品、多买家的拍卖场景做定制化的拍卖设计)

  • 肾移植(我的 CMU 实验室中的 AI 负责 UNOS 的国家肾交换中心;你你这名交换中心下属有 159 个移植中心)

  • 多种市场问題的组合优化。我在我的 CMU 实验室和另三个 我创立的广告宣传公司 Optimized Markets 中做这方面的研究。

大伙着实你你这名辦法 拿到产业界来话语,最相符的应用是哪此?比如说大伙着实大伙的辦法 都都能否 用来为贸易协商建模吗?另外,目前来看「冷扑大师」还是时需运行在超计算机上的,有这么 可能把它改进得更高效某些,一般的电脑可能服务器就都都能否 运行?

Noam Brown  对于「让 AI 进入真实世界」你你这名目标,着实大伙儿的研究至关重要,可能多数真实世界中的策略互动问題都多几条少有某些信息是隐藏的。大伙儿在这项研究中随后避免的根本问題也随后你你这名。贸易协商肯定都都能否 是未来的应用辦法 之一,其它还都都能否 有拍卖、金融市场、信息安全互动以及军事行动相关。

话虽从前说,随后随后从扑克从前的所有行为、成本、收益都定义好的游戏拓展到定义得不这么 明确的真实世界互动中话语,大伙儿还面临着相当大的挑战。不过假如许多人不能提出另三个 贸易协商的模型,大伙儿这次的研究成果肯定都都能否 用在后面 。这也会是未来研究中的另三个 有意思的方向。

是的大伙儿着实做另三个 能运行在一般电脑和服务器上、随后稍微弱某些的版本是做得到的。我也着实随着算法的不断升级改进,达到同样的表现所时需的硬件性能也会这么 低。着实可能 5 年从前就能在智能手机上见到你你这名水平的人工智能了。

这次关于德扑 AI AMA 的内容就介绍到这里。大伙儿也期待更多更接近现实生活的问題被人工智能逐一避免。via Machine Learning@Reddit,雷锋网 AI 科技评论编译。

雷锋网版权文章,未经授权禁止转载。详情见转载须知。