“DeepMind的AI研究游戏玩家以利用其策略中的弱点”
在预印服务器arxiv上发表的论文中,alphabet的deepmind科学家提出了一个可以在多个游戏中学习对玩家几乎最佳响应的新框架。 他们在国际象棋、围棋、国际象棋等众多游戏中,始终主张在最坏情况下的对手(也就是打不好,但至少要按照规则进行游戏,实际完成游戏)的玩家中表现出色。 德州扑克。
Deepmindceo Demis Hass Abis经常声称,游戏是开发转换为现实世界、能够应对挑战的算法的方便的试验场。 这样,这种新框架般的创新,可以为ai的圣杯——人工智能( agi )奠定基础。 ai系统决定了不仅可以自动完成数据输入等平凡重复性公司的任务,还可以自动完成与其环境相关的原因。 这是openai等其他研究机构的长期目标。
对玩家的性能水平称为可用性。 这种计算的可用性一般来说计算量很大,因为玩家可以采取的行动数量非常多。 例如,德州扑克的变体——一个人限制德州扑克——约有1014个决定点,围棋约有10170个决定点。 解决这个问题的一种方法是利用强化学习(通过系统报酬让软件代理实现目标的ai训练技术),制定能够利用最佳学习判断目标玩家的战略。
deepmind研究者提出的框架被称为近似于新闻状态的蒙特卡罗树搜索( abr is-mcts ),是基于新闻状态准确近似的最佳响应。 框架内的参与者按照算法进行游戏,学员从各种游戏结果中获取新闻来训练策略。 直觉上,abr is-mcts正在学习一种策略,当剥削者被赋予对对方策略的无限访问权时,该策略可以创建相对有效的剥削策略。 模拟了某人经过多年训练利用对方会怎么样。
研究人员报告称,在针对200名演员(在配备4个解决方案和8gb ram的pc上训练)和1个学员的10个解决方案和20gb ram )的实验中,abr is-mcts在各比赛中的胜率为hex或go以外的游戏
据共作者介绍,我看到了很多学习证据,即演员的学习步骤一旦受到限制,即使经过100,000次训练,成绩也经常会变差。 但是,在一些情况下,abr is-mcts相当慢,还观察到计算特定形式的战略(统一随机扑克)在kuhn扑克中的可用性平均需要150秒。
未来的工作包括将这种方法扩展到更多复杂的游戏中。
心灵鸡汤:
免责声明:学习富国网免费收录各个行业的优秀中文网站,提供网站分类目录检索与关键字搜索等服务,本篇文章是在网络上转载的,本站不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站的工作人员将予以删除。