24小时联系电话:185 8888 888

科技
您现在的位置: 首页 > 科技 > Uber的AI像人类一样玩基于文本的游戏
  • “酷”大脑研究的扭曲观念扼杀了心理治疗

    “酷”大脑研究的扭曲观念扼杀了心理治疗

    发布时间:2020/03/31

      ‘对于人类的每一个问题,总是存在着众所周知的解决方案-简洁,合理和错误。” 人类从来没有遇到过比了解我们自己的人性更复杂的问题。而且,不乏任何试图探究其深度的简洁,合理和错误的答案。 在我职业生...

  • SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关

    SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关

    发布时间:2020/03/31

      美国国家航空航天局(NASA)挖掘出一种尚未建造的SpaceX货运飞船,用于向尚未发射的绕月轨道前哨基地运送补给品。 SpaceX的机器人Dragon XL是其主力Dragon太空船的圆柱形超大型版本,将作为第一批从NASA获得...

  • Spaces应用程序使人们可以参加VR中的Zoom会议

    Spaces应用程序使人们可以参加VR中的Zoom会议

    发布时间:2020/03/30

      一个名为Spaces的新PC VR应用程序使用户可以从VR内部加入Zoom会议和其他视频通话。 该应用是根据最近发生的COVID-19大流行而开发的,该大流行已经使世界各地许多人在家中工作并使用诸如Zoom之类的虚拟会议...

  • 汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%

    汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%

    发布时间:2020/03/30

      总部位于中国惠州的医疗设备公司慧英医疗声称已开发出一种AI成像解决方案,该解决方案使用CT胸部扫描来检测COVID-19的存在。该公司断言,如果不使用逆转录聚合酶链反应(RT-PCR)(COVID-19的标准测试方法),...

Uber的AI像人类一样玩基于文本的游戏

发布时间:2020/01/31 科技 浏览次数:573

 
AI可以学会像人类一样玩基于文本的游戏吗?这就是Uber AI研究部门的应用科学家在最近的一项研究中要回答的问题。他们的基于探索和模仿学习的系统建立在早期的Go-Explore框架之上,该系统通过遵循高回报的路径(或轨迹)来制定政策来解决游戏。
“基于文本的计算机游戏通过自然语言向玩家描述了他们的世界,并期望玩家使用文本与游戏互动。这些游戏很有趣,因为它们可以看作是人工理解语言的语言理解,解决问题和产生语言的试验台。”描述该作品的论文的合著者写道。 “此外,他们提供了一个学习环境,在其中可以通过与环境交互而不是使用固定语料库来获得这些技能……(这就是为什么)解决基于文本的游戏的现有方法仅限于非常简单或具有动作空间仅限于一组预定的允许动作。”
正如研究人员所解释的那样,开发文字游戏AI的挑战在于应对大型行动空间(即玩家面临的决策范围)。例如,词汇量为20,00个单词,并且有可能生成最多7个单词的句子,那么动作的总数就高达1.28e ^ 30。
修改后的Go-Explore,然后将观察结果映射到动作,同时跟踪游戏空间中未充分研究的区域。在两个阶段的第一个阶段(“探索”阶段)中,Go-Explore会探索环境并将访问过的地方记录到档案“单元”中。这些单元包含通过一些数学函数映射到相同表示的一组观测值,每个观测值与元数据,包括指向该单元格的轨迹,该轨迹的长度以及该轨迹的累积奖励。
Uber AI文字游戏
在每个游戏会话中,Go-Explore都会根据其元数据选择一个单元,并从与该单元关联的轨迹的末端开始随机探索。这是第二阶段(“强化”阶段)的开始,其余阶段涉及使用第一阶段的轨迹来训练政策。这里的目标是将一系列“脆弱”的动作转变为一种策略,该策略可以应用于不同的游戏,甚至可以推广到看不见的游戏。
在一系列实验中,研究人员在两场比赛中放宽了“围棋探索”的要求,要赢得多个单词,奖励特别少(即无法获得反馈的动作)。第一个是CoinCollector,这是一类基于文本的游戏,其目的是在给定房间的位置找到并收集硬币;第二个是CookingWorld,它收集了4,440多种游戏,具有222种不同的难度级别和20种每个难度级别的游戏(每个都有不同的实体和地图)。虽然CoinCollector总共仅解析五个命令,但是CookingWorld接受18个动词和具有预定义语法的51个实体,其总词汇量为20,000,并且需要许多动作(在艰苦的游戏中至少30个)才能找到奖励。
对于CookingWorld,该团队总共设计了三种不同的方案:单人游戏,其中一位特工经过培训并测试了一场比赛;联合,对所有4,440场比赛进行了单一政策的培训和测试;和零击,将游戏分为训练,验证和测试集,并在训练游戏中训练策略,并在看不见的测试游戏中对其进行测试。为简便起见,在包括CoinCollector在内的所有游戏中,最大步数均设置为50。
该团队报告说,这种Go-Explore风格在CoinCollector中找到了一种最佳策略,其动作比以前的最新系统高出大约一半,并且具有轨迹
长度为30步,而之前的最佳平均值为38。在CookingWorld中,Go-Explore的游戏总得分为19,530(接近最高得分19,882),共计47,562步,并且在总数中获得了4,279的获胜轨迹4,440游戏。
研究人员指出,这绝不是一种完美的方法。游戏说明之间存在大量重叠,导致一种情况,即一项政策收到类似的观察结果,但预计会采取两种不同的措施。而且,Go-Explore将很难在动作较大的游戏(如Zork I)中找到良好的轨迹。那就是说,团队认为,他们改良的Go-Explore系统在文字游戏领域显示出“有希望的结果”。