DeepMind现在可以从人类的偏好中学习 - 就像蹒跚学步一样

 作者:惠槊     |      日期:2018-01-01 21:01:15
Adam Hester / Getty作者:Chris Baraniuk人工智能系统继续变得越来越强大,但他们的人类主人仍然需要太多的手持来自DeepMind和OpenAI的新研究表明,在这里只需轻推一下就可以帮助人工智能完成棘手的任务该团队建立了一系列实验,在这些实验中,人类参与者获得了两个人工智能处理任务的短片然后他们被要求做出关于哪个剪辑似乎显示出更有希望的进展的快速判断 - 但是没有AI意识到任务的期望结果一个场景涉及AI学习玩太空入侵者,另一个场景涉及虚拟机器人学习做后空翻重要的是,人类是非专家,只是被要求以面值判断剪辑大多数决定只花了几秒钟人类的反应用于训练称为奖励预测器的AI系统的一部分,该预测器反过来训练正在执行任务的AI代理随着时间的推移,代理人学会了如何根据人类的偏好最大化奖励并改善其行为例如,在杂技任务中,AI学会了在评估者的一小时内完成一个完美的后空翻根据OpenAI的达里奥·阿莫迪(Dario Amodei)的说法,让一个人来评估每一步的进度,而不是预测器,将花费超过100倍的时间到目前为止,强化学习系统需要一个硬编码的奖励函数来确定他们必须解决的问题,但这种新技术消除了这种必要性该方法还允许人类纠正任何不良行为,而无需连续检查 - 事实上,他们只需要检查代理人行为的0.1%,以使其按照自己的意愿行事华盛顿大学的佩德罗·多明戈斯说,研究表明人工智能是如何“成长起来的”他说,DeepMind以前的系统就像婴儿一样,在获得奖励之前尝试随机的东西 “这个系统更像是一个蹒跚学步的孩子,仍然在尝试随意的事情,但偶尔会从父母那里得到一些反馈并从中学习”牛津大学人类未来研究所的迈尔斯·布伦戴奇说,这项新工作展示了人类对什么行动的投入适当的可以相对快速和容易地收集 “这是一篇令人兴奋的论文,涉及多个层面,”布伦戴奇说,并指出其中两位作者--Amodei和保罗克里斯蒂亚诺在OpenAI上 - 也将他们的名字附在去年关于AI安全的论文中 “他们强调的问题之一是可扩展的监督:随着AI系统变得更加智能化,你如何确保能够监督它们”然而,系统并不总能产生理想的输出例如,在Atari网​​球比赛中,它学会了用球拍击球,但并不是得分有利经纪人只是学会参加无休止的集会此外,该系统提出的问题是,要求对行为进行直观的人为判断是否会对某些更复杂的任务产生不必要的偏见 “你可能会想象未来会出现更多问题,”布伦戴奇说期刊参考:arXiv,1706.03741我们在故事中正确归因于引用更多关于这些主题: