强化学习挑战以突破嵌入式AI的界限的目地?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-05-06
开发能够物理感知世界并与环境互动的机器人是嵌入式人工智能的领域
这是AI科学家长期以来追求的目标之一,尽管该领域的进步离人类和动物的能力还有很长的路要走,但是成就令人瞩目,在嵌入式AI的发展中,IBM,将帮助评估AI代理寻找路径,与对象进行交互以及有效地计划任务的能力,测试是一种虚拟环境,将在6月在线举行的计算机视觉和模式识别会议上的演示,当前没有任何AI技术可以解决运输挑战,但是竞赛的结果可以帮助为嵌入式AI和机器人技术研究的未来找到新的方向。
虚拟环境中的强化学习
大多数机器人技术应用程序的核心是强化学习,这是基于动作,状态和奖励的机器学习的一个分支,强化学习代理会获得一系列可应用于其环境的动作,以获得奖励或达到特定目标。这些操作会更改代理和环境的状态,根据其行为如何使其更接近目标而获得奖励,代理通常从对环境一无所知并选择随机动作开始,随着他们逐渐从环境中获得反馈,他们将学习可以程度地获得回报的一系列动作,该方案不仅用于机器人技术,还用于许多其他应用,例如自动驾驶汽车和内容推荐,强化学习还帮助研究人员掌握复的游戏。
创建强化学习模型提出了一些挑战
其中之一是设计正确的状态,奖励和动作集,这在诸如机器人等应用程序中可能非常困难,在这些应用程序中,代理人面对一个连续的环境,该环境受到诸如重力,风以及与其他物体之间的物理相互作用之类的复杂因素的影响。对象(相比之下,象棋和围棋之类的环境具有非常离散的状态和动作),另一个挑战是收集训练数据,强化学习代理需要训练数百万次与环境的交互中的数据,这种限制可能会减慢机器人应用程序的速度,因为它们必须从物理世界中收集数据,而不是视频和棋盘游戏,后者可以在多台计算机上快速连续播放。
人工智能研究人员试图创建用于强化学习应用程序的模拟环境
如今无人驾驶汽车和机器人技术经常将模拟环境作为其培训制度的主要部分,使用真实的机器人训练模型可能很昂贵,有时甚至涉及安全方面的考虑,结果趋势是将仿真器以训练和评估AI算法,要复制物理世界的确切动态非常困难,并且大多数模拟环境都是强化学习代理在现实世界中所面临的情况的粗略近似,为了解决此限制,运输挑战团队竭尽全力使测试环境尽可能逼真,一个通用的虚拟世界模拟平台,它支持近照片逼真的图像渲染,基于物理的声音渲染以及对象与代理之间的逼真的物理交互。
我们旨在使用更先进的物理虚拟环境模拟器来定义一项新的体现AI任务
要求AI代理在现实的物理约束下更改多个对象的状态,任务和动作计划,强化学习测试具有不同的难度,当前大多数测试涉及导航任务,其中代理必须根据视觉和音频输入在虚拟环境中找到自己的方式,运输挑战使强化学习代理面对“任务和动作计划”问题,要求代理程序不仅找到的移动路径,而且还需要更改对象的状态以实现其目标,挑战发生在装饰有家具,物品和容器的多房间房屋中,强化学习代理从人称视角观察环境,必须从房间中找到一个或几个物体并将它们收集到指定的目的地,因此一次只能携带两个对象,另外它可以使用一个容器来承载多个物体,并减少必须进行的行程次数。
在每个步骤中代理都可以选择几种动作之一
例如转弯,前进或捡起物体,如果代理在有限的步骤内完成转移任务,则该代理会收到奖励,尽管这似乎是任何儿童都无需大量培训就能解决的问题,但对于当前的AI系统而言,这确实是一项复杂的任务,强化学习计划必须在探索房间,找到到达目的地的路径,在单独携带物体还是在容器中携带物体以及在指定的步骤预算范围内进行所有这些选择之间找到适当的平衡,我们正在提出一种新的体现AI挑战,特别是机器人代理必须采取行动,在具有照片和物理逼真的虚拟环境中移动和更改大量对象的状态,而这在机器人技术中仍然是一个复杂的目标。
AI代理的抽象挑战
挑战人称视角,AI代理可以通过颜色,深度和分段图来查看世界,尽管是一个非常复杂的模拟环境,但设计人员仍然可以抽象出机器人在现实世界中将面临的一些挑战,它的两个手臂具有九个自由度,并且在肩膀,肘部和腕部都有关节,但是机器人的手是磁铁,可以拿起任何物体而无需用手指操作,这本身就是一项非常具有挑战性的任务,代理还以三种不同的方式感知环境,即RGB彩色框,深度图和分段图,分别以硬色显示每个对象,深度图和分割图使AI代理更容易读取场景的尺寸,并从尴尬的角度查看时将对象区分开。
导航与交互之间的协同作用:如果该对象不在以自我为中心的视图中,或者阻碍了它的直接路径,则代理无法移动以抓住该对象。
物理感知的交互:如果特工的手臂无法到达物体,则抓取可能会失败。
物理感知导航:与障碍物的碰撞可能会导致物体掉落并严重阻碍运输效率。
这使人们意识到了人类视野和代理的复杂性
分辨出不同产品之间的区别,伸手拿起不同的物品,将它们放在购物篮或购物车中,然后选择有效的路径办法,而且您无需访问分段图和深度图,也无需阅读口袋中皱巴巴的手写笔记中的内容,即可完成所有这些操作,单纯的深度强化学习是不够,运输挑战高级规划师,实验表明结合了强化学习和符号规划器的混合AI模型更适合解决运输挑战,运输挑战赛正在接受提交的过程中,几种已知的强化学习技术对环境进行了测试,单纯的强化学习在解决任务和运动计划挑战方面非常差,纯粹的强化学习方法要求AI代理从零开始发展其行为,从随机动作开始,逐步完善其策略,以达到指定数量的步骤中的目标。
单纯的强化学习方法几乎无法成功达到10%以上的成功率
这反映了物理相互作用的复杂性以及我们基准测试的巨大探索搜索空间,与之前的点目标导航和语义导航任务相比,代理仅需要导航到场景中的特定坐标或对象,要求代理在环境中移动和更改对象的物理状态(即,任务和动作计划),而端到端模型可能无法实现,当研究人员尝试将强化学习代理与基于规则的高级计划程序相结合的混合AI模型时,他们发现系统的性能得到了显着提升,这种环境可以用来训练无法满足这些任务类型的模型,并且需要明确的推理和计划能力,我们希望证明神经符号混合模型可以改善此问题并表现出更强的性能。”
即使是性能的混合系统,其成功率也约为50%
这是AI科学家长期以来追求的目标之一,尽管该领域的进步离人类和动物的能力还有很长的路要走,但是成就令人瞩目,在嵌入式AI的发展中,IBM,将帮助评估AI代理寻找路径,与对象进行交互以及有效地计划任务的能力,测试是一种虚拟环境,将在6月在线举行的计算机视觉和模式识别会议上的演示,当前没有任何AI技术可以解决运输挑战,但是竞赛的结果可以帮助为嵌入式AI和机器人技术研究的未来找到新的方向。
虚拟环境中的强化学习
大多数机器人技术应用程序的核心是强化学习,这是基于动作,状态和奖励的机器学习的一个分支,强化学习代理会获得一系列可应用于其环境的动作,以获得奖励或达到特定目标。这些操作会更改代理和环境的状态,根据其行为如何使其更接近目标而获得奖励,代理通常从对环境一无所知并选择随机动作开始,随着他们逐渐从环境中获得反馈,他们将学习可以程度地获得回报的一系列动作,该方案不仅用于机器人技术,还用于许多其他应用,例如自动驾驶汽车和内容推荐,强化学习还帮助研究人员掌握复的游戏。
创建强化学习模型提出了一些挑战
其中之一是设计正确的状态,奖励和动作集,这在诸如机器人等应用程序中可能非常困难,在这些应用程序中,代理人面对一个连续的环境,该环境受到诸如重力,风以及与其他物体之间的物理相互作用之类的复杂因素的影响。对象(相比之下,象棋和围棋之类的环境具有非常离散的状态和动作),另一个挑战是收集训练数据,强化学习代理需要训练数百万次与环境的交互中的数据,这种限制可能会减慢机器人应用程序的速度,因为它们必须从物理世界中收集数据,而不是视频和棋盘游戏,后者可以在多台计算机上快速连续播放。
人工智能研究人员试图创建用于强化学习应用程序的模拟环境
如今无人驾驶汽车和机器人技术经常将模拟环境作为其培训制度的主要部分,使用真实的机器人训练模型可能很昂贵,有时甚至涉及安全方面的考虑,结果趋势是将仿真器以训练和评估AI算法,要复制物理世界的确切动态非常困难,并且大多数模拟环境都是强化学习代理在现实世界中所面临的情况的粗略近似,为了解决此限制,运输挑战团队竭尽全力使测试环境尽可能逼真,一个通用的虚拟世界模拟平台,它支持近照片逼真的图像渲染,基于物理的声音渲染以及对象与代理之间的逼真的物理交互。
我们旨在使用更先进的物理虚拟环境模拟器来定义一项新的体现AI任务
要求AI代理在现实的物理约束下更改多个对象的状态,任务和动作计划,强化学习测试具有不同的难度,当前大多数测试涉及导航任务,其中代理必须根据视觉和音频输入在虚拟环境中找到自己的方式,运输挑战使强化学习代理面对“任务和动作计划”问题,要求代理程序不仅找到的移动路径,而且还需要更改对象的状态以实现其目标,挑战发生在装饰有家具,物品和容器的多房间房屋中,强化学习代理从人称视角观察环境,必须从房间中找到一个或几个物体并将它们收集到指定的目的地,因此一次只能携带两个对象,另外它可以使用一个容器来承载多个物体,并减少必须进行的行程次数。
在每个步骤中代理都可以选择几种动作之一
例如转弯,前进或捡起物体,如果代理在有限的步骤内完成转移任务,则该代理会收到奖励,尽管这似乎是任何儿童都无需大量培训就能解决的问题,但对于当前的AI系统而言,这确实是一项复杂的任务,强化学习计划必须在探索房间,找到到达目的地的路径,在单独携带物体还是在容器中携带物体以及在指定的步骤预算范围内进行所有这些选择之间找到适当的平衡,我们正在提出一种新的体现AI挑战,特别是机器人代理必须采取行动,在具有照片和物理逼真的虚拟环境中移动和更改大量对象的状态,而这在机器人技术中仍然是一个复杂的目标。
AI代理的抽象挑战
挑战人称视角,AI代理可以通过颜色,深度和分段图来查看世界,尽管是一个非常复杂的模拟环境,但设计人员仍然可以抽象出机器人在现实世界中将面临的一些挑战,它的两个手臂具有九个自由度,并且在肩膀,肘部和腕部都有关节,但是机器人的手是磁铁,可以拿起任何物体而无需用手指操作,这本身就是一项非常具有挑战性的任务,代理还以三种不同的方式感知环境,即RGB彩色框,深度图和分段图,分别以硬色显示每个对象,深度图和分割图使AI代理更容易读取场景的尺寸,并从尴尬的角度查看时将对象区分开。
导航与交互之间的协同作用:如果该对象不在以自我为中心的视图中,或者阻碍了它的直接路径,则代理无法移动以抓住该对象。
物理感知的交互:如果特工的手臂无法到达物体,则抓取可能会失败。
物理感知导航:与障碍物的碰撞可能会导致物体掉落并严重阻碍运输效率。
这使人们意识到了人类视野和代理的复杂性
分辨出不同产品之间的区别,伸手拿起不同的物品,将它们放在购物篮或购物车中,然后选择有效的路径办法,而且您无需访问分段图和深度图,也无需阅读口袋中皱巴巴的手写笔记中的内容,即可完成所有这些操作,单纯的深度强化学习是不够,运输挑战高级规划师,实验表明结合了强化学习和符号规划器的混合AI模型更适合解决运输挑战,运输挑战赛正在接受提交的过程中,几种已知的强化学习技术对环境进行了测试,单纯的强化学习在解决任务和运动计划挑战方面非常差,纯粹的强化学习方法要求AI代理从零开始发展其行为,从随机动作开始,逐步完善其策略,以达到指定数量的步骤中的目标。
单纯的强化学习方法几乎无法成功达到10%以上的成功率
这反映了物理相互作用的复杂性以及我们基准测试的巨大探索搜索空间,与之前的点目标导航和语义导航任务相比,代理仅需要导航到场景中的特定坐标或对象,要求代理在环境中移动和更改对象的物理状态(即,任务和动作计划),而端到端模型可能无法实现,当研究人员尝试将强化学习代理与基于规则的高级计划程序相结合的混合AI模型时,他们发现系统的性能得到了显着提升,这种环境可以用来训练无法满足这些任务类型的模型,并且需要明确的推理和计划能力,我们希望证明神经符号混合模型可以改善此问题并表现出更强的性能。”
即使是性能的混合系统,其成功率也约为50%
我们提出的任务非常具有挑战性,可以用作在物理逼真的场景中跟踪实现的AI进度的基准,移动机器人正成为研究和应用的热点领域,已经有多家制造和智能工厂表达了将环境用于其实际应用的兴趣,有趣的是运输挑战赛能否在该领域带来新的创新,我们希望运输挑战赛能够帮助推动围绕仓库和家庭环境中的辅助机器人代理进行研究。
商业联合会数据分析专业委员会