强化学习对通用 AI 来说已经足够了
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-06-16
奖励化和试错经验足以培养表现出与智力相关的能力的行为
强化学习是基于奖励化的人工智能分支,可以导致通用人工智能的发展,AI的两条路径,人类思维 vs 人工智能,创建 AI 的一种常见方法是尝试在计算机中复制智能行为的元素,例如我们对哺乳动物视觉系统的理解催生了各种人工智能系统,这些系统可以对图像进行分类、定位照片中的对象、定义对象之间的边界等等,同样我们对语言的理解有助于开发各种自然语言处理系统,例如问答、文本生成和机器翻译。
这些都是狭义人工智能的实例
这些系统旨在执行特定任务而不是具有一般解决问题的能力,一些科学家认为,组装多个狭义的人工智能模块会产生更高的智能系统,例如您可以拥有一个软件系统,在单独的计算机视觉、语音处理、NLP 和电机控制模块之间进行协调,以解决需要多种技能的复杂问题,创建 AI 的方法是重新创建产生自然智能的简单而有效的规则,考虑了一个替代假设化奖励的一般目标足以驱动表现出自然和人工智能研究的大部分(如果不是全部)能力的行为。
这基本上就是大自然的运作方式
就科学而言,在我们周围看到的复杂有机体中,并没有自上而下的智能设计,数十亿年的自然选择和随机变异过滤了生命形式,使其适合生存和繁殖,能够更好地应对环境中的挑战和情况的生物设法生存和繁殖,其余的都被淘汰了,这种简单而有效的机制导致了具有各种感知、导航、改变环境和相互交流的技能和能力的生物的进化。
动物和人类面临的自然世界,以及人工代理未来面临的环境
本质上非常复杂,需要复杂的能力才能在这些环境中取得成功(例如生存),写因此以奖励化来衡量的成功需要各种与智力相关的能力,在这样的环境中,任何使奖励化的行为都必须表现出这些能力,从这个意义上说,奖励化的一般目标包含许多甚至可能所有的智能目标,考虑一只寻求减少饥饿的奖励的松鼠,一方面它的感官和运动技能帮助它在有食物时定位和收集坚果,但是当食物变得稀缺时,一只只能找到食物的松鼠必然会饿死,这就是为什么它也有计划技能和记忆来缓存坚果并在冬天恢复它们,松鼠具有社交技能和知识,可以确保其他动物不会偷吃它的坚果,如果缩小,饥饿小化可能是“活下去”的一个子目标,这还需要一些技能,例如发现和躲避危险动物、保护自己免受环境威胁以及寻找季节性变化的更好栖息地。
当与智力相关的能力作为奖励化的单一目标的解决方案出现时
这实际上可能提供更深入的理解,因为它解释了为什么会出现这种能力,与此相反,当每个能力被理解为解决自己的专业目标,为什么问题是侧阶梯时,以重点是什么这种能力呢,化奖励的“通用和可扩展”的方式是通过智能体通过与环境的交互来学习。
通过奖励化发展能力
触碰人工智能研究人员提供了一些高级示例,说明在化许多可能的奖励信号之一的服务中,智能和相关能力将如何隐含地出现,对应于自然或人工智能可能针对的许多实用目标,感官技能服务于在复杂环境中生存的需要,对象识别使动物能够检测食物、猎物、朋友和威胁,或找到路径、庇护所和栖息地,图像分割使他们能够分辨不同对象之间的差异,并避免致命错误,例如跑下悬崖或从树枝上掉下来,同时听觉有助于发现动物在伪装时看不到或找不到猎物的威胁,触觉、味觉和嗅觉也赋予动物更丰富的栖息地感官体验和在危险环境中生存的更大机会的优势。
奖励和环境也塑造了动物与生俱来的知识
由狮子和猎豹等掠食性动物统治的敌对栖息地会奖励反刍动物,它们自出生以来就具有逃避威胁的先天知识,同时动物也因其学习栖息地特定知识的能力而获得奖励,例如在哪里可以找到食物和住所,研究人员还讨论了语言、社交智能、模仿以及的一般智能的奖励驱动基础,他们将其描述为在单一、复杂的环境中化单一奖励,在这里他们在自然智能和 AGI 之间进行了类比,动物的经验流足够丰富和多样,它可能需要灵活的能力来实现各种各样的子目标(例如觅食、战斗或逃跑),以便成功地化其整体奖励(例如饥饿或繁殖),类似地,如果一个人工智能代理的经验流足够丰富,那么许多目标(例如电池寿命或生存)可能隐含地需要实现同样广泛的子目标的能力,因此奖励的化应该足以产生一种通用人工智能。
奖励化的强化学习
强化学习,强化学习是人工智能算法的一个特殊分支,由三个关键要素组成:环境、代理和奖励,通过执行操作,代理会改变自己和环境的状态,根据这些动作对代理必须实现的目标的影响程度,对其进行奖励或惩罚,在许多强化学习问题中,没有对环境的初始知识,并从随机动作开始,根据收到的反馈,代理学习调整其行为并制定化其奖励的策略,将强化学习作为主要算法,它可以复制自然界中看到的奖励化,并终导致通用人工智能,如果一个智能体可以不断调整其行为以提高其累积奖励,那么其环境反复要求的任何能力终都必须在智能体的行为中产生,研究人员写道,并补充说,在化的过程中它的回报是,一个好的强化学习代理终可以学习感知、语言、社交智能等。
强化学习代理如何能够在游戏和机器人环境中学习一般技能
然而研究人员强调,一些根本性的挑战仍未解决,我们不对强化学习代理的样本效率提供任何理论保证,强化学习以需要大量数据而闻名,例如强化学习代理可能需要几个世纪的游戏时间才能掌握计算机游戏,人工智能研究人员仍然没有想出如何创建强化学习系统来将他们的学习推广到多个领域,因此环境的微小变化通常需要对模型进行全面的重新训练。
奖励化的学习机制是一个未解决的问题
仍然是强化学习中有待进一步研究的核心问题,奖励化的优点和缺点,社会决策的讨论中可能存在的缺陷,专注于社交互动中的个人收益,这就是为什么动物为了保护他们的孩子而将自己置于极大的危险之中,倾向于将亲密关系以及其他人的关怀视为自我范围的延伸——'我和我的'。” “在这种情况下,我认为,对 [论文] 假设进行小幅修改以实现对我和我的奖励化会非常有效。当然,我们群居动物都有 依恋程度——对后代超强,对配偶亲人很强,对朋友和熟人很强等等,依恋类型的强弱会因环境和发育阶段而异。 ”
强化学习假设代理具有一组有限的潜在动作
强化学习是基于奖励化的人工智能分支,可以导致通用人工智能的发展,AI的两条路径,人类思维 vs 人工智能,创建 AI 的一种常见方法是尝试在计算机中复制智能行为的元素,例如我们对哺乳动物视觉系统的理解催生了各种人工智能系统,这些系统可以对图像进行分类、定位照片中的对象、定义对象之间的边界等等,同样我们对语言的理解有助于开发各种自然语言处理系统,例如问答、文本生成和机器翻译。
这些都是狭义人工智能的实例
这些系统旨在执行特定任务而不是具有一般解决问题的能力,一些科学家认为,组装多个狭义的人工智能模块会产生更高的智能系统,例如您可以拥有一个软件系统,在单独的计算机视觉、语音处理、NLP 和电机控制模块之间进行协调,以解决需要多种技能的复杂问题,创建 AI 的方法是重新创建产生自然智能的简单而有效的规则,考虑了一个替代假设化奖励的一般目标足以驱动表现出自然和人工智能研究的大部分(如果不是全部)能力的行为。
这基本上就是大自然的运作方式
就科学而言,在我们周围看到的复杂有机体中,并没有自上而下的智能设计,数十亿年的自然选择和随机变异过滤了生命形式,使其适合生存和繁殖,能够更好地应对环境中的挑战和情况的生物设法生存和繁殖,其余的都被淘汰了,这种简单而有效的机制导致了具有各种感知、导航、改变环境和相互交流的技能和能力的生物的进化。
动物和人类面临的自然世界,以及人工代理未来面临的环境
本质上非常复杂,需要复杂的能力才能在这些环境中取得成功(例如生存),写因此以奖励化来衡量的成功需要各种与智力相关的能力,在这样的环境中,任何使奖励化的行为都必须表现出这些能力,从这个意义上说,奖励化的一般目标包含许多甚至可能所有的智能目标,考虑一只寻求减少饥饿的奖励的松鼠,一方面它的感官和运动技能帮助它在有食物时定位和收集坚果,但是当食物变得稀缺时,一只只能找到食物的松鼠必然会饿死,这就是为什么它也有计划技能和记忆来缓存坚果并在冬天恢复它们,松鼠具有社交技能和知识,可以确保其他动物不会偷吃它的坚果,如果缩小,饥饿小化可能是“活下去”的一个子目标,这还需要一些技能,例如发现和躲避危险动物、保护自己免受环境威胁以及寻找季节性变化的更好栖息地。
当与智力相关的能力作为奖励化的单一目标的解决方案出现时
这实际上可能提供更深入的理解,因为它解释了为什么会出现这种能力,与此相反,当每个能力被理解为解决自己的专业目标,为什么问题是侧阶梯时,以重点是什么这种能力呢,化奖励的“通用和可扩展”的方式是通过智能体通过与环境的交互来学习。
通过奖励化发展能力
触碰人工智能研究人员提供了一些高级示例,说明在化许多可能的奖励信号之一的服务中,智能和相关能力将如何隐含地出现,对应于自然或人工智能可能针对的许多实用目标,感官技能服务于在复杂环境中生存的需要,对象识别使动物能够检测食物、猎物、朋友和威胁,或找到路径、庇护所和栖息地,图像分割使他们能够分辨不同对象之间的差异,并避免致命错误,例如跑下悬崖或从树枝上掉下来,同时听觉有助于发现动物在伪装时看不到或找不到猎物的威胁,触觉、味觉和嗅觉也赋予动物更丰富的栖息地感官体验和在危险环境中生存的更大机会的优势。
奖励和环境也塑造了动物与生俱来的知识
由狮子和猎豹等掠食性动物统治的敌对栖息地会奖励反刍动物,它们自出生以来就具有逃避威胁的先天知识,同时动物也因其学习栖息地特定知识的能力而获得奖励,例如在哪里可以找到食物和住所,研究人员还讨论了语言、社交智能、模仿以及的一般智能的奖励驱动基础,他们将其描述为在单一、复杂的环境中化单一奖励,在这里他们在自然智能和 AGI 之间进行了类比,动物的经验流足够丰富和多样,它可能需要灵活的能力来实现各种各样的子目标(例如觅食、战斗或逃跑),以便成功地化其整体奖励(例如饥饿或繁殖),类似地,如果一个人工智能代理的经验流足够丰富,那么许多目标(例如电池寿命或生存)可能隐含地需要实现同样广泛的子目标的能力,因此奖励的化应该足以产生一种通用人工智能。
奖励化的强化学习
强化学习,强化学习是人工智能算法的一个特殊分支,由三个关键要素组成:环境、代理和奖励,通过执行操作,代理会改变自己和环境的状态,根据这些动作对代理必须实现的目标的影响程度,对其进行奖励或惩罚,在许多强化学习问题中,没有对环境的初始知识,并从随机动作开始,根据收到的反馈,代理学习调整其行为并制定化其奖励的策略,将强化学习作为主要算法,它可以复制自然界中看到的奖励化,并终导致通用人工智能,如果一个智能体可以不断调整其行为以提高其累积奖励,那么其环境反复要求的任何能力终都必须在智能体的行为中产生,研究人员写道,并补充说,在化的过程中它的回报是,一个好的强化学习代理终可以学习感知、语言、社交智能等。
强化学习代理如何能够在游戏和机器人环境中学习一般技能
然而研究人员强调,一些根本性的挑战仍未解决,我们不对强化学习代理的样本效率提供任何理论保证,强化学习以需要大量数据而闻名,例如强化学习代理可能需要几个世纪的游戏时间才能掌握计算机游戏,人工智能研究人员仍然没有想出如何创建强化学习系统来将他们的学习推广到多个领域,因此环境的微小变化通常需要对模型进行全面的重新训练。
奖励化的学习机制是一个未解决的问题
仍然是强化学习中有待进一步研究的核心问题,奖励化的优点和缺点,社会决策的讨论中可能存在的缺陷,专注于社交互动中的个人收益,这就是为什么动物为了保护他们的孩子而将自己置于极大的危险之中,倾向于将亲密关系以及其他人的关怀视为自我范围的延伸——'我和我的'。” “在这种情况下,我认为,对 [论文] 假设进行小幅修改以实现对我和我的奖励化会非常有效。当然,我们群居动物都有 依恋程度——对后代超强,对配偶亲人很强,对朋友和熟人很强等等,依恋类型的强弱会因环境和发育阶段而异。 ”
强化学习假设代理具有一组有限的潜在动作
已经指定了奖励信号和价值函数,换句话说通用智能的问题恰恰是提供强化学习作为先决条件的那些东西,因此如果机器学习都可以简化为某种形式的优化,以化某些评估措施,那么强化学习肯定是相关的,但它的解释性并不强。