通过强化学习赢得商业游戏
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-10-26
围棋游戏具有通往成功的几乎无限数量的潜在途径
检验是否可以训练机器击败人类玩家的主要测试,机器的确可以被教导进行战略性思考并与世界上的围棋选手抗衡。这项胜利是人工智能和机器学习的里程碑,因为它以实践证据证明了强化学习背后的概念,直到近,人工智能和机器学习中的大多数应用都属于两类之一:有监督的学习和无监督的学习,与这两类相关的模型和算法已经取得了许多显着的进步,但是存在需要采用不同方法的问题。
强化学习是机器学习的新的第三类,在学术界和企业界都受到关注
作为一个领域,强化学习始于1980年代,但由于近计算能力的爆炸式增长,我们现在开始看到它的实际应用。据我们所知,它具有改变业务的潜力,战略思考与客户旅程,利用机器学习教会计算机在游戏中取胜是新颖的,甚至是开创性的,但是,当我们可以将相同的技术和概念应用于现实中的业务问题时,真正的价值便会发挥作用。
研究人员从有限的数据入手
然后以与新玩家学习相同的方式教导机器,即通过反复试验,使每款游戏变得更好,在商业环境中,存在许多与围棋游戏相似的问题,规则相对简单,但是成功的潜在途径数量似乎是无限的。这就是为什么强化学习具有如此巨大的变革潜力的原因,没有比在通常所说的“客户之旅”中更重要的了,这是客户被业务产品吸引以了解更多有关公司,探索其产品或做出购买决定时所经历的一系列步骤。
客户旅程就像是一个游戏,企业正在为每个客户寻求路径
在此过程中,公司确定了一系列战略选择上的战略选择路径,这些选择涉及如何吸引客户,何时吸引客户以及在不同时间为客户提供什么以优化他们的体验,借助机器学习来优化客户旅程是一个新的领域,其中强化学习是基本组成部分。
强化学习的四个组成部分
要了解强化学习,请将问题视为一系列终导致奖励的事件。强化学习是关于让计算机测试不同的路径并确定结果是否有所改善,找到更好的路径后,将更新模型以说明这一新知识,这一系列的增量改进就是机器学习的全部内容,随着时间的流逝,这种学习会创建一个模型,该模型足够健壮,可以提高效率地选择正确的路径,而且还足够抽象,即使在呈现新信息时也可以预测路径。
状态代表流程中的每个步骤
对于客户旅程,这表示客户在任何给定时间点的位置,这可能与从未听说过公司及其产品的客户到连续几个月购买的忠实客户有所不同,在每个状态下,该客户的环境都不同,他们下一步可以去和将要去的地方也不同,动作与过渡,动作是为了将客户从一种状态转移到另一种状态而发生的活动,此动作可能是客户要求采取的行动,例如购买,与客户服务的沟通,产品退货或社交媒体帖子,这也可能是公司采取的行动,例如电子邮件活动,促销或订单履行,这些操作中的每一个都会将客户从流程中的一种状态转移到另一种状态。
正奖励或负奖励(惩罚)是一个或一系列过渡的结果
在强化学习中,奖励是帮助机器随着时间的推移而学习和发展,优化过程,从而使奖励化和惩罚小化的奖励,奖励的一个重要因素是奖励的折扣时间值。现在的奖励比将来的奖励更有价值,随着模型的发展,这被认为是,有时您无法衡量每个州的奖励,而只能在一系列过渡结束时才能看到奖励,诸如购买客户之类的积极奖励可能是多次电子邮件和广告活动的结果,每次营销活动都将客户转移到新的状态,公司不一定知道终通过哪种沟通将客户吸引到业务上,但是跟踪哪些活动对哪些客户产生影响的能力很重要。从奖励开始倒退,机器学习可以确定哪些模式始终导致奖励。
策略策略是一组指导操作和过渡的规则
随着机器从过渡中获取更多信息并产生回报,正是该策略不断发展,该策略将应用于将来的互动,以自动化决策,从而使公司能够赢得比赛,该策略通常用于确定客户的下一个动作,或者公司接下来应关注的地方以提高获得奖励的可能性。
当充分利用这种新形式的机器学习时,它对改善企业的运营和互动方式具有巨大的价值
检验是否可以训练机器击败人类玩家的主要测试,机器的确可以被教导进行战略性思考并与世界上的围棋选手抗衡。这项胜利是人工智能和机器学习的里程碑,因为它以实践证据证明了强化学习背后的概念,直到近,人工智能和机器学习中的大多数应用都属于两类之一:有监督的学习和无监督的学习,与这两类相关的模型和算法已经取得了许多显着的进步,但是存在需要采用不同方法的问题。
强化学习是机器学习的新的第三类,在学术界和企业界都受到关注
作为一个领域,强化学习始于1980年代,但由于近计算能力的爆炸式增长,我们现在开始看到它的实际应用。据我们所知,它具有改变业务的潜力,战略思考与客户旅程,利用机器学习教会计算机在游戏中取胜是新颖的,甚至是开创性的,但是,当我们可以将相同的技术和概念应用于现实中的业务问题时,真正的价值便会发挥作用。
研究人员从有限的数据入手
然后以与新玩家学习相同的方式教导机器,即通过反复试验,使每款游戏变得更好,在商业环境中,存在许多与围棋游戏相似的问题,规则相对简单,但是成功的潜在途径数量似乎是无限的。这就是为什么强化学习具有如此巨大的变革潜力的原因,没有比在通常所说的“客户之旅”中更重要的了,这是客户被业务产品吸引以了解更多有关公司,探索其产品或做出购买决定时所经历的一系列步骤。
客户旅程就像是一个游戏,企业正在为每个客户寻求路径
在此过程中,公司确定了一系列战略选择上的战略选择路径,这些选择涉及如何吸引客户,何时吸引客户以及在不同时间为客户提供什么以优化他们的体验,借助机器学习来优化客户旅程是一个新的领域,其中强化学习是基本组成部分。
强化学习的四个组成部分
要了解强化学习,请将问题视为一系列终导致奖励的事件。强化学习是关于让计算机测试不同的路径并确定结果是否有所改善,找到更好的路径后,将更新模型以说明这一新知识,这一系列的增量改进就是机器学习的全部内容,随着时间的流逝,这种学习会创建一个模型,该模型足够健壮,可以提高效率地选择正确的路径,而且还足够抽象,即使在呈现新信息时也可以预测路径。
状态代表流程中的每个步骤
对于客户旅程,这表示客户在任何给定时间点的位置,这可能与从未听说过公司及其产品的客户到连续几个月购买的忠实客户有所不同,在每个状态下,该客户的环境都不同,他们下一步可以去和将要去的地方也不同,动作与过渡,动作是为了将客户从一种状态转移到另一种状态而发生的活动,此动作可能是客户要求采取的行动,例如购买,与客户服务的沟通,产品退货或社交媒体帖子,这也可能是公司采取的行动,例如电子邮件活动,促销或订单履行,这些操作中的每一个都会将客户从流程中的一种状态转移到另一种状态。
正奖励或负奖励(惩罚)是一个或一系列过渡的结果
在强化学习中,奖励是帮助机器随着时间的推移而学习和发展,优化过程,从而使奖励化和惩罚小化的奖励,奖励的一个重要因素是奖励的折扣时间值。现在的奖励比将来的奖励更有价值,随着模型的发展,这被认为是,有时您无法衡量每个州的奖励,而只能在一系列过渡结束时才能看到奖励,诸如购买客户之类的积极奖励可能是多次电子邮件和广告活动的结果,每次营销活动都将客户转移到新的状态,公司不一定知道终通过哪种沟通将客户吸引到业务上,但是跟踪哪些活动对哪些客户产生影响的能力很重要。从奖励开始倒退,机器学习可以确定哪些模式始终导致奖励。
策略策略是一组指导操作和过渡的规则
随着机器从过渡中获取更多信息并产生回报,正是该策略不断发展,该策略将应用于将来的互动,以自动化决策,从而使公司能够赢得比赛,该策略通常用于确定客户的下一个动作,或者公司接下来应关注的地方以提高获得奖励的可能性。
当充分利用这种新形式的机器学习时,它对改善企业的运营和互动方式具有巨大的价值
商业游戏与其他游戏非常相似,但是赌注通常要高得多,目标是采用不同的策略,希望您的策略比竞争对手更好,随着强化学习的科学和应用变得越来越普及和强大,掌握它的公司将主导他们的市场,而那些不学习的公司将慢慢消失。