NEWS前沿动态

指导的机器学习是黄金记录的黄金之路

来源：CPDA数据分析师网 / 作者：数据君 / 时间：2020-05-22

期望人们能够监视整个企业中的每个数据是否有变化这是不现实的

很少有变化需要人类专业知识来理解其含义；例如，当一个人购买第二套房子时，选择的帐单地址很困难，但是当一个人搬家时，很难选择的帐单地址，大多数人只需要一套一致的准则和处理大量信息的能力，这是机器可以很好完成的两项任务，将人类的专业知识与机器学习的可扩展性相结合，提供了两全其美的方法，使数据使用者终能够基于可靠的数据做出决策。

企业数据不可否认的复杂性

企业数据是杂乱无章的源和应用程序的混乱网络，这已不是什么秘密，很容易将矛头指向内部动态，实际上企业数据复杂性的很大原因是由于外部因素-客户开始更喜欢通过新渠道进行互动，市场需要不同类别的产品，客户和市场的动态性质意味着数据源将不断发展，数据复杂性只会继续增长，这种复杂性可以有多种形式，客户可能会使用不同的名称，产品在各个渠道上的详细程度可能会有所不同，或者供应商可以以母公司的名义开具发票，同时以每个子公司的名义开展其他所有业务，企业需要一种可靠的方法来克服这些复杂性，以获得对每个实体的完整了解，并授权业务利益相关者做出以数据为依据的良好决策。

寻找有效的公式：以人为指导的机器学习

历史上IT组织尝试单独应用规则来克服这种数据多样性，这些方法具有巨大的前期成本，需要数月或数年才能开始产生有意义的结果，它们的孤零零的性质意味着结果与业务需求是分离的，从而几乎不可能生成将由使用数据的人员所信任的准确结果，一旦投入生产很少有人了解其工作原理并可以对其进行修改，从而导致高昂的维护成本。

出现了一种新方法该方法克服了仅规则方法的许多局限性

这种方法将人类的专业知识与机器学习相结合，以发现人们可能难以编码的数据模式，人工以简单示例的形式提供反馈，例如“是”这两个记录是匹配项，或者“否”这两个记录不是匹配项，机器将其用作可应用于所有数据源的模型的输入。

开发的模型考虑了跨数据源可用的所有属性

学习了如何分别比较每个属性以及将其作为整个记录的一部分，该模型可以了解到，即使两个供应商记录的业务名称完全不同，但具有相似的地址，相似的销售联系人并共享一个网站，它们也可能是同一供应商，与仅使用规则的方法不同，该模型可以为每组建议计算置信度，当对建议不满意时，它可以主动寻求反馈，进一步训练其模型，并让终用户确信数据已被正确掌握，在此过程中可能会引入规则，但是通过将大部分繁重的工作留给机器，可以以的速度和准确性生成结果，因此您终可以跟上数据的更改。

达到“真理的单一版本”

掌握过程很重要，但是数据使用者通常只想要“黄金记录”，即每个实体的记录，其中包含有关它的和信息，一旦准确掌握了数据，便可以应用业务逻辑，为每个属性选择正确的信息并创建“真相的单个版本”。

业务逻辑必须能够灵活地跨属性应用才能有效-外部数据源可能是账单地址的权威来源

而内部CRM可能是电话号码的更好来源，不管具体的逻辑如何，数据使用者都应该能够权衡此逻辑，以便购买它们，当在整个母带制作过程中也考虑了他们的输入并且他们感到对结果拥有所有权时，这样做就容易得多，数据使用者知道数据正在变得越来越复杂，但是不能以此为借口做出不良决策，需要为他们配备可信赖的数据，这只能通过将人类洞察力与机器学习结合在一起才能实现。

Prev article

人工智能和人类如何改变劳动力

返回列表

Next article