NEWS前沿动态

API每个人都应该谈论的真正 ML 管道

来源：CPDA数据分析师网 / 作者：数据君 / 时间：2021-07-15

终为所有目的和团队提供更好的数据访问
充分体现了他对客户投入的热情，并找到了构架和构建可伸缩软件的优雅方法，无论是数据科学家还是 CEO，每个人都渴望获得更多数据，这不仅仅是数量问题，也不仅仅是“数据可视化”的练习，当今的算法驱动组织希望尽快获得洞察力——人工智能和机器学习团队努力实现的那些业务标记，如果没有大数据，您就无法进行有效的机器学习，因此企业必须学会利用其内部和外部的数百万（数十亿？）日常交互，API 提供了一个现有的逻辑管道，用于将数据引入建模和分析流程。

为了在 AI 和 ML 模型上取得成功
以下是一些围绕业务理解、数据理解和数据质量的 API 驱动原则，机器学习从数据访问开始是否将标准提高得太高了？这家电子商务巨头开辟了通过 API 向所有人提供服务的道路，现在，每位 CEO、CFO 和 CMO 都希望统治所有人，但是如果没有大科技的规模和资源，数据科学家就会永远被 IT 团队告知“数据即将到来”，导致 C 级高管被假设和猜测所束缚，而不是受现实世界模式的影响，对于在 AI 和 ML 专业知识的同时构建 API 策略的组织来说，这尤其痛苦，这通常是负责基础设施的团队和现在需要更多信息的数据科学家之间的双输竞赛。

对于非亚马逊组织，三个原则是数据分析成功的基础：
准确的业务理解——将业务需求映射到终成为模型目标的具体和可衡量的问题陈述的能力。
清晰的数据理解——收集、探索和理解业务数据的能力，包括识别模式、异常和异常值。
高数据质量——验证和清理数据的完整性和正确性的能力。

随着对数据访问的更多关注
所有企业都必须面临保护措施，例如实施隐私和安全标准。随着时间的推移，这些流程只会变得更加复杂，并限制 ML 管道的运作方式，公司等待的时间越长，就会产生重大的变化和合规性开销，当收集数据的障碍降低并且数据准确地代表正在建模的现实世界场景时，在这些领域取得成功的机会就会更高，API 已经包含这些信息，只需知道如何捕获、存储和保护它。

用正确的数据推动机器学习管道
实时行为数据是更好地理解和理解业务的途径，通过查看模型本身无法克服模型中的任何偏差或错误，这一点怎么强调都不为过；它们只能通过查看原始源数据来缓解，基于人工智能的个性化引擎的成功或失败只能通过了解客户的行为并根据这些观察调整推荐模型来确定，随着业务中更高水平的可观察性，使用当前和完整的 API 数据可以提高更有效地引导 AI 系统的能力，并提高预测的准确性。

为了在实时 API 数据收集方面取得成功，组织必须：
消除花费时间在数据标签上可以得到更准确结果的神话，及时（或尽可能接近）数据集的价值远远超过元数据完善的优势，尤其是当分割规则从一开始就内置到流程中时，使用本机理解现代隐私概念的工具，将隐私和安全性构建到 ML 管道中，通过从一开始就将这些保护措施作为优先事项（在数据捕获时），企业可以避免以后将临时策略固定在通用数据存储上时所带来的挫败感。

采用自动化，无需专家学习其领域之外的技能

对于数据科学家来说，这意味着依靠团队以可探索的方式提供实时数据，这意味着依赖能够以持久和安全的方式捕获和存储每个 API 调用的详细信息并轻松与其他团队共享的工具，终转向实时 API 数据收集来训练、验证和迭代 AI 和 ML 模型会导致更及时的结果和更少的假设和猜测填补的空白，通过为团队提供将 API 与数据科学联系起来的技能和工具，模型将能够更好地兑现准确的业务知识、清晰的数据理解和高数据质量的承诺。

Prev article

有效BI治理的三大支柱

返回列表

Next article

提高业务洞察速度的五个步骤