怎样摆脱机器学习遇到的数据困境?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-11-16
算法需要大量数据才能将猫的相关“特征”与背景噪声区分开
其他噪声例如照明和天气也相同,不幸的是,这种数据饥渴并没有停止于信号与噪声的分离,该算法还需要确定区分猫本身的有意义的特征,人类不需要额外的数据来理解的变化,对于机器学习来说很难,如果没有足够数量的样本,机器学习将无济于事。
并非所有机器学习技术都同样饥饿
存在许多类型的机器学习技术,其中一些已经存在了几十年,每个人都有自己的优点和缺点,这些差异还扩展到建立有效模型所需的数据的性质和数量,例如深度学习神经网络是机器学习中令人兴奋的领域,因为它们能够提供引人注目的结果,与更成熟的机器学习算法相比,需要更多的数据量以及巨大的计算能力,实际上只有在大数据提供大数据集和云计算提供数字运算功能出现之后被认为是可行的。
其他因素也会影响数据需求
通用机器学习算法不包含特定领域的信息;他们必须通过具有代表性的大型数据集来克服这一限制,回到猫的例子,这些机器学习算法不了解猫的基本特征,也不了解背景是噪音,因此他们需要这些数据的许多示例来学习这种区别,为了减少这些情况下所需的数据,机器学习算法可以包括一定程度的域数据,因此目标数据的关键特征和属性是已知的,然后,学习的重点可以严格地放在优化输出上。从一开始就将人类知识“灌输”到机器学习系统中的需求是机器学习数据量巨大的直接结果。
培训数据集需要改进
为了使用机器学习真正推动创新,首先需要围绕如何选择输入数据进行大量创新,本质上策划(即为训练数据集选择数据)是关于监视数据质量的,在机器学习中,“垃圾填满,垃圾填满”尤其如此,机器学习的相对“黑匣子”性质加剧了这个问题,这使人们无法理解为什么机器学习会产生一定的输出,当机器学习产生意外的输出时,这是因为输入数据不合适,但是确定问题数据的特定性质是一个挑战,由不良数据整理引起的两个常见问题是过度拟合和偏差,过度拟合是培训数据集的结果,该数据集不能充分代表生产数据的实际差异;因此,它产生的输出只能处理整个数据流的一部分。
偏差是一个更深层次的问题
与过度拟合具有相同的根本原因,但更难识别和理解,偏向的数据集不具有代表性,分布偏斜,或者首先不包含正确的数据,这种有偏见的训练数据会导致有偏见的输出,从而产生错误的结论,这些结论可能很难被识别为错误的,尽管人们对机器学习应用程序非常乐观,但是随着机器学习即服务产品的推出,数据质量问题应该成为主要关注的问题,一个相关的问题是访问高质量数据集,大数据创建了许多数据集,但是这些数据集很少涉及机器学习所需的信息类型,用于机器学习的数据既需要数据,又需要与数据关联的结果。
其他机器学习任务可能需要更复杂的数据
对大量样本数据的需求与对这些数据的充分,准确描述的需求相结合,创造了一个数据有和无的环境,只有能够访问数据并拥有丰富资源进行管理的型组织,才能轻松利用机器学习的优势,除非公平竞争,否则创新将无能为力。
创新如何解决数据问题
正如机器学习可以应用于实际问题解决一样,用于筛选数百万页数据以识别关键见解的相同技术可以用于解决查找高质量训练数据的问题,为了提高数据质量,可以使用一些有趣的选项来自动检测和纠正问题,例如聚类或回归算法可用于扫描建议的输入数据集以检测未见的异常,或者确定数据是否具有代表性的过程可以自动化,如果处理不当,看不见的异常和代表性数据可能会导致过度拟合和偏差。
如果要使输入数据流相当统一
则回归算法可以识别可能代表垃圾数据的异常值,这些数据可能会对学习会话产生不利影响,聚类算法可以帮助分析由特定数量的文档类别组成的数据集,以识别数据是否确实包含更多或更少的类型-任一种都会导致不良结果,其他机器学习技术可用于验证样本数据上标签的准确性,我们仍处于自动化输入数据质量控制的早期阶段,但是看起来很有希望。
为了增加对有用数据集的访问,一种新技术处理了合成数据
企业不是尝试收集真实的样本集然后对其进行标记,而是使用生成性对抗网络来创建和标记数据,在这种情况下,一个神经网络创建数据,另一个神经网络尝试确定数据是否真实。这个过程可以无人看管,而且效果显着。
强化学习也正在获得真正的吸引力,以解决数据不足的问题
其他噪声例如照明和天气也相同,不幸的是,这种数据饥渴并没有停止于信号与噪声的分离,该算法还需要确定区分猫本身的有意义的特征,人类不需要额外的数据来理解的变化,对于机器学习来说很难,如果没有足够数量的样本,机器学习将无济于事。
并非所有机器学习技术都同样饥饿
存在许多类型的机器学习技术,其中一些已经存在了几十年,每个人都有自己的优点和缺点,这些差异还扩展到建立有效模型所需的数据的性质和数量,例如深度学习神经网络是机器学习中令人兴奋的领域,因为它们能够提供引人注目的结果,与更成熟的机器学习算法相比,需要更多的数据量以及巨大的计算能力,实际上只有在大数据提供大数据集和云计算提供数字运算功能出现之后被认为是可行的。
其他因素也会影响数据需求
通用机器学习算法不包含特定领域的信息;他们必须通过具有代表性的大型数据集来克服这一限制,回到猫的例子,这些机器学习算法不了解猫的基本特征,也不了解背景是噪音,因此他们需要这些数据的许多示例来学习这种区别,为了减少这些情况下所需的数据,机器学习算法可以包括一定程度的域数据,因此目标数据的关键特征和属性是已知的,然后,学习的重点可以严格地放在优化输出上。从一开始就将人类知识“灌输”到机器学习系统中的需求是机器学习数据量巨大的直接结果。
培训数据集需要改进
为了使用机器学习真正推动创新,首先需要围绕如何选择输入数据进行大量创新,本质上策划(即为训练数据集选择数据)是关于监视数据质量的,在机器学习中,“垃圾填满,垃圾填满”尤其如此,机器学习的相对“黑匣子”性质加剧了这个问题,这使人们无法理解为什么机器学习会产生一定的输出,当机器学习产生意外的输出时,这是因为输入数据不合适,但是确定问题数据的特定性质是一个挑战,由不良数据整理引起的两个常见问题是过度拟合和偏差,过度拟合是培训数据集的结果,该数据集不能充分代表生产数据的实际差异;因此,它产生的输出只能处理整个数据流的一部分。
偏差是一个更深层次的问题
与过度拟合具有相同的根本原因,但更难识别和理解,偏向的数据集不具有代表性,分布偏斜,或者首先不包含正确的数据,这种有偏见的训练数据会导致有偏见的输出,从而产生错误的结论,这些结论可能很难被识别为错误的,尽管人们对机器学习应用程序非常乐观,但是随着机器学习即服务产品的推出,数据质量问题应该成为主要关注的问题,一个相关的问题是访问高质量数据集,大数据创建了许多数据集,但是这些数据集很少涉及机器学习所需的信息类型,用于机器学习的数据既需要数据,又需要与数据关联的结果。
其他机器学习任务可能需要更复杂的数据
对大量样本数据的需求与对这些数据的充分,准确描述的需求相结合,创造了一个数据有和无的环境,只有能够访问数据并拥有丰富资源进行管理的型组织,才能轻松利用机器学习的优势,除非公平竞争,否则创新将无能为力。
创新如何解决数据问题
正如机器学习可以应用于实际问题解决一样,用于筛选数百万页数据以识别关键见解的相同技术可以用于解决查找高质量训练数据的问题,为了提高数据质量,可以使用一些有趣的选项来自动检测和纠正问题,例如聚类或回归算法可用于扫描建议的输入数据集以检测未见的异常,或者确定数据是否具有代表性的过程可以自动化,如果处理不当,看不见的异常和代表性数据可能会导致过度拟合和偏差。
如果要使输入数据流相当统一
则回归算法可以识别可能代表垃圾数据的异常值,这些数据可能会对学习会话产生不利影响,聚类算法可以帮助分析由特定数量的文档类别组成的数据集,以识别数据是否确实包含更多或更少的类型-任一种都会导致不良结果,其他机器学习技术可用于验证样本数据上标签的准确性,我们仍处于自动化输入数据质量控制的早期阶段,但是看起来很有希望。
为了增加对有用数据集的访问,一种新技术处理了合成数据
企业不是尝试收集真实的样本集然后对其进行标记,而是使用生成性对抗网络来创建和标记数据,在这种情况下,一个神经网络创建数据,另一个神经网络尝试确定数据是否真实。这个过程可以无人看管,而且效果显着。
强化学习也正在获得真正的吸引力,以解决数据不足的问题
采用该技术的系统可以从与其直接环境的交互中获取数据,以便进行学习,随着时间的流逝,系统可以开发新的推理,而无需经过整理的样本数据,数据推动创新,使用机器学习技术进行的有希望的正在进行的工作正在解决各种问题,并使昂贵,耗时且复杂的工作(或这三者的结合)自动化,但是如果没有必要的源数据,机器学习将无处可寻,简化和扩大对大量高质量输入数据的访问的努力对于在更广泛的领域中增加ML的使用并继续推动创新至关重要。
商业联合会数据分析专业委员会