究竟什么是外部数据?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-07-14
您不是作为一个企业使用数据
该企业内的个人或不同的业务部门使用数据,意思是除非您的公司有全面的标准,否则一个人或部门构建数据的方式不会与另一个完全相同,人和机器记录标签、地址、企业名称、日期、描述以及您可能在数据集中找到的任何其他内容的方式存在很大差异,那么如果有人查看来自同一家公司的两个不同部门的两个数据集,他们会认为它们是由同一个人和同一方法生成的吗?如果不是,则必须将第二个数据集视为外部数据,它不遵循与原始数据集相同的约定、结构和规则,要让两者和谐运作,还有很多工作要做。
您离本土数据越远,您的控制就越少,变化的机会就越大
考虑到所有这些,我们说在您的四堵墙之外创建的任何数据都是外部的(尽管我们在大多数人在家工作之前就想到了这一点,因此您必须在这方面给我们一些余地),如果它不遵循直接授权制定的完全相同的标准和方法,则它是外部数据。
该呼叫外部数据从房子里散发出来
将企业的数据生态系统联系在一起对于实现数据驱动以及使您的数据战略与业务战略保持一致至关重要,它也是您团队可预测的数据,并且通过协调一致的努力,它可以完全在公司本身的控制之下,此外通过能够在自己的屋檐下分析所有数据,您将受益于更好的流程标准、对客户/客户群的更深入 了解,并有望成为将您的整个团队与数据联系起来的基础 。
知道从哪里开始并不容易
事实上我们有一本关于在您的公司内进行数据审计的入门读物 ,这是一个包含许多活动部分的过程——您不会听到我们另有说法,但建立基线至关重要:它为新数据树立了先例;它揭示了您的数据策略中存在差距和重叠的地方,它还强制实施适当的机制,以查看企业内每个部门之间数据的使用和移动,强大的东西。
开放、公共和高级数据
即使您还没有完全解决“内部外部”数据的难题,但任何想要它的人都可以使用一整套数据,更重要的是,有比使用您的高技能团队来设置和管理用于数据收集的单个脚本更好的获取方式,更不用说准备将其加载到您的系统中并对其进行转换以满足您所需的架构,在您开始使用它之前,所有这些都是必需的步骤。
政府、非政府企业、私营企业和特殊利益集团每天都会发布大量数据
这些数据需要 准备、清理和转换,但俗话说,“山上有金子!” 从我们公司的天起,我们就知道这一点,我们的专长是将我们的用户与任何来源的任何数据连接起来,我们处理繁重的工作,以便您的数据团队更快地产生更好的见解,正如我们初确定的那样,这些第三方提供者是外部数据的来源,即使这些数据可能不是您自己的内部数据所特有的,但它们同样或更有价值。
注意数据隧道愿景
如果不了解已知-未知、未知-知道等的语义,使用过于集中、细分或特定的数据存在重大风险,分析此类数据会产生偏斜的结果,而且很容易陷入仅使用“已知信息”的困境,了解这些很重要,但这只是整个画面的一小部分,当 COVID-19 来袭时世界各地的公司都必须对他们的供应链 进行长时间、认真的审视,以找出 薄弱环节在哪里,然后尝试调整和适应以保持业务连续性,如果没有整个生态系统的图景,就不可能了解外面还有什么,外部数据不仅可以提供有关不足之处的见解,还可以提供有关机会所在的见解,如果您的企业只关注您直接范围内的内容,您将永远无法获得真正的预测,你永远不会看到不断发生的更广泛的市场变化。
为什么外部数据意味着更丰富的洞察力
与上述论点相反,即使与更细粒度的数据进行比较,利用更广泛的信号也会扩大并增强您的洞察力,通过将整个信息生态系统视为一个整体,分析师和数据科学家能够看到的不仅仅是结果,他们能够找到转变、收益、损失和变化的趋势和原因,这种更深入、更广泛的知识使组织能够进行预测并释放竞争优势,举个例子,我们需要房子的真实价值,我们可以查看历史售价,但这可能已经过时了,我们可以将该价格乘以通货膨胀和全国房价上涨因素,以获得更接近但不的东西,当然对房屋和场地的任何翻修都应考虑在内,但是仅凭这些事情就可以让我们有一个清晰的认识或粗略的猜测吗?
现在,让我们开始在外部数据中分层:
该地区的犯罪统计数据会告诉您该地区的情况。
人口统计数据可能表明该地区的更多房屋将在不到 5 年的时间内出售。
小范围内的建筑许可让您了解社区正在发生的变化。
如果可再生能源是一个因素,那么历史天气模式就可以描绘出太阳能电池板的可行性。
该地区的新住宅开发是未来 10 年人口和企业增长的指标;和
该地区的企业破产情况可以告诉您该地区是繁荣还是衰落。
这要完整得多,即使它不是关于那个特定房子的信息。如果您找到了一种可扩展的方式将外部数据引入您的生态系统,那么所有数据都可以立即利用。如果你还没有,你将被限制在你已知的知识范围内,并且会立即被一个能够更快地行动并提供更好、更丰富的见解的人超越。
对外部数据采取全新的方法
该企业内的个人或不同的业务部门使用数据,意思是除非您的公司有全面的标准,否则一个人或部门构建数据的方式不会与另一个完全相同,人和机器记录标签、地址、企业名称、日期、描述以及您可能在数据集中找到的任何其他内容的方式存在很大差异,那么如果有人查看来自同一家公司的两个不同部门的两个数据集,他们会认为它们是由同一个人和同一方法生成的吗?如果不是,则必须将第二个数据集视为外部数据,它不遵循与原始数据集相同的约定、结构和规则,要让两者和谐运作,还有很多工作要做。
您离本土数据越远,您的控制就越少,变化的机会就越大
考虑到所有这些,我们说在您的四堵墙之外创建的任何数据都是外部的(尽管我们在大多数人在家工作之前就想到了这一点,因此您必须在这方面给我们一些余地),如果它不遵循直接授权制定的完全相同的标准和方法,则它是外部数据。
该呼叫外部数据从房子里散发出来
将企业的数据生态系统联系在一起对于实现数据驱动以及使您的数据战略与业务战略保持一致至关重要,它也是您团队可预测的数据,并且通过协调一致的努力,它可以完全在公司本身的控制之下,此外通过能够在自己的屋檐下分析所有数据,您将受益于更好的流程标准、对客户/客户群的更深入 了解,并有望成为将您的整个团队与数据联系起来的基础 。
知道从哪里开始并不容易
事实上我们有一本关于在您的公司内进行数据审计的入门读物 ,这是一个包含许多活动部分的过程——您不会听到我们另有说法,但建立基线至关重要:它为新数据树立了先例;它揭示了您的数据策略中存在差距和重叠的地方,它还强制实施适当的机制,以查看企业内每个部门之间数据的使用和移动,强大的东西。
开放、公共和高级数据
即使您还没有完全解决“内部外部”数据的难题,但任何想要它的人都可以使用一整套数据,更重要的是,有比使用您的高技能团队来设置和管理用于数据收集的单个脚本更好的获取方式,更不用说准备将其加载到您的系统中并对其进行转换以满足您所需的架构,在您开始使用它之前,所有这些都是必需的步骤。
政府、非政府企业、私营企业和特殊利益集团每天都会发布大量数据
这些数据需要 准备、清理和转换,但俗话说,“山上有金子!” 从我们公司的天起,我们就知道这一点,我们的专长是将我们的用户与任何来源的任何数据连接起来,我们处理繁重的工作,以便您的数据团队更快地产生更好的见解,正如我们初确定的那样,这些第三方提供者是外部数据的来源,即使这些数据可能不是您自己的内部数据所特有的,但它们同样或更有价值。
注意数据隧道愿景
如果不了解已知-未知、未知-知道等的语义,使用过于集中、细分或特定的数据存在重大风险,分析此类数据会产生偏斜的结果,而且很容易陷入仅使用“已知信息”的困境,了解这些很重要,但这只是整个画面的一小部分,当 COVID-19 来袭时世界各地的公司都必须对他们的供应链 进行长时间、认真的审视,以找出 薄弱环节在哪里,然后尝试调整和适应以保持业务连续性,如果没有整个生态系统的图景,就不可能了解外面还有什么,外部数据不仅可以提供有关不足之处的见解,还可以提供有关机会所在的见解,如果您的企业只关注您直接范围内的内容,您将永远无法获得真正的预测,你永远不会看到不断发生的更广泛的市场变化。
为什么外部数据意味着更丰富的洞察力
与上述论点相反,即使与更细粒度的数据进行比较,利用更广泛的信号也会扩大并增强您的洞察力,通过将整个信息生态系统视为一个整体,分析师和数据科学家能够看到的不仅仅是结果,他们能够找到转变、收益、损失和变化的趋势和原因,这种更深入、更广泛的知识使组织能够进行预测并释放竞争优势,举个例子,我们需要房子的真实价值,我们可以查看历史售价,但这可能已经过时了,我们可以将该价格乘以通货膨胀和全国房价上涨因素,以获得更接近但不的东西,当然对房屋和场地的任何翻修都应考虑在内,但是仅凭这些事情就可以让我们有一个清晰的认识或粗略的猜测吗?
现在,让我们开始在外部数据中分层:
该地区的犯罪统计数据会告诉您该地区的情况。
人口统计数据可能表明该地区的更多房屋将在不到 5 年的时间内出售。
小范围内的建筑许可让您了解社区正在发生的变化。
如果可再生能源是一个因素,那么历史天气模式就可以描绘出太阳能电池板的可行性。
该地区的新住宅开发是未来 10 年人口和企业增长的指标;和
该地区的企业破产情况可以告诉您该地区是繁荣还是衰落。
这要完整得多,即使它不是关于那个特定房子的信息。如果您找到了一种可扩展的方式将外部数据引入您的生态系统,那么所有数据都可以立即利用。如果你还没有,你将被限制在你已知的知识范围内,并且会立即被一个能够更快地行动并提供更好、更丰富的见解的人超越。
对外部数据采取全新的方法
如果您想认真对待引入外部数据,请以正确的方式开始,有一种可扩展的方法来引入新的数据资产,寻找可靠的合作伙伴和数据市场来发现新的来源,并确保您的整个组织有一种方法可以围绕单一的数据真实来源进行协作和团结,即使不同的部门将其用于不同的目的,围绕数据资产集中团队对于成功至关重要 - 成为数据驱动意味着您的业务围绕数据展开,而不是相反。
免费客服热线:400-050-6600
商业联合会数据分析专业委员会