大数据时代的竞争性商业反情报
来源: / 作者: / 时间:2019-12-26
在当今的数字经济中,数据就是力量。
高质量的网络数据可以为企业提供关键的业务洞察力,以推动竞争优势,数字化转型和扩展。相反,低质量的数据可能有毒。糟糕的数据平均每年给企业造成惊人的970万美元损失,但一些组织报告说,在与低质量数据相关的问题上的财务支出甚至更高,高达1500万美元。
假新闻被植入用于社会工程和计算宣传-形成舆论和影响选举的方式相同-假新闻也被企图破坏竞争对手的公司定位和武器化。随着越来越多的公司寻求利用和利用替代数据和Web数据的功能,他们必须确保自己没有根据战略播种的假数据做出重要的商业决策。
普遍存在的伪造Web数据
互联网上存在虚假信息的说法并不新鲜也不令人惊讶。现在的不同之处在于,从故意制造的误导性虚假信息中破译现实是极其困难的。从逼真的Deepfake视频 到俄罗斯的虚假信息公司,网络都是精心策划的骗术的温床。
现在,技术进步使在网络上运营的公司可以使用自动反情报工具来传播虚假数据和虚假信息。但是,他们的目标不是群众,也不是破坏政治环境。相反,他们将欺骗行为引向了商业竞争对手,目的是误导竞争对手。
如今,不到60%的网络流量是人类。当精通技术的组织检测到网站流量异常或被视为网络抓取机器人的“访客”,可能会成为竞争对手的“间谍”时-收集有关产品,价格,客户情感等方面的数据- -它可以部署自己的自动反智能工具,以故意将错误数据提供给机器人。该漫游器在不知不觉中收集了这些虚假数据,并将其报告给竞争对手的数据科学家,后者分析并使用这些数据来告知关键的业务策略–由于虚假,未经验证的数据,这些策略将完全无用且完全被误导。
信任和理解Web数据源
重要的是要有信心对要收集的数据有信心,尤其是在处理可能以多种不同形式出现的Web数据时。通常,网络数据是从各种在线资源中收集的,以便收集尽可能多的信息。这可能会导致数据集内的差异,例如拼写和呈现方式。这也可能使客户关系管理(CRM)平台和企业资源管理器(ERM)混淆,因为它破坏了数据集的质量,并使充分利用收集到的数据变得更加困难。
完善的Web数据提取和集成平台应能够提供一定水平的数据质量(或“真实性”)保证,以确保收集的数据已在一定水平上得到验证,以产生见解和做出明智的决定。传统的Web抓取只是简单地抓取HTML网页并根据代码收集数据。由于伪造的Web数据和组织实施反情报操作的能力,不再可以依靠传统的Web抓取来提供准确的信息。某些Web数据集成工具具有内置功能,可以搜索和识别数据中的异常,奇数或不一致之处。这有助于在将收集到的数据集整合到下游之前辨别和删除伪造的数据,并威胁内部数据集的完整性。
当今,可用于以数据为依据的见解的数据来源是万维网。优先考虑替代和网络数据分析的零售,旅行和金融公司知道,他们的竞争对手也正在或将要分析自己网站上的替代数据。
从网络上收集数据时,组织应寻求数据质量保证(如果有)。一些Web数据收集解决方案,尤其是那些包含Web数据集成过程的解决方案,可以为收集的数据的准确性和可靠性提供保证-基本上消除了从伪造信息中推断出无用的见解的任何风险。
有一些方法可以在不使用自动Web数据解决方案的情况下手动识别错误数据。通过查看近收集的数据负载并将数据值与从同一源收集的先前数据负载进行比较,可以开始清除错误的数据值。如果数据加载值的方差似乎在统计上似乎不在合理范围内,则当前和/或先前的数据加载可能不可靠。识别错误数据的另一种方法是分析数据值的格式是否有差异。例如,如果从零售商处收集价格数据,但列出的某些价格不包含小数或货币符号,则该数据可能被伪造了。这些手动识别错误数据的方法会迅速消耗时间和资源。
所以,分析仅与组织收集的数据一样好。因此,如果对数据的误导是有目的的,那么分析也会误导组织。了解与伪造数据分析有关的风险的组织,并采取措施防止误导的数据分析,将能够避免被误导并基于低质量的数据做出错误的决策。