为什么结构化和非结构化数据需要不同的安全技术
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-12-04
访问和管理结构化数据也更加一致
数据库存在于具有明确定义的访问方法(例如API)的易于理解的位置。这种一致性意味着数据库安全性任务是有界且可解决的。非结构化数据几乎没有一致性。它可以在本地,云应用程序和云存储中找到。有无数种方法可以访问它,并且(至少使用当前工具)无法对其进行统一管理。
控制结构化数据访问的选项可用并已被理解
数据库提供了细粒度的访问特权,可以由安全专业人员实施和集中管理,相反用户主要负责控制对非结构化数据的访问,这一点很重要,我想再说一遍,用户对其拥有的文件做出重要的安全决策,他们通过电子邮件发送电子邮件,共享链接并将文件放在公共文件夹中,这些文件夹很容易使数据遭受丢失和被盗-这一切都远远超出了安全团队的能力范围。
我不认为GDPR区分结构化数据和非结构化数据
其他监管制度不在乎受保护的数据是结构化的还是非结构化的,这是组织非常关心其非结构化内容的重要原因,如前所述,结构化数据安全性的途径很明确,正确地进行操作可能并不容易,也不便宜,但是工具和技术可以使用并且可以正常工作,非结构化数据则并非如此,为了解释对规则的需求,我将深入研究业界的数据安全方法之一,数据丢失防护(DLP)工具控制数据如何在定义的控制点(例如网络外围)之间流动,要做出这些允许/拒绝决定,他们需要两条信息:文件是什么以及应如何处理。
这两项任务都依赖于复杂的规则和策略
如果您想知道文档是否包含个人身份信息(PII),则需要一条规则来告诉工具如何找到它(例如,与社会安全号码相匹配的模式),您还需要一个概述PII处理方式的策略,鉴于非结构化数据中内容的多样性,因此这些规则和策略迅速成为难以处理的野兽也就不足为奇了。
为什么配置复杂?
必须先进行配置,然后才能使用该工具,而在这种情况下,配置新工具可能要花费几个月的时间,特别是策略非常依赖于企业,必须在任何非结构化数据安全解决方案起作用之前建立策略。要确保正确调整这些策略以管理风险而又不减慢业务速度,则可能需要花费数月的测试和确定时间,对于依赖终用户分类的解决方案,也有很大的配置要求。
安全专家尝试了哪些方法?
企业采用两种方法来保护非结构化数据,无论是单独还是结合使用,正如我所指出的那样,样式的解决方案使用规则来标识数据和策略来制定控制决策,希望我已经充分解释了,另一种主要方法是使用数据分类或“标签”来识别关键数据,从表面上看,分类非常有吸引力,因为分类依赖于文档的所有者来标识内容,由于所有者也是内容专家,因此他们有资格确定文档是否敏感,机密,包含PII或您拥有什么。
使用“配置”的宽松定义,这些方法需要广泛的“企业配置”才能起作用
必须对类别进行精心设计,以方便终用户理解(例如,“机密”和“高度机密”之间有什么区别?),并且必须对用户进行如何以及何时标记文件以及这些类别标签的含义的培训,什么有效,什么无效,为什么?
AI与它有什么关系?
人工智能为非结构化数据安全组合增加了两项关键功能,首先它非常擅长对非结构化数据进行分类,分类通过揭示文件的含义和内容(甚至跨非常多样化的数据集)来解决复杂性问题,它不需要规则或配置即可完成工作,也不需要任何终用户的帮助,它只是连续不断地自主工作,,人工智能使安全专业人员可以提取应适用于特定数据类型的策略,而无需自己编写任何策略,这是这样的,一旦对文件集进行了分类,就可以建立这些文件遵循的安全实践基准集,您可以通过查看这些文件的管理方式,得出有关谁应该有权访问一组特定法律文件或这些文件应存储在何处的结论,在未明确定义单个策略的情况下,发现那些安全实践的异常值可发现策略违规(和风险),我们将此过程称为“风险距离”分析。
如何使用它?有什么好处/缺点?
语义智能专注于保护非结构化数据,客户使用我们的产品可以降低数据丢失的风险,而无需增加成本或不需要专业的安全人员,在使用中,它可以直接从工具中修复问题(例如,更新文件组上的访问权限),您还可以使用它与组织堆栈中的其他安全工具集成(一种方法使用我们的自动文件分类作为向现有DLP工具发出信号的一种方式),当文件需要注意时,我们的工具可以通知安全团队和/或终用户。
除了满足合规性要求之外,还有哪些其他动机可以保护非结构化数据?
终用户创建和管理的文件和文档包含各种有价值的数据。我们几乎在每个企业中都看到四种类型的关键业务数据:
1、知识产权:源代码,专利申请和产品设计
2、运营机密:收入,预订,价目表和合同
3、战略信息:预测,路线图,产品发布
4、受管制的数据:姓名,电子邮件,政府ID,信用卡号
数据库存在于具有明确定义的访问方法(例如API)的易于理解的位置。这种一致性意味着数据库安全性任务是有界且可解决的。非结构化数据几乎没有一致性。它可以在本地,云应用程序和云存储中找到。有无数种方法可以访问它,并且(至少使用当前工具)无法对其进行统一管理。
控制结构化数据访问的选项可用并已被理解
数据库提供了细粒度的访问特权,可以由安全专业人员实施和集中管理,相反用户主要负责控制对非结构化数据的访问,这一点很重要,我想再说一遍,用户对其拥有的文件做出重要的安全决策,他们通过电子邮件发送电子邮件,共享链接并将文件放在公共文件夹中,这些文件夹很容易使数据遭受丢失和被盗-这一切都远远超出了安全团队的能力范围。
我不认为GDPR区分结构化数据和非结构化数据
其他监管制度不在乎受保护的数据是结构化的还是非结构化的,这是组织非常关心其非结构化内容的重要原因,如前所述,结构化数据安全性的途径很明确,正确地进行操作可能并不容易,也不便宜,但是工具和技术可以使用并且可以正常工作,非结构化数据则并非如此,为了解释对规则的需求,我将深入研究业界的数据安全方法之一,数据丢失防护(DLP)工具控制数据如何在定义的控制点(例如网络外围)之间流动,要做出这些允许/拒绝决定,他们需要两条信息:文件是什么以及应如何处理。
这两项任务都依赖于复杂的规则和策略
如果您想知道文档是否包含个人身份信息(PII),则需要一条规则来告诉工具如何找到它(例如,与社会安全号码相匹配的模式),您还需要一个概述PII处理方式的策略,鉴于非结构化数据中内容的多样性,因此这些规则和策略迅速成为难以处理的野兽也就不足为奇了。
为什么配置复杂?
必须先进行配置,然后才能使用该工具,而在这种情况下,配置新工具可能要花费几个月的时间,特别是策略非常依赖于企业,必须在任何非结构化数据安全解决方案起作用之前建立策略。要确保正确调整这些策略以管理风险而又不减慢业务速度,则可能需要花费数月的测试和确定时间,对于依赖终用户分类的解决方案,也有很大的配置要求。
安全专家尝试了哪些方法?
企业采用两种方法来保护非结构化数据,无论是单独还是结合使用,正如我所指出的那样,样式的解决方案使用规则来标识数据和策略来制定控制决策,希望我已经充分解释了,另一种主要方法是使用数据分类或“标签”来识别关键数据,从表面上看,分类非常有吸引力,因为分类依赖于文档的所有者来标识内容,由于所有者也是内容专家,因此他们有资格确定文档是否敏感,机密,包含PII或您拥有什么。
使用“配置”的宽松定义,这些方法需要广泛的“企业配置”才能起作用
必须对类别进行精心设计,以方便终用户理解(例如,“机密”和“高度机密”之间有什么区别?),并且必须对用户进行如何以及何时标记文件以及这些类别标签的含义的培训,什么有效,什么无效,为什么?
这两种方法都有明显的缺点
正如我之前所暗示的,基于规则的方法可能会演变成规则,策略,异常和更正的纠结,而这些问题确实很难管理。当规则或策略不起作用,或者使用户无法执行自己想做的事情时,就必须诊断并解决问题,重新定义数据丢失防护的时机的报告中承认了这一问题,分类程序遇到了一系列不同的问题,这些问题都与依赖终用户合作的任何IT程序的变数有关,用户是用户,他们并不总是理解或遵守IT安全团队的指令,分类方法通常会使许多数据处于未分类状态,并且不受保护。
AI与它有什么关系?
人工智能为非结构化数据安全组合增加了两项关键功能,首先它非常擅长对非结构化数据进行分类,分类通过揭示文件的含义和内容(甚至跨非常多样化的数据集)来解决复杂性问题,它不需要规则或配置即可完成工作,也不需要任何终用户的帮助,它只是连续不断地自主工作,,人工智能使安全专业人员可以提取应适用于特定数据类型的策略,而无需自己编写任何策略,这是这样的,一旦对文件集进行了分类,就可以建立这些文件遵循的安全实践基准集,您可以通过查看这些文件的管理方式,得出有关谁应该有权访问一组特定法律文件或这些文件应存储在何处的结论,在未明确定义单个策略的情况下,发现那些安全实践的异常值可发现策略违规(和风险),我们将此过程称为“风险距离”分析。
如何使用它?有什么好处/缺点?
语义智能专注于保护非结构化数据,客户使用我们的产品可以降低数据丢失的风险,而无需增加成本或不需要专业的安全人员,在使用中,它可以直接从工具中修复问题(例如,更新文件组上的访问权限),您还可以使用它与组织堆栈中的其他安全工具集成(一种方法使用我们的自动文件分类作为向现有DLP工具发出信号的一种方式),当文件需要注意时,我们的工具可以通知安全团队和/或终用户。
除了满足合规性要求之外,还有哪些其他动机可以保护非结构化数据?
终用户创建和管理的文件和文档包含各种有价值的数据。我们几乎在每个企业中都看到四种类型的关键业务数据:
1、知识产权:源代码,专利申请和产品设计
2、运营机密:收入,预订,价目表和合同
3、战略信息:预测,路线图,产品发布
4、受管制的数据:姓名,电子邮件,政府ID,信用卡号
在许多IT部门中,合规性无疑是首要考虑因素,但这不是需要保护的数据。