如果您有大数据要使用哪种压缩类型?
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-12-28
这是数据压缩进入对话的地方
在数据压缩中,通过使用比原始数据更少的位来对数据进行编码,数据压缩有两种方法,无损压缩,它消除了冗余但不丢失任何原始数据,有损数据压缩,可通过删除不必要或不太重要的信息来修改数据,在大数据的传输和存储中使用数据压缩非常重要,因为它减少了IT部门必须为该数据提供的网络带宽和存储量,同样重要的是,您实际上并不想保留某些类型的大数据,例如作为物联网(IoT)通信数据一部分的设备间握手引起的抖动,但是为了程度地利用大数据进行数据压缩,您必须知道何时何地使用不同类型的数据压缩工具和公式,选择数据压缩方法时,请牢记以下几条有用的准则。
何时使用无损数据压缩
如果您有一个大数据应用程序,并且无法承受丢失任何数据的麻烦,并且需要解压缩压缩的每个字节的数据,那么您将需要一种无损的数据压缩方法,当您压缩来自数据库的数据时,即使您意味着必须存储更多的数据,也希望进行无损数据压缩,在选择将此数据重新提交到其数据库时,您需要解压缩完整数据,以便它可以与数据库端的数据匹配并进行存储。
何时使用有损数据压缩
有时您不需要或不需要所有数据,例如物联网和网络设备的抖动。您不需要这些数据,只需提供给您业务所需的上下文信息的数据即可。第二个示例是在数据压缩过程的前端可能使用的数据压缩公式中使用人工智能(AI),如果您正在研究一个特定的问题,并且只希望与该问题直接相关的数据,则可以决定让数据压缩公式不包含与该问题无关的任何数据,如何节省加工,大数据的CPU处理周期非常昂贵,因此数据压缩过程的一部分应侧重于从CPU卸载处理。
这可以通过使用现场可编程门阵列来完成
可以由您配置为计算机的其他处理器的微芯片,您可以减轻CPU的某些压缩处理负担,并提高硬件性能,如何选择正确的编解码器一个编解码器是一个硬件,软件的组合,压缩和解压缩数据,所以它在大数据压缩和解压缩操作的核心作用。编解码器有许多种,因此为正确的数据或文件类型选择正确的编解码器很重要,您选择的编解码器类型将取决于您尝试压缩的数据和文件类型。有无损和有损数据的编解码器,也有一些编解码器必须将所有数据文件作为“整体”处理,而其他编解码器可以将数据分割开,以便可以对其进行并行处理,然后在其目的地重新组合,某些编解码器设置用于可视数据,而其他编解码器仅处理音频数据。
为什么数据压缩很重要?
在数据压缩中,通过使用比原始数据更少的位来对数据进行编码,数据压缩有两种方法,无损压缩,它消除了冗余但不丢失任何原始数据,有损数据压缩,可通过删除不必要或不太重要的信息来修改数据,在大数据的传输和存储中使用数据压缩非常重要,因为它减少了IT部门必须为该数据提供的网络带宽和存储量,同样重要的是,您实际上并不想保留某些类型的大数据,例如作为物联网(IoT)通信数据一部分的设备间握手引起的抖动,但是为了程度地利用大数据进行数据压缩,您必须知道何时何地使用不同类型的数据压缩工具和公式,选择数据压缩方法时,请牢记以下几条有用的准则。
何时使用无损数据压缩
如果您有一个大数据应用程序,并且无法承受丢失任何数据的麻烦,并且需要解压缩压缩的每个字节的数据,那么您将需要一种无损的数据压缩方法,当您压缩来自数据库的数据时,即使您意味着必须存储更多的数据,也希望进行无损数据压缩,在选择将此数据重新提交到其数据库时,您需要解压缩完整数据,以便它可以与数据库端的数据匹配并进行存储。
何时使用有损数据压缩
有时您不需要或不需要所有数据,例如物联网和网络设备的抖动。您不需要这些数据,只需提供给您业务所需的上下文信息的数据即可。第二个示例是在数据压缩过程的前端可能使用的数据压缩公式中使用人工智能(AI),如果您正在研究一个特定的问题,并且只希望与该问题直接相关的数据,则可以决定让数据压缩公式不包含与该问题无关的任何数据,如何节省加工,大数据的CPU处理周期非常昂贵,因此数据压缩过程的一部分应侧重于从CPU卸载处理。
这可以通过使用现场可编程门阵列来完成
可以由您配置为计算机的其他处理器的微芯片,您可以减轻CPU的某些压缩处理负担,并提高硬件性能,如何选择正确的编解码器一个编解码器是一个硬件,软件的组合,压缩和解压缩数据,所以它在大数据压缩和解压缩操作的核心作用。编解码器有许多种,因此为正确的数据或文件类型选择正确的编解码器很重要,您选择的编解码器类型将取决于您尝试压缩的数据和文件类型。有无损和有损数据的编解码器,也有一些编解码器必须将所有数据文件作为“整体”处理,而其他编解码器可以将数据分割开,以便可以对其进行并行处理,然后在其目的地重新组合,某些编解码器设置用于可视数据,而其他编解码器仅处理音频数据。
为什么数据压缩很重要?
确定将用于大数据的数据压缩类型是大数据操作的重要组成部分,仅在资源端,IT人员就无法承受处理失控和迅速发展的存储的成本,即使必须完整存储数据,也应尽可能地对其进行压缩,也就是说您可以采取其他步骤来限制存储和处理,以及针对大数据压缩中采用的算法和方法的适合操作,掌握这些选项是IT部门的关键数据点。
商业联合会数据分析专业委员会