通过Dataiku Dataiku DSS连接到您的所有数据源
来源:CPDA数据分析师网 / 作者:数据君 / 时间:2020-04-20
由于Dataiku连接到现有基础架构,因此无需移动数据进行处理。格式和模式检测允许即时访问数据。
连接到25个以上的数据存储系统
1、MPP分析数据库(Teradata,Greenplum,Vertica)
2、云数据库(Amazon Redshift,Google BigQuery,Snowflake,Azure SQL)
3、运营数据库(Oracle,MS SQL Server,PostgreSQL,MySQL)
4、NoSQL存储(MongoDB,Cassandra,Elasticsearch)
5、Hadoop(HDFS)
6、云对象存储(Amazon S3,Google云存储,Azure Blob存储)
7、远程数据源(API,HTTP,FTP,SCP,SFTP)
怎样通过Dataiku扩展现有连接
1、借助DSS插件,几乎可以连接到那里可用的任何数据。
2、使用R或Python为任何API,数据库或基于文件的格式创建自定义连接器,并与您的团队或社区共享。
3、利用 用户社区实现的现有Dataiku 插件和连接器。
自动检测数据集格式和架构
1、Dataiku会自动推断数据的格式和架构。
2、通过即时访问数据,不再需要在读取数据集之前编写精挑细选的格式设置。
3、只需单击几下,即使非技术团队成员也可以访问数据并与数据进行交互,无论格式或类型如何。

数据准备与充实
Dataiku使您可以通过简单的可视界面以交互方式清理和丰富数据。使用90多个内置视觉处理器进行无代码数据整理。
交互地清理和丰富数据
1、轻松访问80多个内置视觉处理器,以进行无代码的数据整理。
2、自动建议的上下文转换。
3、对数据执行批量操作。
执行可视数据转换
1、使用可视化“食谱”执行频繁的数据转换任务。
2、通过完全运行数据库内(SQL)或群集内(Spark,Hadoop)来扩展数据转换管道。
3、访问和修改生成的代码以适应您的需求。
使用集成的高级处理器
1、访问丰富的内置处理器库:
2、文字处理
3、日期处理
4、地理数据
5、URL,电子邮件,JSON,IP地址验证和处理
6、代码,货币换算
7、类似于Excel的公式
使用公式和Python宏进行自定义处理。
根据业务需求创建自己的自定义类型,以进行数据质量检查和处理。