+-
大数据实时采集和ETL工具-StreamSets入门简介

对于数据集成类应用,通常会采用ETL工具辅助完成。ETL是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。当前的很多应用也存在大量的ELT应用模式。

常见的ETL工具或类ETL的数据集成同步工具很多,如开源的 Kettle、Sqoop、DataX、StreamSets等等。

...

StreamSets Data Collector(SDC)是可视化数据采集配置工具,非常适合做实时的数据采集,兼顾批量数据采集和不落地的数据ETL。如果你正在使用Flume、Logstash、Sqoop、Canal等上一代数据采集工具,推荐尝试使用SDC作为升级替换。

StreamSets Data Collector为StreamSets公司开发的开源软件,遵循Apache License 2.0。

从实战出发,通过理论讲解-环境搭建-项目案例实战,让初学者快速掌握hadoop大数据技术。


一、StreamSets简介

Streamsets是一款大数据实时采集和ETL工具,可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化接口,实现数据管道(Pipelines)的设计和定时任务调度。最大的特点有:

- 可视化接口操作,不写代码完成数据的采集和流转

- 内置监控,可是实时查看数据流传输的基本信息和数据的质量

- 强大的集成力,对现有常用组件全力支持,包括50种数据源、44种数据操作、46种目的地。

...

对于Streamsets来说,最重要的概念就是数据源(Origins)、操作(Processors)、目的地(Destinations)。创建一个Pipelines管道配置也基本是这三个方面。

常见的Origins有MySQL、Kafka、HTTP、UDP、JDBC、HDFS、Elasticsearch等;Processors可以实现对每个字段的过滤、更改、编码、聚合等操作;Destinations跟Origins差不多,可以写入Kafka、Flume、JDBC、HDFS、Redis等。


二、Data Collector用户接口

SDC提供了一个基于web的用户接口(UI),用于配置管道、预览数据、监视管道和查看数据快照。

Data Collector用户接口包括以下常规区域和图标:

...