一个非常易用的支持海量数据实施同步的超高性能分布式数据集成平台,可以每天稳定高效的同步数百亿数据 github地址:https://github.com/apache/seatunnel
海量数据同步中可能遇到的问题:
- 数据丢失与重复
- 任务堆积与延迟
- 吞吐量低
- 应用到生产环境周期长
- 缺少应用运行状态监控
SeaTunnel使用场景
- 海量数据同步
- 海量数据集成
- 海量数据的 ETL
- 海量数据聚合
- 多源数据处理
特性:
- 简单易用,灵活配置,无需开发(基于配置的低代码开发)
- 实时流式处理
- 离线多源数据分析
- 高性能、海量数据处理能力
- 模块化和插件化,易于扩展
- 支持利用 SQL 做数据处理和聚合
- 支持 Spark Structured Streaming
- 支持 Spark 2.x