SeaTunnel尽所能为您解决海量数据同步中可能遇到的问题:
数据丢失与重复任务堆积与延迟吞吐量低缺少应用运行状态监控SeaTunnel使用场景海量数据同步海量数据集成海量数据的ELT/ETL海量数据聚合多源数据处理SeaTunnel特性简单易用,灵活配置,无需开发支持CDC 离线多源数据全量和增量同步超高性能、海量数据处理能力模块化和插件化,易于扩展SeaTunnel支持的ConnectorSourceFake,File,Hdfs,Kafka,S3,Socket,Cassandra,Clickhouse,Elasticsearch,FTP,Hive,Hudi,Iceberg,JDBC,Kudu,MongoDB,OSS,Pulsar,Redis,S3,Kafka等众多数据源,也支持自行开发Sourceplugin
TransformCopy,FieldMapper,FilterRowKind,Filter,Replace,Split,SQLFunctions,SQLUDF,SQL及自行开发的Transformplugin
SinkDynamoDB,Assert,Cassandra,Clickhouse,ClickhouseFile,Console,DataHub,DingTalk,Doris,Elasticsearch,Email,EnterpriseWeChat,Feishu,FtpFile,GoogleFirestore,Greenplum,Hbase,HdfsFile,Hive,Http,InfluxDB,IoTDB,JDBC,Kafka,Kudu,LocalFile,Maxcompute,MongoDB,MySQL,Neo4j,OssFile,OssJindoFile,Paimon,Phoenix,Rabbitmq,Redis,RocketMQ,S3Redshift,S3File,SelectDBCloud,Sentry,SftpFile,Slack,Snowflake,Socket,StarRocks,TDengine,Tablestore等,也支持自行开发的Sinkplugin
环境依赖java运行环境,java>=8
如果您要在集群环境中运行SeaTunnel,那么需要以下环境的任意一种:
SeaTunnelZetaSparkFlink如果您的数据量较小或者只是做功能验证,也可以仅使用 local 模式启动,无需集群环境,SeaTunnel支持单机运行。
下载可以直接运行的软件包下载地址:https://seatunnel.apache.org/download
快速入门快速入门:https://seatunnel.apache.org/docs/2.3.2/start-v2/locally/quick-start-seatunnel-engine
关于SeaTunnel的详细文档
生产应用案例微博,增值业务部数据平台微博某业务有数百个实时流式计算任务使用内部定制版seatunnel,以及其子项目Guardian做seatunnelOnYarn的任务监控。
新浪,大数据运维分析平台新浪运维数据分析平台使用seatunnel为新浪新闻,CDN等服务做运维大数据的实时和离线分析,并写入Clickhouse。
搜狗,搜狗奇点系统搜狗奇点系统使用seatunnel作为ETL工具,帮助建立实时数仓体系
更多案例参见: https://seatunnel.apache.org/user
贡献观点和代码提交问题和建议:https://github.com/apache/seatunnel/issues
贡献代码:https://github.com/apache/seatunnel/contribute
评论