Apache SeaTunnel 高性能分布式数据集成平台开源项目

我要开发同款
匿名用户2021年12月03日
53阅读
开发技术Java
所属分类大数据、数据处理
授权协议Apache

作品详情

SeaTunnel是下一代超高性能的支持海量数据快速同步与集成的云原生数据集成工具,每天可以稳定高效同步万亿级数据,已在字节、B站、微博、腾讯云及印度电信等数百家公司生产上使用,目前也已经支持过百种数据源。

为什么我们需要SeaTunnel

SeaTunnel尽所能为您解决海量数据同步中可能遇到的问题:

数据丢失与重复任务堆积与延迟吞吐量低缺少应用运行状态监控SeaTunnel使用场景海量数据同步海量数据集成海量数据的ELT/ETL海量数据聚合多源数据处理SeaTunnel特性简单易用,灵活配置,无需开发支持CDC 离线多源数据全量和增量同步超高性能、海量数据处理能力模块化和插件化,易于扩展SeaTunnel支持的ConnectorSource

Fake,File,Hdfs,Kafka,S3,Socket,Cassandra,Clickhouse,Elasticsearch,FTP,Hive,Hudi,Iceberg,JDBC,Kudu,MongoDB,OSS,Pulsar,Redis,S3,Kafka等众多数据源,也支持自行开发Sourceplugin

Transform

Copy,FieldMapper,FilterRowKind,Filter,Replace,Split,SQLFunctions,SQLUDF,SQL及自行开发的Transformplugin

Sink

DynamoDB,Assert,Cassandra,Clickhouse,ClickhouseFile,Console,DataHub,DingTalk,Doris,Elasticsearch,Email,EnterpriseWeChat,Feishu,FtpFile,GoogleFirestore,Greenplum,Hbase,HdfsFile,Hive,Http,InfluxDB,IoTDB,JDBC,Kafka,Kudu,LocalFile,Maxcompute,MongoDB,MySQL,Neo4j,OssFile,OssJindoFile,Paimon,Phoenix,Rabbitmq,Redis,RocketMQ,S3Redshift,S3File,SelectDBCloud,Sentry,SftpFile,Slack,Snowflake,Socket,StarRocks,TDengine,Tablestore等,也支持自行开发的Sinkplugin

环境依赖

java运行环境,java>=8

如果您要在集群环境中运行SeaTunnel,那么需要以下环境的任意一种:

SeaTunnelZetaSparkFlink

如果您的数据量较小或者只是做功能验证,也可以仅使用 local 模式启动,无需集群环境,SeaTunnel支持单机运行。

下载

可以直接运行的软件包下载地址:https://seatunnel.apache.org/download

快速入门

快速入门:https://seatunnel.apache.org/docs/2.3.2/start-v2/locally/quick-start-seatunnel-engine

关于SeaTunnel的详细文档

生产应用案例

微博,增值业务部数据平台微博某业务有数百个实时流式计算任务使用内部定制版seatunnel,以及其子项目Guardian做seatunnelOnYarn的任务监控。

新浪,大数据运维分析平台新浪运维数据分析平台使用seatunnel为新浪新闻,CDN等服务做运维大数据的实时和离线分析,并写入Clickhouse。

搜狗,搜狗奇点系统搜狗奇点系统使用seatunnel作为ETL工具,帮助建立实时数仓体系

更多案例参见: https://seatunnel.apache.org/user

贡献观点和代码

提交问题和建议:https://github.com/apache/seatunnel/issues

贡献代码:https://github.com/apache/seatunnel/contribute

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论