BlazingSQL GPU 加速 SQL 引擎开源项目

我要开发同款
匿名用户2019年08月06日
152阅读
开发技术C/C++
所属分类数据库相关、数据库驱动程序
授权协议Apache

作品详情

BlazingSQL是RAPIDS生态系统的GPU加速SQL引擎。

RAPIDS包含一组软件库(BlazingSQL、cuDF、cuML、cuGraph),用来在GPU上执行端到端的数据科学计算和分析管道。

BlazingSQL是一个基于RAPIDS生态系统构建的GPU加速SQL引擎。RAPIDS基于ApacheArrow柱状内存格式,cuDF是一个GPUDataFrame库,用于加载、连接、聚合、过滤和操作数据。

BlazingSQL是cuDF的SQL接口,具有支持大规模数据科学工作流和企业数据集的各种功能。

主要特性:

查询外部存储数据-单行代码可以注册远程存储解决方案,例如AmazonS3。简单的SQL -非常容易使用,运行SQL查询,结果是GPUDataFrames(GDF)。互操作性-任何RAPIDS库都可以立即访问GDF以获取数据科学工作负载。

示例代码:

CVS读取:

fromblazingsqlimportBlazingContextbc=BlazingContext()#CreateTablefromCSVbc.create_table('taxi','/blazingdb/data/taxi.csv',delimiter=',',names=column_names)#Queryresult=bc.sql('SELECTcount(*)FROMmain.taxiGROUPBYyear(key)').get()result_gdf=result.columns#PrintGDFprint(result_gdf)

JSON处理:

fromblazingsqlimportBlazingContextimportcudfbc=BlazingContext()#LoadJSONintoGPUDataFrame(GDF)taxi_gdf=cudf.io.json.read_json('taxi.json')#CreateTablefromGDFbc.create_table('taxi',taxi_gdf)#Queryresult=bc.sql('SELECTcount(*)FROMmain.taxiGROUPBYyear(key)').get()result_gdf=result.columns#PrintGDFprint(result_gdf)

 

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论