BlazingSQL是RAPIDS生态系统的GPU加速SQL引擎。
RAPIDS包含一组软件库(BlazingSQL、cuDF、cuML、cuGraph),用来在GPU上执行端到端的数据科学计算和分析管道。
BlazingSQL是一个基于RAPIDS生态系统构建的GPU加速SQL引擎。RAPIDS基于ApacheArrow柱状内存格式,cuDF是一个GPUDataFrame库,用于加载、连接、聚合、过滤和操作数据。
BlazingSQL是cuDF的SQL接口,具有支持大规模数据科学工作流和企业数据集的各种功能。
主要特性:
查询外部存储数据-单行代码可以注册远程存储解决方案,例如AmazonS3。简单的SQL -非常容易使用,运行SQL查询,结果是GPUDataFrames(GDF)。互操作性-任何RAPIDS库都可以立即访问GDF以获取数据科学工作负载。示例代码:
CVS读取:
fromblazingsqlimportBlazingContextbc=BlazingContext()#CreateTablefromCSVbc.create_table('taxi','/blazingdb/data/taxi.csv',delimiter=',',names=column_names)#Queryresult=bc.sql('SELECTcount(*)FROMmain.taxiGROUPBYyear(key)').get()result_gdf=result.columns#PrintGDFprint(result_gdf)JSON处理:
fromblazingsqlimportBlazingContextimportcudfbc=BlazingContext()#LoadJSONintoGPUDataFrame(GDF)taxi_gdf=cudf.io.json.read_json('taxi.json')#CreateTablefromGDFbc.create_table('taxi',taxi_gdf)#Queryresult=bc.sql('SELECTcount(*)FROMmain.taxiGROUPBYyear(key)').get()result_gdf=result.columns#PrintGDFprint(result_gdf)
评论