BlazingSQL开源了,基于RAPIDS构建的GPU加速SQL引擎


昨天,BlazingSQL团队在Apache 2.0许可下开源BlazingSQL。 它是一个基于RAPIDS生态系统构建的轻量级,GPU加速的SQL引擎。RAPIDS 包含一组软件库(BlazingSQL、cuDF、cuML、cuGraph),用来在 GPU 上执行端到端的数据科学计算和分析管道。

BlazingSQL首席执行官Rodrigo Aramburu在媒体博客文章中写道:“随着RAPIDS的采用不断普及,开源的BlazingSQL加快了我们的开发周期,让我们的产品掌握在更多用户手中,并使我们的许可和消息与更大的RAPIDS人工智能生态系统保持一致。”

Aramburu将RAPIDS称为“下一代分析生态系统”,其中BlazingSQL作为SQL标准。 它还可以作为cuDF的SQL接口,cuDF是一个用于加载,连接,聚合和过滤数据的GPU DataFrame(GDF)库。

以下是BlazingSQL如何适应RAPIDS人工智能生态系统的概述:

使用BlazingSQL的优点

  • 经济高效:客户通常需要集中数千台服务器来大规模处理数据,这可能非常昂贵。 BlazingSQL只占基础设施的一小部分,以同等规模运行。
  • 更好的性能:在提取,转换和加载数据时,BlazingSQL比Apache Spark群集快20倍。它可以在几秒钟内生成GPU加速结果,使数据科学家能够快速迭代新模型。
  • 轻松扩展工作负载:通常,工作负载首先以小规模进行原型设计,然后针对分布式系统进行重建。使用BlazingSQL,您只需编写一次代码,可以根据分发的规模动态更改代码,只需最少的代码更改。
  • 连接到多个数据源:它连接到多个数据源,用于查询本地和分布式文件系统中的文件。目前,它支持AWS S3和Apache HDFS,团队计划在未来支持更多。
  • 运行联合查询:它允许您在联合查询的帮助下以原始格式直接将原始数据查询到GPU内存中。联合查询允许您跨多种数据格式连接来自多个数据存储的数据。它目前支持CSV,Apache Parquet,JSON和现有的GPU DataFrame。

NVIDIA的数据科学总监Josh Patterson在公告中表示,“NVIDIA和RAPIDS生态系统很高兴BlazingSQL开源其基于RAPIDS的SQL引擎。 通过在GPU上利用Apache Arrow并与Dask集成,BlazingSQL将扩展开源功能,并推动加速数据科学生态系统中的下一波互操作性。“

linuxboy的RSS地址:https://www.linuxboy.net/rssFeed.aspx

本文永久更新链接地址:https://www.linuxboy.net/Linux/2019-08/159895.htm

相关内容

    暂无相关文章