BlazingSQL开源了，基于RAPIDS构建的GPU加速SQL引擎

文章由LinuxBoy分享于2019-08-09 01:08:55热评（35）

BlazingSQL开源了，基于RAPIDS构建的GPU加速SQL引擎

昨天，BlazingSQL团队在Apache 2.0许可下开源BlazingSQL。它是一个基于RAPIDS生态系统构建的轻量级，GPU加速的SQL引擎。RAPIDS 包含一组软件库（BlazingSQL、cuDF、cuML、cuGraph），用来在 GPU 上执行端到端的数据科学计算和分析管道。

BlazingSQL首席执行官Rodrigo Aramburu在媒体博客文章中写道：“随着RAPIDS的采用不断普及，开源的BlazingSQL加快了我们的开发周期，让我们的产品掌握在更多用户手中，并使我们的许可和消息与更大的RAPIDS人工智能生态系统保持一致。”

Aramburu将RAPIDS称为“下一代分析生态系统”，其中BlazingSQL作为SQL标准。它还可以作为cuDF的SQL接口，cuDF是一个用于加载，连接，聚合和过滤数据的GPU DataFrame（GDF）库。

以下是BlazingSQL如何适应RAPIDS人工智能生态系统的概述：

使用BlazingSQL的优点

经济高效：客户通常需要集中数千台服务器来大规模处理数据，这可能非常昂贵。 BlazingSQL只占基础设施的一小部分，以同等规模运行。
更好的性能：在提取，转换和加载数据时，BlazingSQL比Apache Spark群集快20倍。它可以在几秒钟内生成GPU加速结果，使数据科学家能够快速迭代新模型。
轻松扩展工作负载：通常，工作负载首先以小规模进行原型设计，然后针对分布式系统进行重建。使用BlazingSQL，您只需编写一次代码，可以根据分发的规模动态更改代码，只需最少的代码更改。
连接到多个数据源：它连接到多个数据源，用于查询本地和分布式文件系统中的文件。目前，它支持AWS S3和Apache HDFS，团队计划在未来支持更多。
运行联合查询：它允许您在联合查询的帮助下以原始格式直接将原始数据查询到GPU内存中。联合查询允许您跨多种数据格式连接来自多个数据存储的数据。它目前支持CSV，Apache Parquet，JSON和现有的GPU DataFrame。

NVIDIA的数据科学总监Josh Patterson在公告中表示，“NVIDIA和RAPIDS生态系统很高兴BlazingSQL开源其基于RAPIDS的SQL引擎。通过在GPU上利用Apache Arrow并与Dask集成，BlazingSQL将扩展开源功能，并推动加速数据科学生态系统中的下一波互操作性。“

linuxboy的RSS地址：https://www.linuxboy.net/rssFeed.aspx

本文永久更新链接地址：https://www.linuxboy.net/Linux/2019-08/159895.htm

推荐文章：

Ubuntu13.04下源码安装Rapidsvn

BlazingSQL开源了，基于RAPIDS构建的GPU加速SQL引擎