BlazingSQLGPU 加速 SQL 引擎
BlazingSQL 是 RAPIDS 生態(tài)系統(tǒng)的 GPU 加速 SQL 引擎。
RAPIDS 包含一組軟件庫(BlazingSQL、cuDF、cuML、cuGraph),用來在 GPU 上執(zhí)行端到端的數(shù)據(jù)科學(xué)計算和分析管道。
BlazingSQL是一個基于RAPIDS生態(tài)系統(tǒng)構(gòu)建的GPU加速SQL引擎。 RAPIDS基于Apache Arrow柱狀內(nèi)存格式,cuDF是一個GPU DataFrame庫,用于加載、連接、聚合、過濾和操作數(shù)據(jù)。
BlazingSQL是cuDF的SQL接口,具有支持大規(guī)模數(shù)據(jù)科學(xué)工作流和企業(yè)數(shù)據(jù)集的各種功能。
主要特性:
- 查詢外部存儲數(shù)據(jù) - 單行代碼可以注冊遠程存儲解決方案,例如Amazon S3。
- 簡單的SQL - 非常容易使用,運行SQL查詢,結(jié)果是GPU DataFrames(GDF)。
- 互操作性 - 任何RAPIDS庫都可以立即訪問GDF以獲取數(shù)據(jù)科學(xué)工作負載。
示例代碼:
CVS 讀?。?/p>
from blazingsql import BlazingContext
bc = BlazingContext()
# Create Table from CSV
bc.create_table('taxi', '/blazingdb/data/taxi.csv', delimiter= ',', names = column_names)
# Query
result = bc.sql('SELECT count(*) FROM main.taxi GROUP BY year(key)').get()
result_gdf = result.columns
#Print GDF
print(result_gdf)
JSON 處理:
from blazingsql import BlazingContext
import cudf
bc = BlazingContext()
# Load JSON into GPU DataFrame (GDF)
taxi_gdf = cudf.io.json.read_json('taxi.json')
# Create Table from GDF
bc.create_table('taxi', taxi_gdf)
# Query
result = bc.sql('SELECT count(*) FROM main.taxi GROUP BY year(key)').get()
result_gdf = result.columns
#Print GDF
print(result_gdf)
評論
圖片
表情
