The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]



"Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от opennews (??), 05-Авг-19, 22:22 
Объявлено (https://blog.blazingdb.com/blazingsql-is-now-open-source-b85...) об открытии исходных текстов SQL-движка  BlazingSQL (https://rapids.ai/blazingsql.html), использующего GPU для ускорения обработки данных. BlazingSQL не является полноценной СУБД, а позиционируется как движок для анализа и обработки больших наборов данных, сравнимый по своим задачам с Apache Spark (https://spark.apache.org/).  Код написан на языке Python и открыт (https://github.com/blazingdb/pyBlazing/) под лицензией Apache 2.0.


BlazingSQL подходит для выполнения единичных аналитических запросов над большими наборами данных (десятки гигабайт), хранимых в табличных форматах (например, логи, статистика NetFlow и т.п.). BlazingSQL может выполнять запросы из raw-файлов в форматах  CSV и Apache Parquet, размещённых в сетевых и облачных ФС, подобных HDSF и AWS S3, напрямую передавая результат в память GPU. Благодаря распараллеливанию операций в GPU и использованию более быстрой видеопамяти, выполнение запросов  в BlazingSQL осуществляется до 20 раз (https://blog.blazingdb.com/blazingsql-the-gpu-sql-engine-now...)  быстрее, чем в Apache Spark.


Для работы с GPU применяется развиваемый при участии компании NVIDIA набор открытых (https://github.com/rapidsai/) библиотек RAPIDS (https://rapids.ai/), позволяющий создавать приложения для обработки данных и аналитики, выполняемые целиком на стороне GPU (предоставляется Python-интерфейс (https://rapidsai.github.io/projects/cudf/en/0.8.0/api.html) для использования низкоуровневых примитивов CUDA и распараллеливания вычислений).


BlazingSQL предоставляет возможность использования SQL вместо API обработки данных cuUDF (https://github.com/rapidsai/cudf) (на базе Apache Arrow (http://arrow.apache.org/)), применяемого в  RAPIDS. BlazingSQL является дополнительной прослойкой, работающей поверх cuDF и использующей для чтения данных с диска библиотеку cuIO. SQL-запросы транслируются в вызовы функций cuUDF, позволяющие загружать данные в GPU и выполнять над ними операции слияния, агрегирования и фильтрации.  Поддерживается создание распределённых конфигураций, охватывающих тысячи GPU.

BlazingSQL существенно упрощает работу с данными - вместо сотни вызовов функций cuDF можно обойтись одним SQL-запросом. Применение SQL даёт возможность обеспечить интеграцию RAPIDS с  существующими системами аналитики, без написания специфичных обработчиков и не прибегая к промежуточной загрузке данных в дополнительную СУБД, но
сохраняя при этом полную совместимость со всеми частями RAPIDS, транслируя в SQL имеющуюся функциональность и обеспечивая производительность на уровне cuDF. В том числе обеспечена поддержка интеграции с библиотеками XGBoost (https://xgboost.readthedocs.io/en/latest/) и  cuML (https://github.com/rapidsai/cuml) для решения задач аналитики и машинного обучения.

URL: https://blog.blazingdb.com/blazingsql-is-now-open-source-b85...
Новость: https://www.opennet.ru/opennews/art.shtml?num=51222

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения [Сортировка по времени | RSS]


1. Скрыто модератором  +3 +/
Сообщение от Аноним (1), 05-Авг-19, 22:22 
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

23. Скрыто модератором  +/
Сообщение от amd (??), 06-Авг-19, 09:40 
Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

5. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +5 +/
Сообщение от Аноним (5), 05-Авг-19, 23:52 
> большими наборами данных (десятки гигабайт)

Сейчас на дворе точно 2019-й, а не 2000-й?

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

12. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +14 +/
Сообщение от Аноним (12), 06-Авг-19, 07:16 
Речь про БД, а не твою коллекцию порнухи.
Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

13. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +8 +/
Сообщение от anonymous (??), 06-Авг-19, 07:30 
Десятки гигабайт для СУБД -- это действительно не так много в наше время. В аналитические СУБД обычно загоняют много терабайт.
Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

17. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +1 +/
Сообщение от лютый жабист__ (?), 06-Авг-19, 08:56 
>В аналитические СУБД обычно загоняют много терабайт.

По ссылкам не ходил, но полагаю, что SQL там убогий и это поделие никак задачи Орацле подхватить не смогёт.

А десятки терабайт сейчас обычно грузят в хламоэластики от хламо-IOT или просто журналы. Васянская бигдата без обработки и агрегирования, ценность данных меньше, чем у коллекции порнухи... :)

Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

22. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +3 +/
Сообщение от Аноним (22), 06-Авг-19, 09:28 
бигдейта начинается тогда, когда вы не можете ни за какие деньги купить сервер, в память которого вместятся данные, которые надо держать там для обработки. Поэтому сравнивать spark - решение для кластера - с blazingsql - решением для отдельной машины - некорректно. Разумеется Hadoop-based решения будут медленнее. Зато они прожуют такой объём данных, на котором обычные базы поперхнутся.
Ответить | Правка | ^ к родителю #17 | Наверх | Cообщить модератору

45. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от лютый жабист__ (?), 08-Авг-19, 07:32 
>бигдейта начинается тогда, когда вы не можете ни за какие деньги купить сервер, в память которого вместятся данные

В какую из памятей/памятёв? :) Спарк это больше про ОЗУ, Хадуп больше про сторадж.

Например одиночный сервер спланк с полкой на 100 терабайт это ещё не бигдата по меркам анонимусов опеннета? :)))

Ответить | Правка | ^ к родителю #22 | Наверх | Cообщить модератору

18. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от Онаним (?), 06-Авг-19, 08:57 
Для питона - уже чересчур.
Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

21. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от Аноним (21), 06-Авг-19, 09:28 
Она, похоже, не питон. Про питон, судя по всему, автор новости от себя добавил. На питоне только какая-то демонстрашка выложена. Впрочем, будут ли байндинги под что-то полезное, ещё большой вопрос...
Ответить | Правка | ^ к родителю #18 | Наверх | Cообщить модератору

19. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  –1 +/
Сообщение от Аноним (19), 06-Авг-19, 09:00 
Сотни гигабайт. Терабайты мб у гугла или у какого-то сбера, но на таких объёмах и своё можно запилить.
Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

24. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  –1 +/
Сообщение от Аноним (-), 06-Авг-19, 09:44 
> на таких объёмах и своё можно запилить.

Чтобы что-то пилить, нужно, чтобы программисты толковые были. Откуда они у Сбера? Если только речь не про Ignite.

Ответить | Правка | ^ к родителю #19 | Наверх | Cообщить модератору

25. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +4 +/
Сообщение от Аноним (5), 06-Авг-19, 10:06 
Это перепись админов локалхоста, что ли?

У гугла экзабайты, у сбера петабайты, десятки терабайт - даже у средне-мелких контор.

Размер БД менее 1 Тб сейчас - обычный hello word, не о чем говорить.

Ответить | Правка | ^ к родителю #19 | Наверх | Cообщить модератору

37. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  –1 +/
Сообщение от ыы (?), 06-Авг-19, 15:46 
недотянул ты до админа локолхоста... увы...
Ответить | Правка | ^ к родителю #25 | Наверх | Cообщить модератору

39. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от Аноним (39), 06-Авг-19, 16:04 
>hello word
>word
Ответить | Правка | ^ к родителю #25 | Наверх | Cообщить модератору

41. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от Аноним (5), 06-Авг-19, 18:38 
Я спецом так написал из гуманных соображений, чтобы админам локалхоста было до чего докопаться.
Ответить | Правка | ^ к родителю #39 | Наверх | Cообщить модератору

28. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от пох. (?), 06-Авг-19, 10:41 
коллекция-то тоже побогаче "десятков" нынче будет - что это за порнуха, не в 4k ?

Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

38. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от ыы (?), 06-Авг-19, 15:53 
Речь идет не о БД как таковой, а о
"данных (десятки гигабайт), хранимых в табличных форматах (например, логи, статистика NetFlow и т.п.). "

Что сейчас с одной стороны- реально, а с другой- обычно в б_О_льших объемах и не существует.
Единичный лог на десяток гигов? Легко. Больше? Вы что ротацию логам не делаете вообще? Гнать вас в шею... Поэтому рассуждения про экзабайты баз данных (и про базы данных вообще) - они просто от невнимательного чтения и непонимания проблемы.

Ответить | Правка | ^ к родителю #12 | Наверх | Cообщить модератору

40. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от пох. (?), 06-Авг-19, 17:45 
> "данных (десятки гигабайт), хранимых в табличных форматах (например, логи, статистика
> NetFlow и т.п.). "

хм, а зачем вы логи храните в "табличных форматах"?!

> Что сейчас с одной стороны- реально, а с другой- обычно в б_О_льших
> объемах и не существует.

Яровая и товарищмайор уже идут к вам! Несут расширятель хранимой емкости - очень почему-то похожий на бутылку, так что на всякий случай - запаситесь вазелином.

> Единичный лог на десяток гигов? Легко. Больше? Вы что ротацию логам не
> делаете вообще? Гнать вас в шею...

делают (более того, единичный лог на десяток гигов - это вот как раз "гнать в шею"), но от этого старые логи, внезапно, не перестают быть нужны.
И эффективный поиск по ним - тоже.

> Поэтому рассуждения про экзабайты баз данных (и про базы данных вообще) - они просто от
> невнимательного чтения и непонимания проблемы.

ну авторов никто за язык на тему сравнения со spark не тянул, он вообще-то совсем не для netflow.


Ответить | Правка | ^ к родителю #38 | Наверх | Cообщить модератору

43. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от Аноним (43), 07-Авг-19, 11:44 
> хм, а зачем вы логи храните в "табличных форматах"?!

Так это нынче модно

Ответить | Правка | ^ к родителю #40 | Наверх | Cообщить модератору

15. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  –1 +/
Сообщение от Аноним (15), 06-Авг-19, 08:34 
> Код написан на языке Python и открыт

Какая красота, что это не правда. Что и подтверждается ссылкой https://github.com/rapidsai

Впрочем, во времена быстрой аналитики странно, что вообще ещё кто-то мыслит о том, чтобы использовать питон....

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

16. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  –1 +/
Сообщение от Аноним (16), 06-Авг-19, 08:51 
>> Код написан на языке Python и открыт
> Какая красота, что это не правда. Что и подтверждается ссылкой https://github.com/rapidsai

Речь про BlazingSQL, а вы кидайте ссылку на Rapidsai. В новости следом расписано, что  BlazingSQL лишь надстройка над RAPIDSai, который понятное дело не на Python.

Ответить | Правка | ^ к родителю #15 | Наверх | Cообщить модератору

20. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  –1 +/
Сообщение от Аноним (21), 06-Авг-19, 09:15 
https://github.com/BlazingDB - здесь написано, что они BlazingSQL. Тоже не питон
Ответить | Правка | ^ к родителю #16 | Наверх | Cообщить модератору

26. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от nuzhny (?), 06-Авг-19, 10:27 
https://github.com/BlazingDB/pyBlazing
Питон же
Ответить | Правка | ^ к родителю #20 | Наверх | Cообщить модератору

27. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от Аноним (16), 06-Авг-19, 10:28 
> https://github.com/BlazingDB - здесь написано, что они BlazingSQL. Тоже не питон

Там как раз везде написано, что Python. Первый же репозиторий "BlazingSQL is a lightweight, GPU accelerated, SQL engine built on RAPIDS. Python". Остальное левые надстройки или форки других проектов. С++ только для BlazingDB, а это совсем другой продукт.
Из Python они генерируют код для CUDA при помощи cuDF от RAPIDSai.

Ответить | Правка | ^ к родителю #20 | Наверх | Cообщить модератору

29. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от Аноним (-), 06-Авг-19, 10:52 
> Из Python они генерируют код для CUDA при помощи cuDF от RAPIDSai.

Жуть какая.... Ретрограды и старпёры... В 21-м веке тащить питон в реальный проект.....

Ответить | Правка | ^ к родителю #27 | Наверх | Cообщить модератору

30. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от пох. (?), 06-Авг-19, 11:01 
да, полная фигня - в 2k19 уже давно пора было делать на node.js

Ответить | Правка | ^ к родителю #29 | Наверх | Cообщить модератору

31. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  –1 +/
Сообщение от Аноним (-), 06-Авг-19, 11:15 
Если интерфейс под аналитику, то Julia или R
Ответить | Правка | ^ к родителю #30 | Наверх | Cообщить модератору

33. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от nuzhny (?), 06-Авг-19, 12:49 
С тебя песок сыпется дядя - swift: https://www.tensorflow.org/swift
Ответить | Правка | ^ к родителю #31 | Наверх | Cообщить модератору

34. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от Аноним (-), 06-Авг-19, 14:32 
Для начала, разверни сервис на Свифте на каком-нибудь типовом сервере RHEL/CentOS...
Ответить | Правка | ^ к родителю #33 | Наверх | Cообщить модератору

42. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от специалист (?), 07-Авг-19, 10:41 
я один не вижу вашего предложения по оплате?

P.S. почасовой,разумеется

Ответить | Правка | ^ к родителю #34 | Наверх | Cообщить модератору

35. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от Аноним (35), 06-Авг-19, 14:57 
Пихтон, гигабайты датасета, raw хранение на сетевых дисках? Нет на них ClickHouse...
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

44. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +/
Сообщение от Аноним (43), 07-Авг-19, 11:45 
адепты яндекса должны гореть в аду
Ответить | Правка | ^ к родителю #35 | Наверх | Cообщить модератору

36. "Открыт код SQL-движка BlazingSQL, использующего GPU для уско..."  +1 +/
Сообщение от Аноним (35), 06-Авг-19, 14:59 
https://www.scylladb.com/
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Спонсоры:
Слёрм
Inferno Solutions
Hosting by Ihor
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2019 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру