The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Яндекс открыл YTsaurus, платформу для обработки и хранения больших объёмов данных

23.03.2023 14:42

Компания Яндекс объявила об открытии исходных текстов платформы распределённого хранения и обработки больших объёмов данных YTsaurus, поддерживающей манипуляцию данными с использованием парадигмы MapReduce, движка SQL-запросов, распределённой файловой системы и NoSQL-СУБД класса "ключ-значение". YTsaurus используется в инфраструктуре Яндекс для эффективного использования вычислительных мощностей суперкомпьютеров компании. Код проекта написан на языках C/C++ и открыт под лицензией Apache 2.0.

Платформа может масштабироваться до кластеров, включающих более 10 тысяч узлов и охватывающих до миллиона процессоров и тысяч GPU (для решения задач машинного обучения). В качестве образующих кластер единиц могут использоваться изолированные контейнеры, запускаемые на физических серверах. В хранилище могут находится эксабайты данных, размещённые на различных носителях, таких как жёсткие диски, SATA/SAS/NVMe SSD, а также в оперативной памяти. В кластере поддерживается динамическое добавление и удаление узлов, резервирование (нет единой точки отказа), автоматическая репликация, обновление кластерного ПО без остановки работы и автоматическое восстановление избыточности в случае выхода узлов из строя.

Поддерживается три вида кластеров: вычислительные (для массово-параллельной обработки при помощи операций MapReduce), для динамических таблиц в формате "ключ-значение" и геораспределённые. Сервис на базе платформы может предоставлять средства для хранения и обработки данных десятков тысяч пользователей. Среди типовых областей применения YTsaurus в Яндекс называется хранение информации о пользователях рекламной сети, обучение моделей машинного обучения, формирование поискового индекса и построение хранилищ данных для таких сервисов, как Яндекс Такси, Еда, Лавка и Доставки.

Базовые сценарии использования:

  • Пакетная обработка. MapReduce и SPYT (Apache Spark в качестве вычислительного движка поверх данных в YTsaurus) для обработки структурированных и полуструктурированных данных: логов или финансовых транзакций.
  • Ad hoc аналитика. Быстрые запросы через CHYT (кластер ClickHouse на вычислительных узлах YTsaurus) без копирования данных в отдельную аналитическую систему. Интерфейсы ODBC и JDBC позволяют подключиться из BI-систем для визуализации.
  • OLTP-задачи. Транзакционная работа в реальном времени с СУБД в формате "ключ-значение": например, для хранения профилей пользователей, показа рекламы или потоковой обработки.
  • Машинное обучение. Управление кластерами GPU для обучения моделей с миллиардами параметров.
  • Хранилище метаинформации. Транзакционное хранение метаинформации и надёжный сервис распределённых блокировок.
  • Построение хранилищ данных и ETL для многоуровневой обработки данных при помощи типовых инструментов: Apache Spark, SQL, MapReduce.

Основные элементы архитектуры:

  • Распределённая файловая система и отказоустойчивое древовидное хранилище метаинформации Cypress. Поддерживается хранение в форме файлов и таблиц (с разбивкой на столбцы и строки), прозрачное секционирование таблиц, сжатие данных (lz4 и zstd), поддержание кодов для восстановления в случае потери информации и контрольных сумм, фоновая репликация, транзакции, разграничение прав доступа (вплоть до уровня колонок таблиц).
  • Планировщик для распределённых вычислений с поддержкой модели MapReduce, а также расширенных базовых операций, таких как Erase и Sort. Горизонтальная масштабируемость вычислительных операций. Изоляция вычислительных ресурсов и возможность выделять определённые вычислительные ресурсы (CPU, GPU, ОЗУ) в разных пропорциях.
  • Высокоуровневые вычислительные движки для аналитических запросов CHYT (ClickHouse поверх YTsaurus) и SPYT (Apache Spark поверх YTsaurus). Движок YQL с реализацией диалекта SQL, поддерживающего операции соединения (join), подзапросы, оконные функции и параллельное исполнение запросов произвольной сложности.
  • Динамические таблицы для создания OLTP-системы, поддерживающие хранение на базе модели MVCC, транзакции, возможность удаления данных после истечения времени жизни и очереди сообщений для организации потоковой обработки данных поверх динамических таблиц.
  • API и библиотеки для языков программирования С++, Python, Java, Go.
  • Web-интерфейс для пользователей и администраторов, поддерживающий навигацию по древовидному хранилищу, выполнение операций с таблицами, каталогами и файлами, отправку SQL-запросов, мониторинг за кластером, управление пользователями, назначение квот, разграничение доступа.




  1. Главная ссылка к новости (https://medium.com/yandex/ytsa...)
  2. OpenNews: Утечка содержимого внутренних Git-репозиториев компании Яндекс
  3. OpenNews: Яндекс открыл код фреймворка userver для создания высоконагруженных приложений
  4. OpenNews: Яндекс открыл код распределённой СУБД YDB, поддерживающей SQL
  5. OpenNews: Яндекс открыл код библиотеки машинного обучения CatBoost
  6. OpenNews: Релиз платформы для распределённой обработки данных Apache Hadoop 3.3
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/58850-ytsaurus
Ключевые слова: ytsaurus, yandex, cluster, mapreduce
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (45) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (1), 16:04, 23/03/2023 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]
  • +10 +/
     

     ....ответы скрыты модератором (3)

  • 1.4, Аноним (4), 16:13, 23/03/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +13 +/
    Утечка в сеть 40Гб аркадии, по прошествии месяца теперь называется "яндекс открыл"
     
     
  • 2.8, Аноним (9), 16:49, 23/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Да теперь открытое управление инфраструктурой будет не только у я. но и у всех кто зайюзает сабж.  
     
     
  • 3.93, Аноним (93), 14:47, 31/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Какому дураку придет в голову строить свою экосистему на базе продукта конкурента?
    Только одбитому...
     
  • 2.29, Вы забыли заполнить поле Name (?), 19:18, 23/03/2023 [^] [^^] [^^^] [ответить]  
  • +7 +/
    В утечке вроде этого не было
     
  • 2.69, Товарищ майор (ok), 10:21, 24/03/2023 [^] [^^] [^^^] [ответить]  
  • +1 +/
    И правильно сделали. Код всё равно утёк, коммерческой тайной его не прикрыть. А так хоть от СПО-сообщества обратную связь получить можно будет.
     

  • 1.7, 11 (?), 16:48, 23/03/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Из него можно вытянуть отдельно хранилище?
     
     
  • 2.46, пох. (?), 21:29, 23/03/2023 [^] [^^] [^^^] [ответить]  
  • –2 +/
    > Из него можно вытянуть отдельно хранилище?

    Данные яндекс-яды уже кто-то вытянул. Ты тоже можешь попробовать.

     

  • 1.20, Аноним (20), 18:11, 23/03/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Как это связано с похмел-fs ?
     
     
  • 2.51, koct9i (ok), 21:49, 23/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    никак, только тем что оба из яндекса
     

  • 1.24, InuYasha (??), 18:32, 23/03/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • –2 +/
    Кто-нибудь вообще будет обсуждать технические подробности или так и будут кричать "яднекс то", "яднекс сё"? Я тоже от них не в восторге, но, однако же, КХ вещь не плохая.
     
     
  • 2.26, Tron is Whistling (?), 19:06, 23/03/2023 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Ну вот посмотрел я на архитектуру - и откровенно не понимаю: кому-то кроме яндеха это монструозное поделие реально может понадобиться? Его ж поддерживать обойдётся дороже, чем результат.
     
     
  • 3.34, Вы забыли заполнить поле Name (?), 19:32, 23/03/2023 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Тому кто сейчас развернул у себя хадуп?
     
     
  • 4.47, Tron is Whistling (?), 21:31, 23/03/2023 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Хавдупа по крайней мере гомогенна.
     
     
  • 5.49, Tron is Whistling (?), 21:35, 23/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    А тут намесили оверлеев - плакать хочется.
     
  • 3.48, пох. (?), 21:31, 23/03/2023 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Ну вот посмотрел я на архитектуру - и откровенно не понимаю: кому-то
    > кроме яндеха это монструозное поделие реально может понадобиться? Его ж поддерживать
    > обойдётся дороже, чем результат.

    Как будто ты его вообще сможешь поддерживать? Если уж даже из клячхауса во все стороны свисают нитки и торчат ошметки - то уж этого монстра ты скорее всего даже не запустишь. А запустишь так пожалеешь, потому что навернется и хрен ты свои данные оттуда назад добудешь без помощи яндекса. А он тебе вряд ли будет помогать, не до тебя ему.


     
     
  • 4.50, Tron is Whistling (?), 21:36, 23/03/2023 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Абсолютно фак'т.
     
  • 3.70, Товарищ майор (ok), 10:23, 24/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Ну Якитория, например, использует. С админкой спокойно справляется 3 человека (с учётом отпусков и почти круглосуточной поддержки).
     
     
  • 4.76, пох. (?), 11:58, 24/03/2023 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Само-то оно - не стоит, чтоль?

    Отдельный вопрос - зачем этот монстр якитории и откуда у нее суперкомпьютеры.

    И как эти три землекопа ухитрились без помощи яндекса всю эту монстрятину взгромоздить и перенести в нее какие-то (какие, кроме оплаты разьве что) бизнес-процессы?

    И главное - откуда среди поварят взялись целых три таких гения?

    (ну и еще на закусочку - а откуда у них код проекта который неделю как на гитхаб выложен?)

     
     
  • 5.86, Товарищ майор (ok), 09:26, 27/03/2023 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Вы определитесь, для этого нужны 3 гения или оно само стоять должно ))
     
  • 4.78, Tron is Whistling (?), 21:38, 24/03/2023 [^] [^^] [^^^] [ответить]  
  • +1 +/
    У меня два стандартных вопроса: как и нафига.
     
  • 3.89, Аноним (89), 13:28, 27/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Тому, у кого в хадупе больше 500 машин, и, поэтому, приходится из распределять по нескольким кластерам
     
     
  • 4.90, Tron is Whistling (?), 17:17, 27/03/2023 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ну я и говорю - кроме яндеха наверное никому...
    Потому что сами понимаете, за пределами - не надо, а внутри такие кластеры найти надо постараться.
     
  • 2.35, Бывалый Смузихлёб (??), 19:33, 23/03/2023 [^] [^^] [^^^] [ответить]  
  • +2 +/
    а что там обсуждать ? Слишком жирное, монструозное и специализированное для обычного пользователя и даже для не-совсем-обычного. И, похоже, уже зашквар для яндекса ибо решил сливать.

    Ну есть - и есть. Если бы не было - едва ли кому-то в мире с того хуже стало

     

  • 1.32, Вы забыли заполнить поле Name (?), 19:26, 23/03/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    На гитхаб выложили... по идее их должны забанить, ведь яндекс под санкциями
     
     
  • 2.43, . (?), 21:11, 23/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Яндыкс под чужим ником выложил
     
  • 2.60, погроммист (?), 00:49, 24/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Не Яндекс под санкциями, а директор(а) яндекса.
     
     
  • 3.65, Аноним (65), 08:16, 24/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    а зря. они директоров на следующий день после введения против него санкций меняют
     
     
  • 4.72, Аноним (72), 11:13, 24/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Как ты Воложа поменяешь?
     
     
  • 5.74, пох. (?), 11:27, 24/03/2023 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Так уже жеж. Официально объявлено что Волож - непричемыш и вообще где-то только рядом стоял а руль - нини, не трогал.

    И официальной должности не имеет, совсем никакой, вообще.
    https://www.rbc.ru/business/03/06/2022/629a0db89a79472e9e52e0e4
    (да, я понимаю что это юмористический сайт, но никаких других в нынешнее время у меня для вас нет)

     

  • 1.62, погроммист (?), 01:09, 24/03/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Работал с ней в 2016-2018 внутри Яндекса. Уже тогда это была продуманная до мелочей система, которой пользуются почти все отделы как единой ФС для данных всей компании. Тысячи человек и роботов ежедневно запускали джобы поверх тысяч нод *единого* кластера на все отделы, и очень редко когда он уходил в даунтайм. Очень продуманная система ACL и квотирования ресурсов, бесконечная масштабируемость, и всё умещается в пару статических бинарников на C++ без всяких maven джунглей.
     
     
  • 2.64, ivan_erohin (?), 07:10, 24/03/2023 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > которой пользуются [...] как единой ФС для данных всей компании.

    сценарий:

    одна маленькая дырка в единой ФС
    +
    один злонамеренный инсайдер-погромист
    =
    все данные всей компании улетают на. или в.

    > почти все отделы

    а, ну тогда пускай будет.

     
  • 2.66, Аноним (65), 08:19, 24/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    >  единой ФС для данных всей компании

    а, так это фс для файлопомойки. а в новости что-то про бигдату

     
     
  • 3.73, пох. (?), 11:24, 24/03/2023 [^] [^^] [^^^] [ответить]  
  • +4 +/
    они там мамой клянутся что универсальная - хошь помойку, хошь бигдату (как будто это не помойка), а хошь данные кредитных карт и адреса доставки яды. Ой... уплыла. Ну и фиг с ней - яндекс-то ни копейки на этом не потерял.

     
  • 2.83, all_glory_to_the_hypnotoad (ok), 03:41, 26/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Это же мягко говоря не правда. В тот период ыть не умела быть единой ФС для всех, каждому отделу поднимали свои инстансы. Ну и это далеко не единственный инструмент внутри Я чтобы что-то похранить и обработать.
     
     
  • 3.87, пох. (?), 10:29, 27/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    Вы бы лучше поделились информацией, как оно вообще было в работе и чего стоили те даунтаймы которые "редко" по мнению предыдущего эхсперта. Как чинилось, во что выливалось...

     
  • 2.91, Аноним (91), 07:24, 28/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    "хранения и обработки данных десятков тысяч пользователей" - прям настоящая бигдата, целые десятки тысяч.
     

  • 1.77, Big Robert TheTables (?), 17:05, 24/03/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    да это просто бомба, если работает, как описано.
     
     
  • 2.88, пох. (?), 10:30, 27/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    В смысле уж рванет так рванет?
     

  • 1.79, Илья (??), 21:45, 24/03/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Зачем на гитхаб?
     
  • 1.92, Serg (??), 16:23, 29/03/2023 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Знакомый сценарий:

    1. Дуров вышел из вконтакта;
    2. Утечка кода из ВК;
    3. Новый, невиданный Телеграм;

    1. Волож вышел из Я;
    2. Утечка кода из Я;
    3. Новый, невиданный <.что?.>;

     
     
  • 2.94, пох. (?), 23:14, 31/03/2023 [^] [^^] [^^^] [ответить]  
  • +/
    ничего, увы. Волож потому и держался до последнего за яндекс, что прекрасно знает - второго он уже не создаст. Просто потому что это можно было только тогда сделать даже при особом везении и кое-каких талантах.

    Ну, в конце-концов, особо ему не посочувствуешь - с голоду пухнуть явно не планирует, на остаток жизни поиграться с разумными автомобильчиками и неразумными таксистами ему вполне хватит, не смотря на все санкции, и гражданство хорошей страны никуда не денется.

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру