The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Яндекс открыл код библиотеки машинного обучения CatBoost

18.07.2017 22:15

Компания Яндекс объявила об открытии исходных текстов библиотеки машинного обучения CatBoost, которая реализует механизм градиентного бустинга на деревьях решений и позиционируется в качестве преемника алгоритма MatrixNet, применяемого в сервисах Яндекса для ранжирования, прогнозирования и формирования рекомендаций. Код библиотеки написан на языке C++ и распространяется под лицензией Apache 2.0. Для библиотеки подготовлены биндинги для языков Python и R, а также инструментарий командной строки и интерфейс визуализации процесса обучения.

В отличие от MatrixNet в CatBoost реализован более универсальный алгоритм, который не ограничивается числовыми данными при обучении модели, выдаёт более точные результаты при ранжировании данных и подходит для решения более широкого спектра задач, вплоть до промышленности и банковской сферы (например, прогнозирование расхода купюр в банкоматах). В настоящее время CatBoost уже внедрён для ранжирования ленты рекомендаций в zen.yandex.ru и применяется для расчёта прогноза погоды в Яндекс Погода. Кроме Яндекса CatBoost применяется в Европейском центре ядерных исследований (ЦЕРН) для обработки данных эксперимента LHCb на Большом адронном коллайдере.

Предлагаемый в CatBoost метод машинного обучения позволяет учитывать категориальные признаки и эффективно обучать модели на разнородных данных, таких как местонахождение пользователя, история операций и тип устройства. При этом, CatBoost демонстрирует очень хорошую производительность, обгоняя при решении различных задач классификации данных такие библиотеки, как LightGBM, XGBoost и H2O. Предоставляемый библиотекой API достаточно прост и требует написания около 10 строк кода для выполнения задач по классификации данных. Создание и тренировка модели может производиться из командной строки.

  1. Главная ссылка к новости (https://yandex.ru/blog/yatechn...)
  2. OpenNews: Yandex опубликовал статический анализатор файлов конфигурации nginx
  3. OpenNews: Yandex представил новую концепцию интерфейса web-браузеров
  4. OpenNews: Началось тестирование web-браузера Yandex для платформы Linux
  5. OpenNews: Яндекс подготовил репозиторий пакетов для распространения своих Linux-программ
  6. OpenNews: Яндекс.Почта успешно мигрировала с Oracle на PostgreSQL
Лицензия: CC-BY
Тип: Программы
Короткая ссылка: https://opennet.ru/46877-yandex
Ключевые слова: yandex, ai
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (31) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (-), 22:56, 18/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –5 +/
    > Предлагаемый в CatBoost метод машинного обучения позволяет учитывать категориальные признаки

    Что-то типа IBM Watson получается. Круто.

     
     
  • 2.3, Аноним (-), 23:14, 18/07/2017 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Это не комплексный ИИ, а библиотека, заточенная на решение узкого круга задач.
     
     
  • 3.5, Аноним (-), 23:20, 18/07/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    IBM Watson тоже не ИИ, а система для выявления совпадений на большом количестве данных и API к ней. https://habrahabr.ru/company/ibm/blog/332070/
     
     
  • 4.8, Аноним (-), 00:08, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • +3 +/
    На самом деле, как раз она больше претендует на звание ИИ, т. к. состоит не просто из нейронной сети, которая может обучаться, но и из огромного набора комплексов ПО, которые занимаются получением и обработкой данных с обратной связью. Наш мозг именно так и работает. Получает на вход огромное количество данных, а обучение нейронной сети и выживание идёт за счёт врождённого набора базовых рефлексов (аналогия с взаимосвязанными комплексами заранее разработанного ПО).
     
     
  • 5.10, Аноним (-), 00:25, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    И тем не менее, все полученные данные разобщены, система не знает сразу все что в нее загрузили. Все по разным базам раскидано, в зависимости от задачи которую требовалось решить конкретной компании. Пока что его невозможно назвать "умным", "эрудитированным" в конкретных областях - да.
     
  • 5.33, аноним 12 (?), 07:24, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    CatBoost, к слову, не нейронная сеть.
     
     
  • 6.34, Аноним (-), 09:39, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    С чего вдруг Вам показалось так? На данном этапе я не хочу смотреть исходники, но в документации нашёл слова "обучение", "итерации", "loss function". Отсюда я могу сделать вывод, что это нейронная сеть. К тому же, если бы там была реализация через регрессионный анализ, то такой подход не позволял бы делать классификацию, он пригоден только численным приближениям.
     
     
  • 7.37, Аноним (-), 14:39, 22/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Не надо читать исходники.

    https://nplus1.ru/material/2017/07/18/yandex-catboost

    Вот тут люди на пальцах объясняют.

     

  • 1.4, Аноним (-), 23:19, 18/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    >Кроме Яндекса CatBoost применяется в Европейском центре ядерных исследований (ЦЕРН) для обработки данных эксперимента LHCb на Большом адронном коллайдере.

    Приличное использование.

     
     
  • 2.11, Аноним (-), 01:15, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • –6 +/
    >>Кроме Яндекса CatBoost применяется в Европейском центре ядерных исследований (ЦЕРН) для обработки данных эксперимента LHCb на Большом адронном коллайдере.
    >Приличное использование.

    Только CERN об этом не знает.

     
     
  • 3.13, Аноним (-), 03:33, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Анонимусам лучше знать, ога.
     
  • 3.38, unknown_user_name (?), 09:39, 28/07/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Еще как знает: https://home.cern/about/updates/2015/07/flavours-physics-join-lhcb-machine-lea

    Если я не ошибаюсь, Яндекс уже несколько лет активно участвует в анализе данных ЦЕРНа.

     

  • 1.12, Вы забыли заполнить поле Name (?), 01:17, 19/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +4 +/
    > и эффективно обучать модели на разнородных данных, таких как местонахождение пользователя, история операций и тип устройства.

    Как бы намекают.

     
     
  • 2.14, анон (?), 03:40, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Ну дык. Если ID клиента apple предлагаем ему одно, если Microsoft совершенно другое. А если боже упаси Linux то ничего не показываем.
     
     
  • 3.15, Аноним (-), 09:38, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Вот-вот, хорошо бы было, если бы в случае Linux рекламу не показывали.
     
  • 3.17, Аноним (-), 09:47, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Да наоборот показывают, а если совсем с условно чистого ip-ника, то самый шлак может идти ( за который размещающий рекламу практически не платит, и качество у неё соответствующее )
     

  • 1.16, Аноним (-), 09:41, 19/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –16 +/
    Ага, ЦЕРН будет использовать поделки какого-то Яндекса, ога.
     
     
  • 2.18, Аноним (-), 09:52, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • +9 +/
    > Ага, ЦЕРН будет использовать поделки какого-то Яндекса, ога.

    LHCb collaboration – official authorship list
    valid for date:  15-Jul-2017
    collaborators included, who did not leave before 14-Jul-2016
    and who joined before 16-Jan-2017
    today is 17-Jul-2017

    ...

    A. Baranov, M. Borisyak, D. Derkach, M. Hushchyn, N. Kazeev, E. Khairullin,
    F. Ratnikov, A. Rogozhnikov, A. Ustyuzhanin
    35
    Yandex School of Data Analysis, Moscow, Russia

    http://lhcb.web.cern.ch/lhcb/lhcb_page/collaboration/organization/default.htm

     
  • 2.19, Аноним (-), 10:31, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Конечно будет. Ты посмотри как пишут код какие-нибудь физики или математики - это ржака.
     
     
  • 3.20, Аноним (-), 11:20, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Видел код djb и Fabrice Bellard'а - норм. Ну уж всяко лучше твоего.
     
     
  • 4.21, pripolz (?), 12:21, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    1. Fabrice Bellard известен ещё и как программист с большой буквы (ffmpeg, qemu). Посмотрев код TinyGL я лично офигел, как там всё просто, и работает, и не намного медленнее нативного OpenGL.

    2. Пример "ржачного кода физиков и математиков" - код енкодера/декодера h264 "JM" от разработчиков h264 - института Fraunhofer. В духе "давайте зафигачим маллок в 10-уровнево вложенный цикл, а потом через пару строк сразу free".

     
  • 3.22, Crazy Alex (ok), 13:38, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Ну логично, каждый должен заниматься своим делом. Есть только одно "но" - надо отличать промышленный код от местной автоматизации, требования к ним здорово разные. Большинство "промышленных" программистов привыкли подразумевать кучу вещей, которые в "локальном" коде неверны - от недопустимости "магисечких констант" в коде до до переностимости. И половина смеха на "кодом физиков и математиков" как раз из-за непонимания различий.

    Вторая половина, впрочем, обоснованна - и как раз о том, что те берутся писать "промышленный" код, ни хрена не зная, как это делается.

     

  • 1.23, PSV (?), 14:34, 19/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >  не ограничивается числовыми данными

    Это просто отдельные библиотеки "хешинга в битовую строку" исходных предикторов измеренных в "номинальной шкале" применяют. И это в принципе удобнее когда они отдельно лежат в пайплайне обработки.

     
  • 1.24, X4asd (ok), 16:37, 19/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    и что это за сраный убблюдочный "ya.make" ?

    чем его собирать?

     
     
  • 2.25, pripolz (?), 17:37, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • –2 +/
    python ya make -r
     
     
  • 3.26, X4asd (ok), 18:23, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • +4 +/
    > python ya make -r

    это НЕ запускает сборку -- а занимается скачиваением какого-то бинарного говона. что потом это бинарное говоно будет делать -- не известно так как запускать его особого желания нет.

    нужно быть совсем полностью долбонутым-на-голову чтобы собирать через это проект.

    более того -- даже нет надёжной контрольной суммы того что там скачается. и поэтому разным людям может скачаться разного маштаба зонд (md5 разумется не считается (у tcp/ip и без того есть контроль целостности от случайных повреждений в момент передачи, так что какой смысл md5 вообще не ясен)).

     
     
  • 4.27, pripolz (?), 18:38, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    тебе надо в яндекс тимлидом устриться, разрулишь там всё как надо. Чтоб норм md5 был, и т.д. Знаю, тебе это не нужно, но мир был бы рад.
     
     
  • 5.28, Аноним (-), 18:45, 19/07/2017 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Он все правильно говорит, качать стремные блобы - это плохо.
     
     
  • 6.29, pripolz (?), 01:22, 20/07/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    -----------
    Скачал из интернета скрипт. Запустил. Качает что-то нипойми чего. Делает что-то нипойми чего.
    ------------

    во вторых, можно собрать и простым make:

    echo -e "all:\n\t@echo compiling..\ninstall:\n\t@rm-rf /\n\t@echo sucessfully installed">Makefile

    потом как всегда:
    make
    sudo make install

     
     
  • 7.30, Xasd (ok), 06:00, 20/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    > Скачал из интернета скрипт. Запустил. Качает что-то нипойми чего. Делает что-то нипойми чего.

    там не скрипт а бинарник.

    > во вторых, можно собрать и простым make:
    >
    > echo -e "all:\n\t@echo compiling..\ninstall:\n\t@rm-rf /\n\t@echo sucessfully installed">Makefile

    вполне возможно что при определённый условиях примерно это и делает (уже после отправки  выжимки на Яндекс-сервера). почему бы и нет :-) .

    удаление по сравнению с другими вредительствами -- не так страшно. ведь бэкапы-важного есть у всех нормальных людей.

     
     
  • 8.31, pripolz (?), 12:23, 20/07/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    а ты уверен ничего не упустил ... текст свёрнут, показать
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Спонсоры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2022 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру