The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Выпуск spaCy 1.0, библиотеки для обработки информации на естественном языке

20.10.2016 11:14

Компания Explosion AI, специализирующаяся на разработках, связанных с искусственным интеллектом и машинным обучением, представила первый значительный выпуск свободной библиотеки spaCy, в которой воплощены в рабочий код результаты последних достижений в области распознавания текста на естественном языке (NLP, Natural Language Processing). Библиотека написана на языке Cython (расширение Python, позволяющее использовать вставки на языке Си), совместима с CPython 2.6+/3.3+ на платформах Unix/Linux, macOS и Windows, и распространяется под лицензией MIT. Языковые модели пока подготовлены только для английского и немецкого языков (размер каждой модели около 500Мб).

Библиотека рассчитана на применение в конечных продуктах, снабжена исчерпывающей документацией и предоставляет целостный API, для которого гарантируется обратная совместимость. Большинство имеющихся разработок в области NLP представляют собой исследовательские проекты, реализующие сразу несколько альтернативных алгоритмов, но не готовые для поставки конечному потребителю. В spaCy обеспечена поддержка только одного алгоритма, демонстрирующего наибольшую эффективность. В случае появления более эффективного алгоритма библиотека будет переведена на него, но этот перевод останется незаметным для завязанных на библиотеку приложений и не повлияет на API. Особенностью spaCy также является архитектура, рассчитанная на обработку документов целиком, без предварительной обработки в препроцессорах, разбивающих документ на фразы.

По производительности spaCy значительно превосходит проекты ClearNLP, CoreNLP, MATE и Turbo, и тратит на обработку документа менее 50 мс. Ценой высокой скорости является незначительное снижение точности - spaCy отстаёт по точности на 2% от наиболее эффективной альтернативной релизации, но работает на порядок быстрее. Например, spaCy при точности в 91.8% выполняет обработку 13963 слов в секунду, в то время как библиотека MATE при точности в 92.5% обрабатывает 550 слов в секунду, а библиотека Turbo при точности в 92.4% обрабатывает 349 слов в секунду.

Основные возможности spaCy:

  • Разбор зависимостей на основе меток (точность 91.8% в тесте OntoNotes 5);
  • Распознавание именованных сущностей (точность 82.6% в тесте OntoNotes 5);
  • Пометка частей речи (точность 87.1% в тесте OntoNotes 5);
  • Легко используемые векторы расстановки слов;
  • Присвоение всем строкам цифровых идентификаторов;
  • Экспорт массивов данных для обработки в библиотеке NumPy;
  • Сохранение выравнивания как в исходной строке, что упрощает расчёт разметки;
  • Наличие простых орфографических функций;
  • Отсутствие препроцессора, spaCy обрабатывает текст как есть;
  • Поддержка подключения механизмов глубинного машинного обучения.


  1. Главная ссылка к новости (https://explosion.ai/blog/spac...)
  2. OpenNews: Facebook открыл модули машинного обучения, использующие GPU для ускорения
  3. OpenNews: Facebook открыл код библиотеки классификации текста fastText
  4. OpenNews: Microsoft опубликовал на GitHub систему машинного обучения CNTK
  5. OpenNews: Baidu открыл наработки в области машинного обучения
  6. OpenNews: Yahoo открыл модель машинного обучения для выявления неприличных изображений
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/45351-nlp
Ключевые слова: nlp, spacy, ai, text
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (45) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Анонимус_б6_выпуск_3 (?), 12:31, 20/10/2016 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    поясните простыми словами человеку, далекому от умных слов в тексте новости, для чего прикладного это будет применяться?
     
     
  • 2.2, A.Stahl (ok), 12:41, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +7 +/
    Ну, например, можно будет написать спамбота, который будет так спамить, что хрен какой фильтр сработает.
    А ещё можно написать такой спамфильтр, что как бы ты ни спамил, то всё равно тебя вычислят.
    А ещё можно будет сделать бота, который будет обижаться если ты будешь его оскорблять.
    А ещё можно сделать бота, который и тебя сможет оскорбить.

    Но самое главное его применение -- управление корчевателем.

     
     
  • 3.5, Аноним (5), 14:15, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Для того, чтобы сделать бота, который сможет кого-нибудь оскорбить никакие лингвистические системы не нужны
    И обижаться он не будет на твои оскорбления, разве что можно написать бота, который на оскорбления будет оскорблять в обратку - тут да, библиотека поможет найти такой евент
     
  • 3.10, Какаянахренразница (ok), 15:09, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +7 +/
    > Ну, например, можно будет написать спамбота, который будет так спамить,
    > что хрен какой фильтр сработает.
    > А ещё можно написать такой спамфильтр, что как бы ты ни спамил, то всё
    > равно тебя вычислят.

    А может ли бог создать камень, который сам не сможет поднять? Если на этом софте написать спамбота и спамфильтр, а потом стравить их, то кто победит?

     
     
  • 4.13, A.Stahl (ok), 15:37, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +5 +/
    >А может ли бог создать камень, который сам не сможет поднять?

    Смотря что за бог. Если ты про того, который всемогущий, то конечно же может. Он же всемогущий.
    >Если на этом софте написать спамбота и спамфильтр, а потом стравить их, то кто победит?

    А почему кто-то должен победить? Кто победит в дуэли человек-потребитель и человек-продавец? Когда как. Иногда может даже маразм победить.

     
     
  • 5.17, Какаянахренразница (ok), 16:28, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Смотря что за бог. Если ты про того, который всемогущий, то конечно же может.
    > Он же всемогущий.

    Сможет создать или сможет поднять? :-)

    > А почему кто-то должен победить?

    Потому что принципиально возможны лишь два выхода: фильтр либо отсеет бота (победа фильтра, проигрыш бота), либо не отсеет (победа бота, проигрыш фильтра). В отличие от "дуэли человек-потребитель и человек-продавец", здесь нет win-win.

     
     
  • 6.19, A.Stahl (ok), 16:35, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +/
    >Сможет создать или сможет поднять? :-)

    И то и другое. Просто по определению всемогущества.
    >Потому что принципиально возможны лишь два выхода

    Не вижу отличия от дуэли человек-человек.

     
     
  • 7.20, Какаянахренразница (ok), 16:46, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +/
    > Не вижу отличия от дуэли человек-человек.

    Правда? Отличие в том, что игра продавец-покупатель не является игрой с нулевым результатом. Выигрыш одного не означает проигрыш другого. Они лишь делят между собой выгоду от сделки. Поэтому им доступна кооперативная стратегия (имеет смысл договариваться).

     
     
  • 8.21, A.Stahl (ok), 17:21, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Ок Пусть Но при борьбе фильтров может сначала победить один, а потом другой В... текст свёрнут, показать
     
     
  • 9.24, Какаянахренразница (ok), 18:33, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Ага, всемогущий бог сначала создаст неподъёмно огромный камень, а потом вспомнит... текст свёрнут, показать
     
     
  • 10.26, A.Stahl (ok), 19:46, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Нет, он просто всемогущий И точка Да, он может создать слишком тяжёлый для себ... текст свёрнут, показать
     
     
  • 11.31, Я. Р. Ош (?), 00:33, 21/10/2016 [^] [^^] [^^^] [ответить]  
  • –2 +/
    незавидная у тебя судьба... текст свёрнут, показать
     
  • 11.37, Какаянахренразница (ok), 03:21, 21/10/2016 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Ты чё это верующий, штоле Я думал, тут только Шигорин такой, местами н... текст свёрнут, показать
     
     
  • 12.38, A.Stahl (ok), 08:18, 21/10/2016 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Верующий Ты бы извинился ... текст свёрнут, показать
     
     
  • 13.39, Какаянахренразница (ok), 10:52, 21/10/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Я обознался Прошу прощения Это тот редкий случай, когда я рад, что ошибся ... текст свёрнут, показать
     
  • 6.43, 1111 (??), 02:03, 22/10/2016 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Сможет создать или сможет поднять? :-)

    Сначала сможет его создать, затем сможет его поднять.
    (Например можно создать камень размером со вселенную
    (или, например, до начала существования пространства),
    и поднимать его будет не от чего и некуда, затем создать
    "небо и землю", чтобы было откуда и куда его поднимать )
    будте гибче. ;)

     
     
  • 7.47, Павел Самсонов (?), 11:42, 24/10/2016 [^] [^^] [^^^] [ответить]  
  • –1 +/
    >> Сможет создать или сможет поднять? :-)
    > Сначала сможет его создать, затем сможет его поднять.
    > (Например можно создать камень размером со вселенную
    > (или, например, до начала существования пространства),
    > и поднимать его будет не от чего и некуда, затем создать
    > "небо и землю", чтобы было откуда и куда его поднимать )
    > будте гибче. ;)

    Я не верю, что Бог творил материю. "Сначала Бог сотворил небо и землю, земля же была безвидна и пуста..." - это же метафора - мол изначала земля была безвидна и пуста и типа откуда-то была (Бог сотворил). Не может никто творить никаких камней и никаких материй ...

     
     
  • 8.49, J.L. (?), 10:51, 15/11/2016 [^] [^^] [^^^] [ответить]  
  • +/
    ваши данные устарели, камни и материю могут даже простые смертные физики с помощ... текст свёрнут, показать
     
  • 5.18, KBAKEP (ok), 16:31, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Какой же он всемогущий, если не может поднять созданный собой же камень?
     
     
  • 6.22, A.Stahl (ok), 17:44, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Почему не может? Может. Он же всемогущий.
     
  • 6.23, Аноним (-), 17:57, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Ну какой же он всемогущий если даже не может создать камень, который невозможно поднять?
     
     
  • 7.25, synweap (ok), 19:44, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Решение этой философской проблемы:

    1. Всемогущим Бог является постольку, поскольку для Него нет ничего невозможного.
    2. Всемогущий Бог по определению может создать такой камень, но создав его, Он потеряет всемогущество.
    3. Чтобы оставаться всемогущим, Богу необходимо воздерживаться от создания подобных камней.

    Вывод: Бог такой камень создать сможет, но не станет, чтобы не потерять всемогущество.

     
     
  • 8.27, rshadow (ok), 20:02, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Есть еще ответ попроще да, и он его создал - это человек ... текст свёрнут, показать
     
  • 8.33, Какаянахренразница (ok), 02:07, 21/10/2016 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Это не философская проблема Это иллюстрация фундаментального противоречия в чье... текст свёрнут, показать
     
  • 8.45, BeRUS (ok), 10:36, 22/10/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Сорри ... текст свёрнут, показать
     
  • 7.50, J.L. (?), 10:56, 15/11/2016 [^] [^^] [^^^] [ответить]  
  • +/
    > Ну какой же он всемогущий если даже не может создать камень, который
    > невозможно поднять?

    вы не понимаете как это работает:

    0) бог в состоянии всемогущества
    1) бог выбирает себе задачу
    2) бог выполняет задачу
    3) после выполнения задачи бог переходит в состояние "0" и приступает к выполнению следующей задачи

    тоесть на момент выполнения задачи б) "поднять камень" задача а) "создать камень" уже выполнена и уже не актуальна

     
  • 4.28, anonymous (??), 00:14, 21/10/2016 [^] [^^] [^^^] [ответить]  
  • +/
    > А может ли бог создать камень, который сам не сможет поднять?

    А сможешь ли ты вообразить в своём сознании такой камень, который не поместится в твоё сознание?

     
     
  • 5.34, Какаянахренразница (ok), 02:09, 21/10/2016 [^] [^^] [^^^] [ответить]  
  • +3 +/
    >> А может ли бог создать камень, который сам не сможет поднять?
    > А сможешь ли ты вообразить в своём сознании такой камень, который не
    > поместится в твоё сознание?

    А свопить можно?

     
     
  • 6.41, Led (ok), 21:58, 21/10/2016 [^] [^^] [^^^] [ответить]  
  • +/
    >>> А может ли бог создать камень, который сам не сможет поднять?
    >> А сможешь ли ты вообразить в своём сознании такой камень, который не
    >> поместится в твоё сознание?
    > А свопить можно?

    Нет. Но оверкоммит разрешён.

     
  • 5.42, Ordu (ok), 23:07, 21/10/2016 [^] [^^] [^^^] [ответить]  
  • +/
    С камнем никто не пытался, а вот с астрономическими явлениями, в частности со звёздами такое бывает. Кто-то из астрономов, описывая звёзды гиганты, сказал, что-то в стиле "представь себе самую большую звезду, которую можешь представить... так вот, супергигант ещё больше".

    На ютубе есть видяшка: https://youtu.be/HEheh1BH34Q

    И каждый раз разглядывая её, я очень двояко себя чувствую, как будто я представил себе размеры VY Большого Пса, и при этом не смог представить себе размеры VY Большого Пса. Одновременно и да, и нет. И если ты знаешь ответ на свой вопрос, то мне было бы интересно его услышать.

     
  • 3.14, ПавелС (ok), 15:39, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Ну, например, можно будет написать спамбота, который будет так спамить, что хрен
    > какой фильтр сработает.
    > А ещё можно написать такой спамфильтр, что как бы ты ни спамил,
    > то всё равно тебя вычислят.
    > А ещё можно будет сделать бота, который будет обижаться если ты будешь
    > его оскорблять.
    > А ещё можно сделать бота, который и тебя сможет оскорбить.
    > Но самое главное его применение -- управление корчевателем.

    Какое то кусание себя за хвост с этими секюрити и ИИ. Лет 15 назад когда я начинал с компами всё было мирнее - обеспечивает система приемлемый уровень безопасности - ну хорошо.

     
  • 2.3, Александр (??), 12:58, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Всё предельно просто - для слежки за вами.
    И за другими людьми.
    Я серьёзно. Вплоть до разбора текстов переведённых из записанных телефонных разговоров (а их ой как много - нелегально хранящихся, да и легально прибавятся сейчас ---- см. "законопроект Яровой" "пакет Яровой").
    Такчто, обсуждаемая библиотечка прикрученная к действующим системам даст колоссальный эффект по противозаконному использованию данных о людях против них же.
    1.В тюрьмах не все сидят справедливо.
    2.О взятых на своё имя кредитах и ипотеках тоже некоторые люди узнают случайно, и уже во время предъявления судебных претензий банком(ами).
    3... ... продолжать?
     
     
  • 3.4, тоже Аноним (ok), 14:10, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Пакет Яровой преследует ровно две цели:
    1) завинчивание гаек в Интернете и коммуникациях вокруг него (то есть практически всех современных средствах связи)
    2) попил бюджета на внедрении технологической базы под этот идиотский сбор петабайтов неактуальной информации.

    Разобраться в этих петабайтах никакие искусственные интеллекты все равно не помогут. Ибо это классический "демон второго рода", польза от которого описана классиком еще в прошлом веке.

     
     
  • 4.8, Mail (?), 14:51, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Зачем в петабайтах? кода нужен конкретный человечек там много-много меньше.

    О выборочном "применении закона" слышали?

     
     
  • 5.9, тоже Аноним (ok), 14:56, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Ну, расскажите, что мешает организовать "колпак" для конкретного человека без всего этого цирка с датацентрами. Разве что Конституция, но этим пакетом на нее уже положили...
     
  • 3.15, НиколайИванович (?), 16:03, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Разработчики -- австралиец и немка, языки -- английский и немецкий. Но использовать это дело будут, понятно, для реализации "пакета Яровой"
     
     
  • 4.32, Вареник (?), 01:21, 21/10/2016 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Прикрутят. На этот раздел IT как раз денег не жалеют.
     

  • 1.7, adolfus (ok), 14:28, 20/10/2016 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Ничего нового. Двадцать лет назад в IBM OS/2 4.0 Merlin была обучаемая распознавалка голоса, кажется Voice Type она называлась. Даже в коробочной настройке она позволяла отдавать голосом команды программам, которые имели пулл-даун и/или контекстное меню. По-английски, разумеется. Работало достаточно четко даже с моим английским произношением. Говоришь ему слитно "файл оупен" -- открывает диалог ввода имени файла, говоришьс паузой "файл" ... "оупен" -- открывает сначала пуллдаун File, потом сдвигает курсор на Open и открывает диалог. Вначале кое-какие косяки были, но потом система подстраиваласть под особенности произношения.
     
     
  • 2.16, Аноним (-), 16:24, 20/10/2016 [^] [^^] [^^^] [ответить]  
  • +2 +/
    А это без подстройки, сразу работает. И не небольшое число ключевых слов, а полноценный естественный язык с десятками тысяч слов. Но вероятность ошибки 10%, и от неё так просто не избавишься.

    А распознавание небольшого числа голосовых команд на телефонах было уже в начале 2000х. Тоже с предварительным обучением голосом хозяина.

     
     
  • 3.40, Аноним (-), 12:56, 21/10/2016 [^] [^^] [^^^] [ответить]  
  • –1 +/
    А еще была софтина с SoundBlaster AWE32.
     

  • 1.35, Аноним (-), 02:36, 21/10/2016 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    А можно на Си или на Python? а не на то и другое... (
     
  • 1.36, Аноним (-), 02:42, 21/10/2016 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    ) Если на их сайте пролистать вниз - SPACY IS TRUSTED BY -- https://foxtype.com/ -- интересно выходит, если посмотреть с этой точки зрения - этож ее к почтовику прикрутить можно )
     
  • 1.44, BeRUS (ok), 10:32, 22/10/2016 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А то что в дройде для распознавания речи используется, не из этой ветки?
     
  • 1.46, Аноним (-), 10:57, 24/10/2016 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    смесь бидона и сей для "обработки на естественном языке" писать? это шедеврально.
    про логическое программирование авторы не слышали.
    ну или не осилили соотв ЯП, возможно.
     
     
  • 2.48, Anonymissimus (?), 06:55, 25/10/2016 [^] [^^] [^^^] [ответить]  
  • +/
    Если ты такой умный, то где твоя реализация?
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру