Проект Mozilla выпустил открытую систему распознавания речи

29.11.2017 20:11

Проект Mozilla опубликовал первый выпуск модели для системы машинного обучения, ориентированной на распознавание речи. Также опубликован использованный для тренировки модели набор голосовых данных, собранный в результате инициативы Common Voice и включающий примеры произношения около 20 тысяч людей, которые надиктовали почти 400 тысяч записей суммарной продолжительностью 500 часов.

Благодаря участию в проекте большого числа добровольцев, удалось сформировать одну из крупнейших баз голосовых шаблонов, учитывающих всё разнообразие голосов и манер речи. Собранная база позволила натренировать модель для системы машинного обучения до уровня распознавания речи, при котором число ошибок примерно соответствует распознаванию обычным человеком при прослушивании тех же записей. В текущем виде число ошибок распознавания составляет 6.5% при использовании тестового набора LibriSpeech. Для сравнения, уровень ошибок при распознавании человеком оценивается в 5.83%, а уровень ошибок при работе Google Speech составляет 6.64%, wit.ai - 7.94%, Bing Speech - 11.73%, Apple Dictation - 14.24%.

В основе системы распознавания речи Mozilla лежит движок DeepSpeech, созданный с использованием открытой компанией Google платформы машинного обучения TensorFlow. DeepSpeech реализует в коде одноимённую архитектуру распознавания речи, предложенную исследователями из компании Baidu. Предложенный Mozilla набор помимо модели распознавания речи и примеров произношения включает готовые к применению модули для Python и NodeJS, позволяющие без лишних усложнений встроить в свои программы функции распознавания речи. Также поставляется инструментарий для распознавания из командной строки. Движок распознавания речи достаточно быстр и не требователен к ресурсам, что позволяет использовать его даже на платах Raspberry Pi.

DeepSpeech значительно проще традиционных систем и при этом обеспечивает более высокое качество распознавания при наличии постороннего шума. В разработке не используются традиционные акустические модели и концепция фонем, вместо них применяется хорошо оптимизированная система машинного обучения на основе нейронной сети, что позволяет обойтись без разработки отдельных компонентов для моделирования различных отклонений, таких как шум, эхо и особенности речи. Особенностью DeepSpeech является то, что для получения качественного распознавания данная архитектура требует большого объёма разнородных данных для осуществления обучения, надиктованных в реальных условиях разными голосами и при наличии естественных шумов.

Опубликованный набор голосовых данных не ограничен применением в DeepSpeech и может оказаться полезным и для других открытых проектов, занимающихся распознаванием речи, таких как Sphinx, Kaldi, VoxForge, ISIP, HTK и Julius. До сих пор исследователям и разработчикам были доступны только ограниченные наборы голосовых данных, а стоимость полноценных коллекций голосовых выборок исчислялась десятками тысяч долларов, что сильно тормозило независимые исследования в области распознавание речи. В настоящее время работа сосредоточена только на распознавании английского языка, но в первой половине 2018 года планируется приступить к сбору примеров произношения для других языков.

исправить +31 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/47648-mozilla

Ключевые слова: mozilla, voice, speach

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (57)

1.2, Аноним (-), 20:54, 29/11/2017 [ответить] [﹢﹢﹢] [ · · · ]	+7 +/–
Качественное распознавание голоса без зондов, впервые.

2.19, Аноним (-), 22:29, 29/11/2017 [^] [^^] [^^^] [ответить]	–10 +/–
Мозилла? Без зондов? Хорошая шутка. В браузере килотонны телеметрии.

3.23, Аноним (-), 22:41, 29/11/2017 [^] [^^] [^^^] [ответить]	+4 +/–
Как вы тут такие вообще представляете себе распознавание речи без телеметрии и накоплении глобальных баз данных?

4.28, Аноним (-), 22:53, 29/11/2017 [^] [^^] [^^^] [ответить]	–4 +/–
Да-да, отличная причина толкать всем умные телевизоры сосунг со встроенными микрофонами и камерой. Замечательное оправдание. ;)

5.31, Аноним (-), 23:00, 29/11/2017 [^] [^^] [^^^] [ответить]

+2 +/–

Да-да, отличная причина толкать всем умные телефоны сосунг со встроенными микрофонами
и камерой. Замечательное оправдание. ;)

#оченьбыстрофикс

5.36, Вулх (?), 23:23, 29/11/2017 [^] [^^] [^^^] [ответить]	+/–
Где новость, а где телевизоры, вы читали тест новости и текст комментария на который отвечаете?

5.56, Аноним (-), 20:39, 30/11/2017 [^] [^^] [^^^] [ответить]	+1 +/–
Со временем уберут, надо только научиться мыслепреступления прямо из мозга считывать.

3.44, meequz (ok), 11:06, 30/11/2017 [^] [^^] [^^^] [ответить]	+/–
По-твоему, телеметрия и зонды это синонимы?

4.50, Аноним (-), 13:30, 30/11/2017 [^] [^^] [^^^] [ответить]	–1 +/–
Применительно к Веб - да.

2.66, Аноним (-), 16:20, 01/12/2017 [^] [^^] [^^^] [ответить]	+/–
> Качественное распознавание голоса без зондов, впервые. За мозиллой это еще неплохо бы проверить. Там какая-то питонятина навалена, да еще с предложением вгружать ее по сети, без аутентификации. Что там реально закачается в результате, одному ктулху известно.

1.3, Аноним (-), 20:54, 29/11/2017 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
Чего говорите, "расширения отвалились"? Извините, мы делаем очередную распознавалку речи.

1.4, Free Speech (?), 20:55, 29/11/2017 [ответить] [﹢﹢﹢] [ · · · ]

+23 +/–

Херня все это. KDE тоже 100 лет назад что-то выпустил, a воз и ныне там. Вот нашел - Simon называется. Она даже английский за столько лет нормально распарсить не научилась, остальных языков при нашей жизни точно не дождемся.

https://simon.kde.org/

Есть еще несколько опенсорсных распознавалок речи, и все они мягко говоря так же в жопе. Почему с мозиллой будет по-другому?

2.5, A.Stahl (ok), 21:00, 29/11/2017 [^] [^^] [^^^] [ответить]

–3 +/–

>Почему с мозиллой будет по-другому?

Дай я тебе помогу и процитирую немного статью. Там просто нужная для тебя информация была через очень-очень много букв и ты, видимо, устал читать.

>Число ошибок распознавания составляет 6.5% ... уровень ошибок при распознавании человеком оценивается в 5.83%

3.6, Виталий Нилл (?), 21:12, 29/11/2017 [^] [^^] [^^^] [ответить]	+17 +/–
Давай теперь я тебе кое-что расскажу. Уже 10 лет читаю, не меньше, в пресс-релизной инфе вот таких опенсорсных поделий, похожие цифры: "Мы добились офигительных результатов, высокая точность распознавания и все такое". 10 лет читаю, а в дистрибутивах до сих пор тыкаюсь мышкой и набираю с клавиатуры. Вопрос: Если все в вашей реальности так о%енно, то почему обещания не превращаются в нечто материальное? В то чем можно пользоваться в повседневности? Нахрен все это, если мы будем тыкаться мышкой и клавой еще 10 лет?

4.8, A.Stahl (ok), 21:27, 29/11/2017 [^] [^^] [^^^] [ответить]	–7 +/–
Не знаю как там в вашей рельности уродило сено, но в моей всякие Сири/Кортаны и прочие давно уже заняли нишу и показывают хорошие результаты. Попробуй ковокс отключить -- его писки могут заглушать твой голос мешая распознаванию.

5.10, zubastik (?), 21:35, 29/11/2017 [^] [^^] [^^^] [ответить]	+9 +/–
Мсье тyпой или прикидывается? С каких пор сири/кортавая стала опенсорсом? Почему ты сравниваешь закрытый коммерческий продукт титанов индустрии с наколенными бесплатными опенсорсными пoделками?

6.11, A.Stahl (ok), 21:38, 29/11/2017 [^] [^^] [^^^] [ответить]	–4 +/–
Потому что новость почитай. На базе чего сделана эта титаническая "наколенная поделка". Впрочем, у меня бисер закончился. На сегодня хватит.

7.46, Аноним (-), 11:09, 30/11/2017 [^] [^^] [^^^] [ответить]

+2 +/–

На базе открытой платформы со странными лицензиями?

Однако, приводя в пример закрытые системы в виде Кортавой и Сри, в таком случае стоит вспомнить IBM и из OS/2 3 Warp, в которой распознавалка IBM ViaVoice шла "из коробки". К сожалению, только английский был. Русским они тоже делали вместе с нашими специалистами, но, видимо, всё заглохло. Зато эта ViaVoice была портирована в Linux и распространялась бесплатно, но оставалась закрытой.

Так что ваши Картаны и проч. -- хомячкой пример, что не удивительно.

Мазила изобрела велосипед. Дело нужное.

8.47, Клыкастый (ok), 12:18, 30/11/2017 [^] [^^] [^^^] [ответить]	+2 +/–
и работала же, зараза такая правда люди всё попадались непередовые поиграются ... текст свёрнут, показать

9.51, Аноним (-), 13:37, 30/11/2017 [^] [^^] [^^^] [ответить]	+/–
Так и представляю гиков в консоли без клавы, но с голосовым вводом ... текст свёрнут, показать

10.57, Аноним (-), 20:43, 30/11/2017 [^] [^^] [^^^] [ответить]	+/–
И с трехмертым пальцетыкательным интерфейсом И требование диплома об окончании ... текст свёрнут, показать

8.69, Аноним (-), 17:27, 01/12/2017 [^] [^^] [^^^] [ответить]	+/–
Когда мозилла изобретает велосипед, получается ашанбайк-двухподвес Тяжелый, кри... текст свёрнут, показать

6.33, Аноним (-), 23:10, 29/11/2017 [^] [^^] [^^^] [ответить]	+/–
Пробовал Кортаной проги запускать, работало только на некоторых. А на "open telegram" после нескольких неудач начало искать в инете "woman taliban"...

7.38, Аноним (-), 23:45, 29/11/2017 [^] [^^] [^^^] [ответить]	–2 +/–
Половина зубов хотя бы на месте? Что с прикусом? Я честно хз с ваших проблем с Кортаной на англ. Я с Сири плотно шпарю по-русски уже пару лет. А она только расцветает, красава ;) Она у меня даже склонения имён и фамилий из контактов распознаёт. Я могу ей давать задания почти как живому человеку. Ему(!) давать задания - кому как нравится.

8.49, microsoft (?), 13:05, 30/11/2017 [^] [^^] [^^^] [ответить]	+/–
понимаете какое дело - суть картавой не в хорошем угадаве речи, а в хорошем угад... текст свёрнут, показать

9.58, Аноним (-), 20:45, 30/11/2017 [^] [^^] [^^^] [ответить]	+/–
Майкроствт гнобит Кортану Предсказуемо Впрочем, все равно надо идти на речной ... текст свёрнут, показать

6.45, username (??), 11:09, 30/11/2017 [^] [^^] [^^^] [ответить]	+/–
Мало того, сири в машине не англ имена и фамилии крайне плохо распознает. Может бы и пользовался для набора но пока внучную в с меню быстрее будет.

4.21, rshadow (ok), 22:33, 29/11/2017 [^] [^^] [^^^] [ответить]	+/–
Все распознавалки которые я щупал были похожи на выдернутые откуда то потрошка. Куски кода, без вменяемого интерфейса. Они работали, и даже неплохо, но чтобы их применить нужно быть программистом. Есть отличные наработки, а законченные продукты только у проприетарщиков. Тот же SaLT например: кормишь ему словарь из нескольких слов и он четко определяет какое слово произнесено, но блин просто срет логом и даже через пайп не понятно как команду запустить на конкретное слово. Как в том анекдоте: ответ абсолютно верный, и абсолютно бесполезный.

4.63, Anonymoustus (ok), 10:10, 01/12/2017 [^] [^^] [^^^] [ответить]	+/–
10 лет? Посмеялся, спасибо. Эти занимаются уже несколько десятилетий, да при финансировании и поддержке, да при невероятном улучшении доступных аппаратных ресурсов — но всё как-то без решительных побед.

3.67, Аноним (-), 16:22, 01/12/2017 [^] [^^] [^^^] [ответить]	+/–
>>Число ошибок распознавания составляет 6.5% ... уровень ошибок при распознавании человеком оценивается в 5.83% А еще каждый год выходят прессрелизы о том что придумана новая технология аккумуляторов, так что вот-вот гаджеты будут работать целый год без подзарядки. Но пока единственный такой гаджет - наручные часы. Не умные нифига, да и то если подсветкой не сильно пользоваться.

2.9, Ordu (ok), 21:34, 29/11/2017 [^] [^^] [^^^] [ответить]

+1 +/–

> KDE тоже 100 лет назад что-то выпустил

Даже если бы он выпустил что-то не 100 лет назад, а 10, то это пoдeлиe морально устарело бы и единственным подходящим ему местом был бы музей. С тех пор технологии распознавания речи продвинулись очень сильно. Причём не только в теоретическом плане, но и в технологическом -- сегодня есть, например, тот же тензорфлоу.

Плюс в новости же есть описание, что мало всяких там технологий, Мозилла создала базу данных для обучения: эти данные сегодня -- полдела в разработке очередного применения AI.

3.17, Аноним (-), 22:18, 29/11/2017 [^] [^^] [^^^] [ответить]	+/–
Значит скоро нас ждут большие возможности?? Или не ждут. Я запутался.

4.73, mommy (?), 08:55, 13/01/2020 [^] [^^] [^^^] [ответить]	+/–
Неа не будут, тезор выпилен из дебианов ибо собираецо соожна

2.12, Я. Р. Ош (?), 22:02, 29/11/2017 [^] [^^] [^^^] [ответить]	+1 +/–
Начнём с того, что это не KDE изначально выпустила этот проект. Остальной твой звиздежь, если продраться через школололо обороты, такого же качества и достоверности.

2.34, Виталий (??), 23:14, 29/11/2017 [^] [^^] [^^^] [ответить]	+/–
так раньше на телеге ездили, не все сидят и ждут как ты не получилось у тебя аргументированной критики дружище

2.48, iPony (?), 12:27, 30/11/2017 [^] [^^] [^^^] [ответить]	+/–
> Херня все это. KDE тоже 100 лет назад что-то выпустил, a воз и ныне там... Почему с мозиллой будет по-другому? Сравнивал называется наколенных делателей десктопа, которых уже даже из Suse Enterprise выгнали с крупным игроком браузерного рынка.

1.18, разговоры с браузером (?), 22:20, 29/11/2017 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Когда запилят в браузер? Будет ли встроенная телеметрия по сбору голосов в АНБ?

2.20, АНБ (?), 22:30, 29/11/2017 [^] [^^] [^^^] [ответить]	+5 +/–
ты чо, совсем дурак, что-ли? Мы для чего эту технологию-то спонсируем, чтоб тонны твоего унц-унц-унц хранить на своих дисках? Телеметрия будет собирать не голос, а распознанный текст, в котором мы сможем пользоваться удобным поиском.

3.30, Аноним (-), 22:54, 29/11/2017 [^] [^^] [^^^] [ответить]	+1 +/–
Я тебе недоверяю.

4.40, АНБ (?), 00:12, 30/11/2017 [^] [^^] [^^^] [ответить]	+1 +/–
А для нас это и не важно.

3.71, ЦРУ (?), 12:26, 02/12/2017 [^] [^^] [^^^] [ответить]	+/–
Коллеги, не хотелось мне о работе но ладно. Не надо заниматься распознаванием на устройстве, потом не проверить ж. Проще к нам высылать, а мы там это как можем. Люди разные бывают, поэтому иногда тут только ручной анализ работает.

1.22, Аноним (-), 22:40, 29/11/2017 [ответить] [﹢﹢﹢] [ · · · ]	–2 +/–
Я думаю, что до той же Сири там всегда будет как до Китая раком, хотя бы потому, что пользователей Сири не спрашивают, что они хотят передавать голосом на серверы, а что нет. Последние пару лет я везде где возможно использую голосовое взаимодействие с устройствами и меня эта тётка уже реально пугает. 4 года назад ещё так не пугала. С ней уже можно просто разговаривать, чего никак не скажешь о гугль-ассистенте, хотя, казалось бы, должно быть наоборот. Видимо, у двух компаний разный кпд и выхлоп ;)

2.26, Аноним (-), 22:51, 29/11/2017 [^] [^^] [^^^] [ответить]	+/–
Я думаю он вообще не выйдет. Пошумят и заглохнет, как всегда.

3.41, Аноним (-), 02:58, 30/11/2017 [^] [^^] [^^^] [ответить]	+/–
А знаете ведь так и есть в крупных компаниях вообще очень сложно сделать любое начинание. В основном сплошной саботаж. Это я сейчас про Microsfot в частности говорю. Хотя сверху все вполне красиво выглядит в самом низу полнейший кошмар ... К сожалению, жто и погубит майкрософт скорее всего да впрочем любуюкомпанию. У меня деж теория есть что развиваться может только небольшой стратап остальные только стагнировать и умирать...

2.37, Виталий (??), 23:43, 29/11/2017 [^] [^^] [^^^] [ответить]	+/–
Похоже вы путаете распознавание голоса с искусственным интеллектом и биг датой используемые в сири для общения с вами.

2.64, Anonymoustus (ok), 10:16, 01/12/2017 [^] [^^] [^^^] [ответить]	+/–
Сири только притворяется тёткой. На самом деле в аппаратной сидят бородатые индусы в наушниках с микрофоном.

1.42, Аноним (-), 10:12, 30/11/2017 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Вы видели картинки этой системы? Как можно что-то в нее сказать, если во рту микрофон в виде лакомки???

1.43, Аноним (-), 11:00, 30/11/2017 [ответить] [﹢﹢﹢] [ · · · ]	+2 +/–
Для русского языка имхо лучше KALDI с натренировонной моделью http://alphacephei.com/kaldi/kaldi-ru-0.3.tar.gz в опенсорсе ничего нет. Есть ещё sphinx, тоже хорош и тренируем. Но Kaldi показала лучше. Был loguendo ASR, но он продавался только телекомам за какие то неопредлённые деньги, а сейчас вообще в недрах nuance канул. Да и без исходников он был. Так что для русского языка KALDI очень хорош. Каналы по теме https://t.me/cmusphinx https://t.me/cmusphinx_ru

1.52, Аноним (-), 14:46, 30/11/2017 [ответить] [﹢﹢﹢] [ · · · ]	+/–
а саму модель-то я не нашёл.

2.54, Alex (??), 18:39, 30/11/2017 [^] [^^] [^^^] [ответить]	+/–
https://github.com/mozilla/DeepSpeech/releases/download/v0.1.0/deepspeech-0.1.

1.55, rvs2016 (ok), 20:33, 30/11/2017 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
А кто-нибудь делает ли системы распознавания речи, которые умеют эту речь распознавать без интернета? А то распознают речь не на устройствах пользователя, а на своих серверах, к которым доступ может в любое время отвалиться и ещё чем-то там пытаются гордиться. :-)

2.61, Аноним (-), 03:57, 01/12/2017 [^] [^^] [^^^] [ответить]	+1 +/–
вот как раз Мозилла и сделала такую. Есть ещё cmu sphinx и julius, но это по сравнению с нейросетевыми вообще рандом.

3.65, Аноним (-), 12:38, 01/12/2017 [^] [^^] [^^^] [ответить]	+/–
KALDI на нейросетках

1.62, Anonymoustus (ok), 10:06, 01/12/2017 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Браузер-то уже достиг совершенства — почему бы не попробовать силы в чём-то ещё.

2.68, Аноним (-), 16:23, 01/12/2017 [^] [^^] [^^^] [ответить]	+/–
> Браузер-то уже достиг совершенства — почему бы не попробовать силы в чём-то ещё. На вид это еще больше макет программы чем мозильский браузер.

1.70, DmA (??), 23:11, 01/12/2017 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Чтобы сделать нормальную распознавалку речи, нужно начинать не с какого-то одного языка, а с распознавания международного фонетического алфавита(фактически всех звуков, которые использует горло для передачи звуков речи). Далее создавать словари всех языков мира, в которых слова на каком-то языке записаны символами этого международного алфавита и искать по базе слов.Если такой набор звуков есть а нескольких языках, то тут уже спрашивать у человека, какой он предпочитает язык выдачи.

1.72, rvs2016 (ok), 15:33, 13/11/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
А как эту систему распознавания речи прикрутить к своему сайту? Ну чтобы не гугло-распознавателями через гугло-серверы распознавать, а только через свой сервер.

игнорирование участников | лог модерирования

Добавить комментарий

Текст: