The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Mozilla развивает свою систему распознавания речи

21.07.2017 10:13

В рамках проекта по развитию собственной открытой системы распознавания речи компания Mozilla ввела в строй сервис Common Voice, нацеленный на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или поучаствовать в оценке качества данных, добавленных другими пользователями.

Целью инициативы является накопление 10 тысяч часов c записями различного произношения типовых фраз человеческой речи. На основе полученных данных будет сформирована открытая и бесплатная база данных, которую без ограничений можно будет использовать в системах машинного обучения и в исследовательских проектах. В текущем виде база Common Voice формируется только для английского языка, но в дальнейшем планируется запустить аналогичные проекты по сбору голосовой информации и для других языков.

Подготовленная в Mozilla база может оказаться полезной и для других открытых проектов в области распознавания речи, таких как Sphinx, Kaldi, VoxForge, ISIP, HTK и Julius. В настоящее время исследователям и разработчикам доступны только ограниченные наборы, а стоимость полноценных коллекций голосовых выборок исчисляется десятками тысяч долларов, что сильно тормозит независимые исследования в области распознавание речи.

Сервис запущен как дополнение к более глобальному проекту, в рамках которого планируется выпустить полностью свободную систему распознавания речи, которая использует современные методы машинного обучения. В отличие от уже имеющихся решений проект Mozilla подразумевает построение и открытие качественной модели для систем машинного обучения, а также реализацию расширенных алгоритмов для более точного выделения речи при наличии постороннего шума. В основе проекта Mozilla лежит движок DeepSpeech, созданный с использованием открытой компанией Google платформы машинного обучения TensorFlow. DeepSpeech реализует в коде одноимённую архитектуру распознавания речи, предложенную исследователями из компании Baidu.

DeepSpeech значительно проще традиционных систем и при этом обеспечивает более высокое качество распознавания при наличии постороннего шума. Из достоинств также отмечается отсутствие необходимости подключения отдельных компонентов для моделирования различных отклонений, таких как шум, эхо и особенности речи. DeepSpeech не использует традиционные акустические модели и концепцию фонем, вместо которых предлагается использовать хорошо оптимизированную систему машинного обучения на основе нейронной сети. Что касается качества распознавания, то DeepSpeech демонстрирует заметно более низкий уровень ошибок, по сравнению с коммерческими системами Google Speech, Bing Speech и Apple Dictatio.

Обратной стороной DeepSpeech является то, что для получения качественного распознавания данная архитектура требует большого объёма разнородных данных для осуществления обучения (недостаточно просто диктовки фраз в студии, нужны варианты в реальных условиях с разными голосами, шумами, фоновой речью, акцентом и т.п.). Уже существующие открытые проекты, такие как LibriSpeech, накопили базу в примерно 1 тысячу часов стенографированной речи, в то время как для достижения приемлемого уровня ошибок в DeepSpeech требуется как минимум 10 тысяч часов. Кроме того, данные LibriSpeech в основном отражают только каноническое произношение носителем языка, в то время как проект Mozilla пытается охватить любые произношения и обеспечить хороший уровень распознавания английского языка не только для американцев и англичан.

Для использования распознавания речи в online-приложениях и на мобильных устройствах Mozilla разрабатывает систему Pipsqueak, представляющую собой серверное решение на основе архитектуры DeepSpeech. Для взаимодействия с движком планируется использовать Web Speech API. При этом движок будет достаточно легковесным и способным работать даже на портативных системах, таких как Raspberry Pi 3.

  1. Главная ссылка к новости (https://news.ycombinator.com/i...)
  2. OpenNews: Тестовый выпуск свободной системы распознавания речи Simon 0.4.80
  3. OpenNews: Facebook представил модульную систему машинного обучения Caffe2
  4. OpenNews: Выпуск системы машинного обучения TensorFlow 1.0 и классификатора изображений ResNeXt
  5. OpenNews: Представлен Sirius, открытый персональный ассистент, напоминающий Apple Siri и Google Now
  6. OpenNews: Выпуск spaCy 1.0, библиотеки для обработки информации на естественном языке
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/46892-voice
Ключевые слова: voice, speech, mozilla
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (64) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (-), 10:42, 21/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +41 +/
    Вот системы распознавания речи мозилле и не хватало. Теперь заживем.
     
     
  • 2.2, Аноним (-), 10:47, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Если мозилла оставит браузер в покое, или даже вернёт как было, и займётся распознаванием речи, то это будет прекрасно
     
     
  • 3.10, Аноним (-), 11:33, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Аноним не знает, что распознавание речи - это часть современного бровайзера? https://dvcs.w3.org/hg/speech-api/raw-file/tip/speechapi.html
     
     
  • 4.34, Crazy Alex (ok), 14:02, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Так половина этих стандартов - адовая чушь, и что с того?
     
  • 4.60, Михрютка (ok), 21:57, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    "It is not a W3C Standard nor is it on the W3C Standards Track."

    аноним не умеет в понимать написанное?

     
  • 4.84, username (??), 09:19, 23/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    только гуглоподелок, в сафари нет никаких иконок с микрофоном.
    как страдаю даже не передать словами.
     
  • 3.29, Аноним (-), 13:50, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Походу, поздно уже.
     
  • 2.46, Аноним (46), 17:46, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    На наш рынок идти с таким названием распознования речи - грех)
     

  • 1.3, Аноним (-), 10:57, 21/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +19 +/
    Лишь бы браузером не заниматься (с) opennet-user
     
     
  • 2.14, rshadow (ok), 11:52, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    У мозиллы много хороших проектов. Особенно те которые в которых минимум маркетинга, а больше дела.
     
     
  • 3.70, Sluggard (ok), 00:43, 22/07/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Например, не считая Rust?
    От Громоптички они отказались, Огнелис скатили в гoвнo, ОС свою выкинули на помойку...
     
     
  • 4.71, mumu (ok), 02:22, 22/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Синхронизация вроде там вполне годно работает. И можно ставить на свой сервер, в отличии от прочих.
     
     
  • 5.73, Аноним (-), 03:27, 22/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Но в новых версиях лисы сменить URL совсем не просто и не дружественно.
     
  • 5.77, Sluggard (ok), 11:42, 22/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    И всё это с криками «Банкай!» и «Гетсуга теншо!»? =)
     
  • 2.23, Коробов (?), 13:07, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    А потом в ведро выкинут. Норм, чё.
     

  • 1.4, iPony (?), 11:05, 21/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Тут всякие линуксоиды будут бугуртить как всегда о не нужности.
    Но на самом деле это круто, и в этом будущее.
    Рекомендую потыкать палочкой https://mycroft.ai - можно поставить на ту же Raspberry Pi

    PS: а особо продвинутые могут предзаказать Марка Первого https://mycroft-ai.backerkit.com/hosted_preorders/83518 - будет помогать по дому

     
     
  • 2.7, Zoolander (?), 11:30, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    По-русски понимает?
     
     
  • 3.56, Аноним (-), 20:24, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > По-русски понимает?

    А зачем? Сидеть и командовать (голосом) - удел белых господ. Их язык, собственно, и записывают.

     
     
  • 4.69, RobotsCantPoop (?), 23:40, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Ждём систему распознавания негров от Mozilla?
     
  • 2.15, Аноним (-), 11:53, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Mycroft мошенники, когда они кроудфандинг проводили весь их искусственный интеллект распознавания речи сводился к обращению к Google API из Python скрипта.

    Спустя два года ситуация не сильно изменилась https://github.com/MycroftAI/adapt та же Python обвязка с кучей регекспов для разбора фраз в лоб. Никаким AI там и не пахнет.

    https://github.com/MycroftAI/mycroft-core/tree/dev/mycroft/stt

     
     
  • 3.16, Аноним (-), 12:04, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +5 +/
    Для тех кто не понял: Стоит у вас на тумбочке такой MycroftAI и всё что вы говорите в шлёт вначале на сервер api.mycroft.ai, а потом ещё отправляет в Google Voice для перевода в текст. Джордж Оруэлл о таком и не предполагал, что леминги сами будут телекраны себе ставить и с собой носить.
     
     
  • 4.74, Аноним (-), 03:32, 22/07/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Кусок питона который выполняет роль прокси к гуглу. Поняши одобряют. Организаторы лоханувшие фаундеров тоже не в накладе.
     
  • 2.18, Аноним (-), 12:33, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ненужности этого для браузера не отменяет.
     

  • 1.5, Аноним (-), 11:14, 21/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Если они сделают, что-то получше, чем в остальных, то удачи им. А если это очередной велосипед, который закроют через полгода, то нинужна.
     
  • 1.6, Pinkie (?), 11:30, 21/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Они что, занимаются чем угодно, лишь бы браузер не пилить?
     
     
  • 2.9, Аноним (-), 11:32, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    И это прекрасно!
     
     
  • 3.11, Pinkie (?), 11:35, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Было бы. Если бы браузер не трогали. А то "мы сделаем круглые вкладки, а потом сделаем квадратные, мы сделаем меню плитками а потом сделаем меню списком". Прямо как депутаты с зимним временем играются.
     
     
  • 4.13, A.Stahl (ok), 11:48, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +5 +/
    О да -- форма закладок это что-то неимоверно важное. Как вообще можно пользоваться квадратными вкладками, да? 100 программистов 100 дней и 100 ночей меняют 100 вкладок. Ты действительно думаешь, что развитие браузера и форма вкладок как-то пересекаются? Рекомендую тебе 100 дней воздерживаться от наркотиков.
     
     
  • 5.35, Crazy Alex (ok), 14:03, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –3 +/
    Есть такое понятие - "пример".
     
     
  • 6.44, Sw00p aka Jerom (?), 15:54, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    есть ещё понятие "контр-примера" )
     
  • 5.59, Аноним (-), 21:57, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Стахл, тебе стоит воспользоваться собственной рекомендацией, ибо твой ответ нельзя назвать ни конструктивным, ни адекватным.
     

  • 1.8, Аноним (-), 11:31, 21/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Мозилла поможет корпорации бабла с записями проклятий юзеров.
     
  • 1.17, Дарья (??), 12:32, 21/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Каждый год читаю как тот или иной опенсорсный проект развивает свою систему распознавания речи - а воз и ныне там. Пробовал почти все, из последнего какой-то KDE'шный проект, ни один ничего не распознает. Им бы объединиться и создать действительно что-то дельное, но нет.
     
     
  • 2.19, A.Stahl (ok), 12:39, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    >Им бы объединиться

    А если объединить ГАЗ и Cеверо-Заливский Теплоходный электро-механический завод, то они смогут выпускать космические ракеты? Нет? А почему?

     
     
  • 3.55, Аноним (-), 20:22, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    >Нет? А почему?

    В первую очередь потому, что ты, вместо того, чтобы проект звездолёта разрабатывать, сидишь и питросянские комменты в промышленных объёмах производишь,

     
     
  • 4.57, A.Stahl (ok), 20:38, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ну нихрена себе! Оказывается это я во всём виноват? Это из-за меня Россиюшка в такой жопочке? Не Путин, не правительство, не человекоящеры даже. А я. Вот оно как.
     
     
  • 5.68, Аноним (-), 23:38, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Наконец-то ты это понял. Новую жизнь, как обычно, с понедельника начнёшь?
     
  • 2.24, iPony (?), 13:12, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –2 +/
    > ни один ничего не распознает

    Я тут вот сири решил попробовать. Обрадовался, что не нужно будет копытами махать. ВОт оно - будущее.
    Но как громко не орал в микрофон - все равно пишет "Siri вас не слышит". Открыл настройки микрофона, выставил на максимальное все. Уровень показывает, что звук регистрируется микрофоном. Но все равно - Siri не слышит.

     
     
  • 3.25, Аноним (-), 13:14, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Под "не слышит" вполне может быть "не понимает, считает за уличный шум". Попробуй не орать.
     
     
  • 4.28, A.Stahl (ok), 13:42, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +7 +/
    Анализатор рассчитан на человеческую речь, а не на и-го-го. Так что ничего не выйдет.
     
     
  • 5.72, Аноним (-), 02:41, 22/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Ну не знаю... Я в микрофон гимн России пропукал, распознался.
     
  • 3.32, Аноним (-), 13:56, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Я надеюсь, ты на Ондроеде свою китайскую Сири открывал?
     
     
  • 4.38, iPony (?), 14:17, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    На макбуке... А в интернетах всё про айфоны пишут.
     
     
  • 5.61, Аноним (-), 22:04, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    > На макбуке... А в интернетах всё про айфоны пишут.

    На айфоне нормально слышит, но понимает плохо, а ответы сводятся к "Вот что я нашла в интернетах". Короче уши есть - осталось мозг дописать.

     
  • 2.40, Аноним (-), 15:24, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Может, от того, что он опенсорсный? Вот в навигаторе адрес распознает с вероятностью 999 из 1000
     

  • 1.47, Zoolander (?), 18:10, 21/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Сири, как и автопилоты в авто поумнеют лет через 15. Не раньше.
     
     
  • 2.64, Led (ok), 22:39, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Автопилоты в авто уже умнее 99% "водителей".
     
     
  • 3.82, Аноним (-), 08:12, 23/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    Это они просто так ловко притворяются, моргая поворотами при поворотах.
     

  • 1.48, Дуплик (ok), 18:12, 21/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Лучше бы Firefox под Wayland допилили. Стыд и срам, на дворе 21 век, а их браузер всё ещё зависит от X.Org
     
     
  • 2.49, soarin (ok), 18:18, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Лучше бы Firefox под Wayland допилили.

    Ну так если, wayland используют этак 0.01% их аудитории. То такой и приоритет.

     
     
  • 3.51, Аноним (-), 18:29, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Не так. 0.01% аудитории от 1.5% всей аудитории браузера.


     
     
  • 4.54, soarin (ok), 20:15, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –2 +/
    ну так и это будет практически 0.01%
     
  • 2.75, Аноним (-), 05:45, 22/07/2017 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > браузер всё ещё зависит от X.Org

    На Windows уже завезли X.Org? Или все-же не зависит?

     
     
  • 3.79, Аноним (-), 17:02, 22/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Вот ждём. С нетерпением. Хоть так приобщимся к Богоподобному.


     

  • 1.58, Аноним (-), 21:50, 21/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Когда они уже браузер сделают нормальный? Или, по всей видимости, уже никогда?
     
     
  • 2.62, Аноним (-), 22:06, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +/
    > Когда они уже браузер сделают нормальный? Или, по всей видимости, уже никогда?

    Уже делали, не помогло.

     

  • 1.63, Аноним (-), 22:12, 21/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Еще и распозновалка речи? Когда там их гугл лишит бабла совсем,, задрали дурью маяться.
     
  • 1.65, Аноним (-), 23:21, 21/07/2017 [ответить] [﹢﹢﹢] [ · · · ]  
  • –2 +/
    Еще немного и я таки пойду откапывать движок presto.
     
     
  • 2.66, Led (ok), 23:23, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > Еще немного и я таки пойду откапывать движок presto.

    Не забудь и presto-интернет откопать, землекоп.

     
     
  • 3.67, Аноним (-), 23:31, 21/07/2017 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Так интернет разве не в земле? Да и он не так уж и устарел, presto то. Всяко проще его было бы допилить, чем servo сделать. Но придется изгибаться в стиле reactos. Или как сейчас распространяют патчи. Просто Mozilla точно то скоро перейдет на blink (webkit).
     
     
  • 4.76, iPony (?), 07:27, 22/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > Да и он не так уж и устарел, presto то. Всяко проще его было бы допилить, чем servo сделать.

    Только с дивана так может показаться.

     
     
  • 5.78, Аноним (-), 11:44, 22/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Всяко лучше мусорки современных движков. Закрыли скорее по другим не техническим мотивам.
     
  • 4.80, Аноним (-), 17:08, 22/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Да, помню как веб-девелоперы "любили" presto в его живую бытность. А пользователи той Оперы были сильно похожи на линуксоидов, их было мало и они были злобными. И верещали аналогично: на этом сайте фрейм на фрейм наезжает, формочки не работают - плёхой сайт, не буду на него ходить. А этот вообще не открывается - ну, значит мне он нинужен(c)


     
     
  • 5.81, Аноним (-), 22:05, 22/07/2017 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Так надо писать согласно веб-стандартам.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру