The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

Обновление голосовых данных Mozilla Common Voice 8.0

31.01.2022 09:18

Компания Mozilla представила обновление наборов голосовых данных Common Voice, включающих примеры произношения около 200 тысяч человек. Данные опубликованы как общественное достояние (CC0). Предложенные наборы можно использовать в системах машинного обучения для построения моделей распознавания и синтеза речи. По сравнению с прошлым обновлением объём речевого материала в коллекции увеличился на 30% - с 13.9 до 18.2 тысяч часов речи. Число поддерживаемых языков возросло с 67 до 87.

Набор для русского языка охватывает 2452 участника и 193 часа речевого материала (было 2136 участников и 173 часов), для белорусского языка - 6160 участников и 987 часов (было - 3831 участник и 356 часов), для украинского языка - 684 участника и 76 часов (было 615 участников и 66 часов). В подготовке материалов на английском языке приняли участие более 79 тысяч человек, надиктовавших 2886 часов подтверждённой речи (было 75 тысяч участников и 2637 часов).

Напомним, что проект Common Voice нацелен на организацию совместной работы по накоплению базы голосовых шаблонов, учитывающей всё разнообразие голосов и манер речи. Пользователям предлагается озвучить выводимые на экран фразы или оценить качество данных, добавленных другими пользователями. Накопленную базу данных c записями различного произношения типовых фраз человеческой речи без ограничений можно использовать в системах машинного обучения и в исследовательских проектах. По мнению автора библиотеки распознавания слитной речи Vosk недостатками набора Common Voice является однобокость голосового материала (преобладание людей мужского пола 20-30 лет, и недостаток материала с голосом женщин, детей и пожилых людей), отсутствие вариативности словаря (повторение одних и тех же фраз) и распространение записей во вносящем искажения формате MP3.

Дополнительно можно отметить выпуск инструментария NVIDIA NeMo 1.6, предоставляющего методы машинного обучения для создания систем распознавания речи, синтеза речи и обработки информации на естественном языке. В состав NeMo входят готовые натренированные модели для систем машинного обучения на базе фреймворка PyTorch, подготовленные компанией NVIDIA с использованием речевых данных Common Voice и охватывающие различные языки, акценты и формы речи. Модели могут оказаться полезными для исследователей, занимающихся созданием голосовых диалоговых систем, платформ для транскрипции и автоматизированных колл-центров. Например, NVIDIA NeMo применяется в автоматизированных голосовых сервисах МТС и Сбербанка. Код NeMo написан на языке Python с использованием PyTorch и распространяется под лицензией Apache 2.0.

  1. Главная ссылка к новости (https://discourse.mozilla.org/...)
  2. OpenNews: Обновление голосовых данных Mozilla Common Voice 7.0
  3. OpenNews: Инициатива по созданию полнофункциональной свободной системы распознавания речи
  4. OpenNews: Компания Mozilla представила движок распознавания речи DeepSpeech 0.9
  5. OpenNews: Facebook опубликовал открытую систему распознавания речи Wav2letter++
  6. OpenNews: Новые модели для распознавания русской речи в библиотеке Vosk
Лицензия: CC-BY
Тип: К сведению
Короткая ссылка: https://opennet.ru/56608-voice
Ключевые слова: voice, mozilla
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (34) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноньимъ (ok), 09:25, 31/01/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Есть же аналог GPL для медиа файлов?
    Общественное достояние защищает от претензий?

    А как насчёт согласия людей в этих данных?

     
     
  • 2.11, Аноним (11), 10:13, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > А как насчёт согласия людей в этих данных?

    ( ͡° ͜ʖ ͡°)

     
  • 2.13, Жироватт (ok), 10:18, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +4 +/
    1. Семейство лицензий Creative Commons - это он и есть. Аналог копилефта не на программный код, а на творческие произведения.
    2. Да, кроме близких к собственническим CC BY-NC-ND и CC BY-NC-SA. CC0 - аналог общественного достояния
    https://creativecommons.org/licenses/?lang=ru
    3. "Отправляя ваши данные ... бла-бла-бла ... вы согласны, что они будут распространятся под СС0 и отказываетесь от всех претензий". Тут уже был срачи про такие договоры, вполне себе легальная акцепт-офертная схема
     
     
  • 3.15, Аноньимъ (ok), 10:46, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Спасибо, интересно.

     

  • 1.2, Корец (?), 09:29, 31/01/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >распространение записей во вносящем искажения формате MP3.

    И что им мешает использовать другой формат?

     
     
  • 2.3, Аноним (3), 09:33, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +/
    А что тебе мешает забить на это? Ну серьезно, не пофиг ли?
     
     
  • 3.12, Аноним (11), 10:14, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    FLAC рулит! Благо сейчас накопители большого объема — не роскошь.
     
  • 2.5, Аноним (5), 09:39, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +/
    На что денег хватило.
     
  • 2.9, Жироватт (ok), 10:10, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Современные "погромисты" из мозиллы вряд ли знают что-то кроме МРЗ - Московского РадиоЗаавода.
    Про OGG слышали, наверное, единицы, а про форматы без потерь так вообще одни легенды ходят.
    А может все гораздо проще? Функции-заклинания из библиотеки-гримуара для эмпэтри они вызывать научились, а потом просто тяп-ляп и в продакшн?
     
     
  • 3.27, Skullnet (ok), 15:50, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > Про OGG слышали, наверное, единицы, а про форматы без потерь так вообще одни легенды ходят.

    opus лучше.

     
     
  • 4.32, Аноним (-), 07:19, 01/02/2022 [^] [^^] [^^^] [ответить]  
  • +/
    opus - патентованное говно.
     
     
  • 5.37, Аноним (37), 19:10, 05/02/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Можно поподробнее? Какие ограничения у opus?
     
  • 4.38, Ууууу... (?), 13:31, 07/02/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Нет, не лучше. Он вносит кучу отсебятины в исходный сигнал, чтобы замаскировать искажения от потерь. На слух терпимо, а вот по приборам - сущий ад. Самый честный в этом плане в настоящий момент - AAC. Ну или LossyFlac/LossyWav.
     
  • 2.16, Alice Ventus (?), 11:17, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +/
    А зачем?
     
     
  • 3.17, Аноним (17), 11:29, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +/
    А затем, чтобы не приходилось при использовании модели кодировать/раскодировать звук из микрофона в mp3 для лучшего распознавания.
     

  • 1.4, Генри Форд (?), 09:35, 31/01/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Некогда один из лучших браузеров успешно закопали, теперь можно и в синтез речи поиграться.
     
     
  • 2.18, Аноним (18), 12:01, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Синтез речи это здорово на самом деле. Правда нее очень понятно, почему этим занимается "браузер".
     

  • 1.6, Владимир (??), 09:43, 31/01/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Они что, всех белорусов опросили? Откуда такой большой скачок для них?
     
     
  • 2.14, Аноним (14), 10:43, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +/
    > Они что, всех белорусов опросили?

    Хаха... А ещё, судя по всему, всех оставшихся в мире носителях русского языка: "русского языка охватывает 2452 участника".

    > Откуда такой большой скачок для них?

    Простой гуглинг подсказывает, что была новость на самом большом (по посещаемости) сайте байнета (новостном). И куча перепечаток на новостных сайтах поменьше.

     
  • 2.23, Андрей (??), 15:13, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Просто выступления Лукашенко под разными именами записали))
     

  • 1.19, Аноним (-), 12:10, 31/01/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    >распространение записей во вносящем искажения формате MP3

    Использовать для хранения Ogg Vorbis не судьба?

     
     
  • 2.20, Жироватт (ok), 12:15, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Чува-а-а-ак, это надо раскуривать либы к ворбису. А это НЕ потраченное на смуззи и травлю сторонников Трампа в твиттере время. Смекаешь?
     
  • 2.21, Аноним (21), 12:21, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    затея изначально дно, либо поставляйте лосслесс либо вы саботируете развитие технологий совершая преступление против человечества
     
     
  • 3.22, Аноним (-), 15:08, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Лослесс проприетарный, лучше от него держатся подальше. FLAC - копилефтный формат.
     
     
  • 4.24, Андрей (??), 15:16, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +/
    flac к сведению без потерь, плюс есть ещё несколько форматов без потерь, которые свободны. С другой стороны даже флак будет означать, что 5ГБ превратятся в 40-80 ГБ, что ПМСМ совсем плохо, особенно если вообще взять белорусский или английский.
     
     
  • 5.25, Аноним (21), 15:25, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Сегодня такой размер датасета это ни о чём, особенно учитывая, в каких условиях будут тренировать сети. Можно хоть вообще wave формат раздавать. И да, голос весьма эффективно жмётся.
     
     
  • 6.29, Аноним (-), 18:08, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    >Можно хоть вообще wave формат раздавать.

    WAVE - маздаевский, его использовать не надо. Всё что создано Microsoft должно быть уничтожено.

     
     
  • 7.35, Аноним (35), 11:40, 02/02/2022 [^] [^^] [^^^] [ответить]  
  • +/
    При этом нормального аналога так и нет.
    Кстати, у RIFF ноги ещё с Амиги растут.
     
  • 4.26, Аноним (21), 15:29, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Флак не копилефтный, копилефтные только консольные утилиты для работы с ним. Мп3 для сравнения как формат только пару лет назад перестал быть проприетарным и требовать отчислений за использование (и то с оговорками емнип) и это как-то не мешало использовать его как в коммерческом так и в свободном софте (в основном конечно в коммерческом, потому что кому интересно платить отчисления).
     
     
  • 5.30, Аноним (-), 18:10, 31/01/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Какое жалкое стремление, во чтобы ни стало, держаться MP3, у MP3 подпорченная репутация.
     

  • 1.28, анон (?), 17:33, 31/01/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    speex /thread
     
     
  • 2.33, soup2 (?), 08:34, 01/02/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Двачую xDDDDD
     
  • 2.34, Аноним (34), 12:09, 01/02/2022 [^] [^^] [^^^] [ответить]  
  • +/
    deprecated
     

  • 1.36, adolfus (ok), 23:38, 02/02/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Цырк. В стародавние времена (1997???) в составе дистрибутива IBM OS/2 4.0 Merlin было приложение VoiceType. Оно не только "произносило" тексты, но и записывало их под диктовку. Правда, на английском, но отлично обучалось советскому произношению диктовавшего. И все это работало на первом пентиуме со ста двадцатью мегабайтами памяти.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Спонсоры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2022 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру