The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Индекс форумов
Составление сообщения

Исходное сообщение
"Facebook открыл систему распознавания речи Wav2Letter"
Отправлено opennews, 01-Янв-18 10:40 
Facebook опубликовал проект Wav2Letter (https://github.com/facebookresearch/wav2letter), в котором открыл наработки, связанные с распознаванием речи, созданные в лаборатории искусственного интеллекта Facebook AI Research. Wav2Letter сочетает простоту и высокую эффективность преобразования речи в текст. Код оформлен в виде модулей к библиотеке глубинного машинного обучения Torch (http://torch.ch/), написанных на языке Lua и распространяемых (https://github.com/facebookresearch/deepmask) под лицензией BSD. Для обработки звука применяется библиотека  Libsndfile (http://www.mega-nerd.com/libsndfile), а для цифровой обработки сигналов при помощи дискретного преобразования Фурье - FFTW (http://www.fftw.org/). Дополнительно поставляются (https://github.com/facebookresearch/wav2letter#pre-trained-m...) натренированные модели для английского языка.


Опубликованный код содержит реализацию архитектуры (https://arxiv.org/abs/1712.09444), основанной (https://arxiv.org/abs/1609.03193) на использовании акустической модели и графа декодирования, созданных при помощи системы машинного обучения на базе свёрточной нейронной сети. Система использует посимвольный метод разбора, не требующий предварительного разделения фонем при проведении машинного обучения. В Wav2Letter применяется техника автоматического сегментирования, которая позволяет обучить систему на основе записи звука и текстовой транскрипции, без дополнительных аннотаций.


Для работы декодировщика требуется только список слов и языковая модель - весовые характеристики букв выделяются из акустической модели, без необходимости подключения словарей фонетической лексики. Поддерживается задействование GPU NVIDIA (CUDA) или кластерных систем (OpenMPI и TorchMPI) для ускорения проведения обучения. При проверке на тестовом наборе LibriSpeech (http://www.openslr.org/12) система показала одни из лучших результатов по уровню ошибок  при разборе как чистой (уровень ошибок 4.8%), так и запутанной (уровень ошибок 14.5%) речи.


URL: https://github.com/facebookresearch/wav2letter
Новость: http://www.opennet.ru/opennews/art.shtml?num=47842

 

Ваше сообщение
Имя*:
EMail:
Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.
Заголовок*:
Сообщение*:
 
При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру