The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Google опубликовал аудиокодек Lyra для передачи речи при плохом качестве связи

06.04.2021 20:43

Компания Google представила новый аудиокодек Lyra, оптимизированный для достижения максимального качества передачи речи даже при использовании очень медленных каналов связи. Код реализации Lyra написан на C++ и открыт под лицензией Apache 2.0, но в числе необходимых для работы зависимостей присутствует проприетарная библиотека libsparse_inference.so с реализацией ядра для математических вычислений. Отмечается, что проприетарная библиотека является временной - в дальнейшем Google обещает разработать открытую замену и обеспечить поддержку различных платформ.

По качеству передаваемых голосовых данных на низких скоростях Lyra существенно превосходит традиционные кодеки, в которых используются методы цифровой обработки сигналов. Для достижения высокого качества передачи голоса в условиях ограниченного объёма передаваемой информации, помимо обычных методов сжатия звука и преобразования сигналов, в Lyra применяется речевая модель на базе системы машинного обучения, позволяющая воссоздать недостающую информацию на основе типовых характеристик речи. Задействованная для генерации звука модель обучена с использованием нескольких тысячах часов с записями голосов на более чем 70 языках.

Кодек включает в себя кодировщик и декодировщик. Алгоритм работы кодировщика сводится к извлечению параметров голосовых данных каждые 40 миллисекунд, их сжатию и передаче получателю по сети. Для передачи данных достаточно канала связи со скоростью 3 килобита в секунду. Извлекаемые звуковые параметры включают в себя логарифмические мел-спектрограммы, учитывающие характеристики энергии речи в различных частотных диапазонах и подготовленные с учётом модели человеческого слухового восприятия.

В декодировщике используется генеративная модель, которая на основе переданных звуковых параметров воссоздаёт сигнал с речью. Для снижения сложности вычислений применена лёгкая модель на основе рекурентной нейронной сети, представляющей собой вариант модели синтеза речи WaveRNN, в котором используется более низкая частота выборок, но генерируется параллельно сразу несколько сигналов в разном диапазоне частот. Полученные сигналы затем накладываются для получения единого выходного сигнала, соответствующего заданной частоте дискретизации.

Для ускорения также применены специализированные процессорные инструкции, доступные в 64-разрядных процессорах ARM. В итоге, несмотря на применение машинного обучения, кодек Lyra может применяться для кодирования и декодирования речи в реальном режиме времени на смартфонах среднего ценового диапазона, демонстрируя задержку передачи сигнала на уровне 90 миллисекунд.

  1. Главная ссылка к новости (https://opensource.googleblog....)
  2. OpenNews: Доступен аудиокодек Opus 1.3
  3. OpenNews: Обновление свободного звукового кодека FLAC 1.3.2
  4. OpenNews: Google передаёт систему объёмного звука Resonance Audio сообществу
  5. OpenNews: Публикация RFC ознаменовала первый стабильный релиз свободного аудиокодека Opus
  6. OpenNews: Google опубликовал данные и модель машинного обучения для разделения звуков
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/54917-codec
Ключевые слова: codec, lyra, google
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (113) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, paulus (ok), 21:06, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +17 +/
    Когда будет реализация без проприетарщины, тогда и поговорим...
     
     
  • 2.3, Чаловик (?), 21:09, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    А что скажете на счёт традиционных кодеков? Было бы интересно почитать ответ специалиста
     
     
  • 3.9, Онаним (?), 21:25, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +9 +/
    "Традиционный" кодек - только один. G.711 называется.
    А так - Opus и Speex никуда не делись.
     
     
  • 4.46, РотенЦукерберг (?), 23:50, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    gsm наше все и голос искажает назло кагэбэшнику
     
     
  • 5.72, Онаним (?), 07:57, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > gsm наше все и голос искажает назло кагэбэшнику

    Из GSM'ов только GSM-FR более-менее открытый.
    Да, нормальная альтернатива для узеньких каналов.
    Opus результат чуть лучше выдаёт в том же битрейте, правда. Иногда чуть хуже :D

     
  • 3.39, Аноним (39), 23:04, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +7 +/
    У радиолюбителей есть Codec2, позволяет при <1000 бит/с речь гнать.
     
     
  • 4.59, Аноним (-), 04:04, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Очень суровая штука. При том некоторые типы это даже на жирном микроконтроллере заводили.
     
     
  • 5.61, Карабьян (?), 05:09, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Где почитать о таких подвигах?
     
     
  • 6.84, Игорь (??), 11:21, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Codec 2 is an open source speech codec designed for communications quality speech between 700 and 3200 bit/s. The main application is low bandwidth HF/VHF digital radio. It fills a gap in open source voice codecs beneath 5000 bit/s and is released under the GNU Lesser General Public License (LGPL).
    https://www.rowetel.com/?page_id=452
     
     
  • 7.111, Карабьян (?), 01:11, 08/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > Codec 2 is an open source speech codec designed for communications quality
    > speech between 700 and 3200 bit/s. The main application is low
    > bandwidth HF/VHF digital radio. It fills a gap in open source
    > voice codecs beneath 5000 bit/s and is released under the GNU
    > Lesser General Public License (LGPL).
    > https://www.rowetel.com/?page_id=452

    Большое спасибо

     
     
  • 8.123, Игорь (??), 16:28, 08/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    На здоровье Возможно этот кодек можно прикрутить для использования в глухих мес... текст свёрнут, показать
     
  • 6.126, Аноним (-), 06:54, 12/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > Где почитать о таких подвигах?

    На каком-то российском форуме про радиоштуки, вроде. Человек его к LoRa модему + STM32 F4xx чтоли прикрутил, сделав дальнобойную супер-рацию. Нюанс в том что совместимо оно чуть менее чем ни с чем и это вроде бы проприетарный проект. Хотя допиленный сорец именно codec2 вроде даже был выложен.

     
  • 4.78, Аноним (78), 08:44, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Хм, теоретически на LoRa можно рации сделать
     
  • 4.85, Игорь (??), 11:26, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Он покруче будет Гуглового:
    a version of Codec 2 running at 450 bit/s, including a 16 kHz mode!
    https://github.com/drowe67/codec2
     
     
  • 5.92, Аноним (92), 12:05, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    А вот это https://github.com/drowe67/LPCNet , я так понял, любительский свой аналог того, что мутит Гугель.
     
     
  • 6.103, Игорь (??), 15:43, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Тот же Codec2, но, насколько я понял - там используется нейронная сеть для обработки.
     
  • 5.122, ist (?), 15:26, 08/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Да, только при таком сжатии ничего не понятно. Скажешь "Оля", а на той стороне будут гадать: то ли "Оля", то ли "Коля", то ли "поле". Нормальная разборчивая речь начинается с 2400.
     
     
  • 6.124, Игорь (??), 16:36, 08/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Тут не поспорить, но трафика будет намного меньше потреблять - это точно и одновременно  важно. В критических ситуациях (сам застревал и замерзал в 100 км от ближайшей деревни -ни сотовой,  ни МЧС , а только спутник - но у них цена за трафик зашкаливает,а оплатить из леса невозможно)
     
     
  • 7.125, ist (?), 19:24, 08/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    5 минут разговора при 2400 - это 100 килобайт. За 5 минут вполне можно сообщить о происшествии и передать координаты. А деньги на спутниковом телефоне должны быть заранее, особенно когда едешь по глуши.
     
     
  • 8.127, Аноним (-), 06:56, 12/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Вон то использовалось для ультра-дальнобойных хайтек раций Оно гонит голос в ци... текст свёрнут, показать
     
  • 3.120, анон (?), 13:15, 08/04/2021 [^] [^^] [^^^] [ответить]  
  • –1 +/
    >традиционных кодеков

    обычная телефония, снимаем только 300 и 1000
    кодируем в 2 потока байтстримом
    меньше придумать нереально
    а потом сверху нейросетку накинуть можно
    ...
    PROFIT

     
  • 2.12, Онаним (?), 21:26, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Угумс. Кроме того, какими там патентами обложена эта закрытая библиотека, и какие роялти придёт в голову накласть на использующих её завтра - хрен её знает.
     
     
  • 3.34, Аноним (34), 22:56, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Патенты имеют смысл только тогда, когда с ответчика стрясти можно. Антоксеров и джамиров и трогать никто не будет, покуда они технологию не коммерциализировали.
     
  • 3.50, РотенЦукерберг (?), 23:59, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +5 +/
    А я биллу до сих пор за виндоус 98 не заплатил
     
  • 2.38, Аноним (38), 23:01, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Ну так сделай! Вечно находятся какие-то халявщики, ждущие что будут работать за них.
     
  • 2.67, КО (?), 06:33, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    С ума сошёл? Куда зонды прятать тогда?
     

  • 1.2, Чаловик (?), 21:06, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +16 +/
    ставь плюс если тоже не бум-бум в математике, потому что ироды-ученые не раскрывают её искодный ход.
     
     
  • 2.88, Gogi (??), 11:38, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Т.н. "ироды-учёные" всего лишь переложили в код обычные учебники математики. :) Уверен, все эти формулы/преобразования лежат в открытую. Другой вопрос, что любую математику надо уметь адаптировать к реальному применению.
     

  • 1.4, Анонимный хомяк (?), 21:14, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +5 +/
    Главное, чтобы рекламу не вставляла.
     
     
  • 2.36, Аноним (39), 22:59, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +3 +/
    И телеметрию не слала для ... (тут в зависимости от страны-получателя).
     
     
  • 3.43, Аноним (43), 23:25, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Правительствам и подконтрольным спец службам каких стран можно слать телеметрию, а каким нельзя по твоему мнению?
     
     
  • 4.57, Аноним (57), 02:19, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Можно тем в которые даже на отдых не собираешься и, желательно, что-бы они были слегка на ножах с властями твоего места постоянного проживания. Нельзя, соответственно, наоборот.
    Очевидно же!
     
     
  • 5.75, пох. (?), 08:16, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Я надеюсь, ты сейчас имел в виду - Индию, Нигерию, ЮАР на крайняк?

    И не собираешься повторить подвиг одного Кобздоха, который на голубом глазу заявив, что рашкованам не надобно вообще ездить по этим мерсским мерсским заграницам, потом на коленях умолял пустить полечить свой отваливающийся член?

    Одна, понимаешь, проблемка - из списка только индусы собирают какую-то телеметрию. Но они ее охотно продают любому кто попросит.

     
  • 5.93, Аноним (93), 12:11, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    уххх, как логикой и менталитетом узкого мира запахло.
     
  • 3.60, Аноним (60), 04:30, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    зачем же телеметрию, тут можно сразу расшифровку речи слать куда надо, по крайней мере уже близко к этому
     
     
  • 4.76, пох. (?), 08:17, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Зачем же ж - расшифровку, сразу правдоподобно синтезированную крамолу. И не слать, а на месте генерить.

    Подпись в протоколе допроса, кстати, тоже очень правдоподобно дорисуют нейросеткой.

     

  • 1.5, Аноним (-), 21:15, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Распознавание и синтез на основе обучения, поддерживает только 70 языков в отличие от других кодеков
     
  • 1.6, Аноним (6), 21:21, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А вот интересно, можно ли такое на нейросетях сделать не для голоса, а для музыки, и чтобы опережало Opus/Vorbis по показателю качество*скорость/битрейт?
     
     
  • 2.14, Аноним84701 (ok), 21:30, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +6 +/
    > А вот интересно, можно ли такое на нейросетях сделать не для голоса,
    > а для музыки, и чтобы опережало Opus/Vorbis по показателю качество*скорость/битрейт?

    Уже:
    🎵 🎶
    или
    https://en.wikipedia.org/wiki/MIDI
    или
    https://en.wikipedia.org/wiki/Tracker_modules

     
     
  • 3.44, Kuromi (ok), 23:27, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Понятно что шутка, но MIDI это всего лишь партитура, ему для нормлаьного качества семплы нужны качественные, хотя бы в види миди-банков.
     
     
  • 4.53, Аноним (53), 00:47, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    У гугла на принимающей стороне тоже не хухры-мухры надо иметь.
     
  • 2.17, Аноним (17), 21:38, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • –6 +/
    Чтобы что? Ты отдаёшь себе отчёт, что битрейт 320kbps это уже ниже нижней границы для любого кодека? Красота музыки в исполнении, если половину замазывать получается плохо. Ты предлагаешь дорисовывать большую часть, это будет совсем непохоже на то, что хотел донести музыкант.
     
     
  • 3.24, Аноним (34), 22:15, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Любой кодек превращается в кодек без потерь, когда считаешь разницу и кладёщь её рядом.
     
     
  • 4.41, Аноним (17), 23:13, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    А кто-то помимо wavpack так умеет? Я не видел правда чтобы это кто-то использовал, было бы здорово если mp3/aac не существовало и везде был такой wavpack. С другой стороны, wavpack выдаёт совершенно чудесное лосси на ~410kbps, там и лосслесс уже не нужен (если не придётся перекодировать больше), а файл в 2 раза меньше чем хорошо пожатый лосслесс.
     
  • 3.65, nebularia (ok), 05:43, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Далеко не все способны услышать "замазанное", ещё меньше сознательно хотят усложнять себе жизнь поисками Hi-Fi, музыки в loseless и вот это всё. Популярность стриминговых сервисов это подтверждает, а им важно иметь возможнсть пожать сильнее по возможности без потери качества.
     
  • 2.18, Я (??), 21:39, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    да но нет
     
     
  • 3.35, Аноним (34), 22:57, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Джедайка, залогиньтесь.
     
  • 2.98, Ordu (ok), 13:02, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Можно, я думаю. Но в технологии работы с речью и в науку вокруг этого, соответственно, вливается куча бабок, и они поэтому развиваются. А с музыкой, мне кажется, будет сложнее, придётся лепить более полную модель  восприятия звука человеком, и денег там меньше.
     
     
  • 3.104, Аноним (104), 18:01, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    а какже эффект присутствия в концертном зале, vr-многоканал для конференций, всякие фичи правообладателей, во времена когда ностальгически смотришь на скафандр натягивая саркофаг от био/кюри/уф/потерь тепла или кислорода, как применить "полную модель восприятия" уж найдут.
     
     
  • 4.112, Ordu (ok), 02:12, 08/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    чё сказать-то хотел?
     

  • 1.7, Онаним (?), 21:21, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    = в числе необходимых для работы зависимостей присутствует проприетарный модуль ядра Linux, открыть код которого не представляется возможным

    Собственно, на этом можно и остановиться.
    Узенькая, скорее всего изначально военная, разработочка, интеграцией которой самим лень заниматься - хотят привлечь дармовую рабочую силу путём "типа открытия широкой публике".

     
     
  • 2.25, Аноним (34), 22:20, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    За публикацию военной разработочки публикантов раскатали бы, а такой контрактор вообще бы после такого контрактов не получил. Вокодеры - это давняя очень матаноёмкая и трудоёмкая в кодировании технология, как и tts. Гугл скретил машобчик с вокодером. Без статьи хрен поймёшь, что они сделали.
     
     
  • 3.70, Онаним (?), 07:50, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Ну пойчему же. Интернетик тоже был военной разработочкой.
     
  • 3.71, Онаним (?), 07:51, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Просто видимо либо не зашло, либо наоборот - зашло, но надо бы ещё по разным астерискам и фрисвитчам поинтегрировать, а лишних денег распыляться нет.
     

  • 1.8, YetAnotherOnanym (ok), 21:22, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +7 +/
    > воссоздать недостающую информацию

    Теперь можно отмазаться, когда в суде предъявят запись разговора - мол, я такого не говорил, это нейронная сеть досочинила.

     
     
  • 2.33, гугель (?), 22:56, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Наоборот!

    "Не вижу оснований не принимать во внимание данную запись!" (c) судья неправедный

    Так что теперь товарищмайор может не мучаться с прослушкой, а сразу заказать у нас нужные ему разговоры.


     
  • 2.108, Аноним (-), 19:09, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    есть выход - верифицируемые исторические неподсудные классики, выбираешь себе личность (или две) - и твой "привет, дорогая" раскладывается на получателе в абзац характерного легитимного спича/текста, поскольку личности (и цензоры) себе не позволяли.
     
     
  • 3.118, YetAnotherOnanym (ok), 11:22, 08/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Тогда уж голос Гаранта из ящика взять.
     

  • 1.15, Аноним (34), 21:31, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    Теперь можно прямо сейчас взять и принять новый зэкон Яровой: хранить не за полгода, а больше.
     
     
  • 2.40, Аноним (39), 23:06, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Тсс... тихо. А то вдруг Яровая OpenNet читает.
     
     
  • 3.79, Аноним (53), 08:54, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Яровая... А кто это? Ой... Из Яблока :) А Мизулина? Ой... КПСС, Яблоко, СПС, СР.
     
     
  • 4.87, Аноним (87), 11:37, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Предателям перед новым хозяином всегда приходиться выслуживаться больше других - они ведь под большим подозрением, что снова предадут.

    > В 1219 году город Отрар был осажден монгольскими войсками под руководством сыновей Чингисхана. Осада продолжалась 6 месяцев. Однажды ночью житель города по имени Караджа открыл ворота монголам. Захватившие после этого город монголы уничтожили значительную часть населения, оставшуюся забрали в рабство, сам город был сожжён и уничтожен. Предателя по имени Караджа, открывшего городские ворота, казнил лично Джучи.

     
     
  • 5.91, Аноним (91), 12:02, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Предателям перед новым хозяином всегда приходиться выслуживаться больше других - они ведь под большим подозрением, что снова предадут.

    Выслуживаться приходится не за этим, а чтобы быть ему вообще нужным. Предатель для того и предал, чтобы попытаться сделать карьеру у нового хозяина, ибо у старого оказалось ловить нечего в карьерном плане, зато и брали кого попало, ибо более смекалистые карьеристы сразу к нужному хозяину напрямую пошли.

     
     
  • 6.110, YetAnotherOnanym (ok), 00:20, 08/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Офигенная карьера - саблей по шее. Как раз для того, кто рассуждает таким образом.

     
     
  • 7.121, . (?), 13:16, 08/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Так то ж монголы, твари неполиткорректные.
    Сейчас-то другая эпоха. Начальник австрийского гестапо вон помер, оказывается, своей смертью, и даже не в бедности. Полезный, хороший раб потомушта.
     
  • 2.74, Lex (??), 08:13, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Смс и голосовую связь и так по три года хранят.
    Полгода хранят лишь вообще_весь тырнет-траффик.

    И то, это минимальный срок. При желании, данные васи петрова можно хранить и сильно дольше

     

  • 1.21, Аноним (34), 21:51, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • –1 +/
    >bazel build

    Сразу на ***.

     
  • 1.22, Аноним (34), 22:01, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Веса нейросети на hexdumpе очень странно выглядят.
     
     
  • 2.27, Аноним (-), 22:35, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    А тебе говорили ложить витуху
     

  • 1.23, Alex (??), 22:03, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Интересно как койсанские щелчки оно будет декодировать
     
  • 1.28, Аноним (-), 22:35, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +4 +/
    Уже есть Opus. Пусть не 3 кбит/с, а 6, зато 20 мм задержка и никакого проприетарного хлама. Да ещё на уровне ядра, прости мя Господи.
     
     
  • 2.31, Аноним (34), 22:52, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Там нет на уровне ядра, сама либа содержит ядра, это переводчика гнать надо за такие переводы.
     
     
  • 3.37, Аноним (39), 23:01, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Ааа, вона что. Тогда пусть на GNU Radio'шный VOLK заменяют.
     

  • 1.29, Аноним (29), 22:41, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +4 +/
    Фотографии дорисовывает нейросеть. К реальности они уже не имеют непосредственного отношения. Аудио досинезирует нейросеть. К реальности оно уже не имеет непосредственного отношения.

    Не, я как-то по-другому матрицу себе представлял...

     
     
  • 2.56, Аноним (56), 01:40, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Ну ты же не против алгоритмов сглаживания шрифтов. Вот тут по сути то же самое. Вместо скрипучего голоса с частотой взятия уровня аналогового сигнала в 8 раз меньше CD получится насколько возможно восстановленный. Космонавтам тоже пригодилось бы, особенно если чистить паразитные шумы.
     
  • 2.109, Аноним (-), 19:11, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    есть аспект - технически ты сам можешь обучить эту сеть своим профайлом/телеметрией/семейным архивом, и связь можешь организовать сам и даже транспорт
     

  • 1.30, Аноним (30), 22:43, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    А не проще было тогда уж распознавать текст, передавать его, а потом синтезировать голос если один фиг от исходной речи ничего не остаётся?
     
     
  • 2.32, Аноним (34), 22:53, 06/04/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    В том то и смысл, чтобы осталось. А речь в текст ещё с ошибками распознается, выверять надо.
     
     
  • 3.105, Аноним (-), 18:14, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    учитывая сколько раз передается речь одного и того же источника, и сколько раз она снимается и дублируется уже бы идеально воссоздавали из текста, предлагаю сорм-3, сорм-4 уже бы был с генетически наследуемыми скрещенными голосами
     
  • 2.58, Ordu (ok), 03:10, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Возможно проще, но придётся терять интонации, паузы/темп речи, тембр голоса (уже по голосу не узнаешь говорящего), плюс даже с речью проблема -- она не вся записывается буквами.
     
     
  • 3.106, Аноним (-), 18:29, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    есть другие статистические характеристики, ну, например, пьяная похабень обычно идет характерными интонациями и тембром голоса, при этом достаточно отдельный кусок передать классическим кодером для временного обучения принимающей стороны а остаток - текстом, ха
     
  • 2.63, nebularia (ok), 05:38, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Но вот это почти то, идея-то старая.

    https://ru.wikipedia.org/wiki/Вокодер

     

  • 1.42, Орк (?), 23:19, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +5 +/
    Ждём атак, когда на одном конце проводе будет слышно одно, а на другом статья
     
  • 1.45, Kuromi (ok), 23:28, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    А как же Speex, он же вроде именно для этого задумывался, Opus тоже должен работать на низкой полосе пропускания.
     
     
  • 2.64, nebularia (ok), 05:39, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Получился результат лучше существующих, значит. Как в своё время у Speex и Opus.
     
  • 2.94, Аноним (93), 12:14, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    а ссылки открыть и послушать как оно звучит в сравнении с перечисленым вами, религия не позволяет?
     

  • 1.49, Аноним (49), 23:58, 06/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • –2 +/
    Гугло-алени. Распознать текст, передать буковки, ситезировать речь. Супер-экономно по трафику))
     
     
  • 2.101, pisyandrik (ok), 13:35, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    И как сидится с 10гб трафика ради экономии 200р?
     
  • 2.107, Аноним (-), 18:37, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    так можно и смысл (или скрытый смысл) сообщения лаконично передавать, вместо получаса экивоков и мыла, ну там "я тебя лю"
     
  • 2.113, fidoman (ok), 02:35, 08/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    задержка получается большая
     

  • 1.51, Аноним (51), 00:22, 07/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    Азбука Морзе вне конкуренции
     
     
  • 2.95, Аноним (92), 12:23, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Но сейчас для неё тоже ИИ потребуется. Ибо сейчас никто не захочет её учить.
     

  • 1.54, None (??), 00:56, 07/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Машинное обучение? Сразу встает вопрос, сколько нужно топовых видеокарт для кодирования и раскодирования. И сколько энергии все это будет кушать?
     
     
  • 2.62, Рмшъ (?), 05:19, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Дык, карты нужны для рбучения. А на чём это будет работать, в новости написали.
     
     
  • 3.66, Аноним (66), 06:19, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Там крайне информативная маркетинговая дурь.
    > может применяться для кодирования и декодирования речи в реальном режиме времени на смартфонах среднего ценового диапазона, демонстрируя задержку передачи сигнала на уровне 90 миллисекунд.

    - Может. Но есть ли реально смысл? Или он будет загружать проц на 101% и батарея будет улетать за 5 минут?
    - Среднего ценового диапазона. Среднего между чем? Супертоп-флагманом-вчера-вышел и 0? За 50к легко уйдет так-то.
    - На уровне 90 миллисекунд. Как-то так - сэм-восэмь да? На пиках сколько? Распределение какое?

     
     
  • 4.68, Аноним (68), 06:48, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    > Как-то так - сэм-восэмь да?

    А дэсят не хочешь?

     

  • 1.55, Аноним (56), 01:37, 07/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    У кого модемы для телефонных линий проверьте качество. А то раньше сигнал был не очень правдоподобный.
     
     
  • 2.82, Аноним (82), 11:01, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Можешь настроить шейпинг (ну и слово, блин!) трафика и сам проверить для любой скорости.
     

  • 1.69, Иваня (?), 06:58, 07/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Люболю гугл за новые разработки, пойду разбираться в их коде...
     
     
  • 2.73, Аноним (73), 08:08, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    А ведь когда то и Опера 9 было достаточно для серфа и киношек. Что принципиально изменилось с тех пор? Те же яйца, но только в профиль и очень-очень жирный профиль. Придумывайте давайте как в киношках голографические мониторы и всякое такое интересное... Скучно с современными разработчиками и технологиями. Мне как пользователю нужны вкусняшки за которые можно даже платить деньги, а так только пивасик и покупаю.
     
     
  • 3.77, Lex (??), 08:18, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +2 +/
    > нужны вкусняшки за которые можно даже платить деньги, а так только пивасик и покупаю

    Надо в гугол и яндекс писАть - шоб срочно изобрели чего поинтересней, пока опеннетовский аноним не спился

     
  • 2.80, Аноним (53), 09:02, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Люболю гугл за новые разработки

    Вот только гугл сам ничего не делал, а только занимается скупкой готового. Вот и сейчас, откуда-то всплыла проприетарная либа, у которой гугл собрался менять лицензию. Кого там из аудио за последние года покупали? Dysonics (2021), Redux (2018), Limes Audio (2017)... Ух ты... последняя - Voice communication.

     

  • 1.81, Анноним (?), 10:33, 07/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Какой то странный у них Reference - всего 4 балла из 5. Прямо как-будто не существует источника с оценкой Excellent?!
    Да и сам MOS - штука весьма субъективная (ITU-T T-REC-P.800.2)
     
  • 1.83, lockywolf (ok), 11:06, 07/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +2 +/
    Перепись наивных людей в комментариях.

    "Добренькие" Гугл открыли супер-кодек (да ещё и дымовую завесу подложили, эту sparse-библиотеку, чтобы на неё активисты агрились).

    А код для обучения они открыли? Который веса для этого кодека подобрал. А базу, на которой я могу у себя дома запустить обучалку, и дообучить под себя?

    Нет? Тогда в этом кодеке нет ничего открытого. Всё равно что бинарный экзешник заэскейпать в Си-строку.

     
     
  • 2.86, Аноним (86), 11:32, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Когда программист публикует код свободной утилиты, почему он не прилагает также тексты учебников и mindmap знаний после которых он научился писать подобный код. Толку от свободной утилиты, если я сам не могу прочитать его mindmap и написать утилиту под себя.
     
  • 2.89, Gogi (??), 11:44, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +3 +/
    Гуглу нужно одно - просто быть на слуху рядом со словом "открыто". Тогда они в любом трамвае могут легко парировать: "да мы вообще пооткрывали всё, что могли! Даже холодильник!" - и попробуй поспорить! :) Гугл такой гугл... детсад и маркетинг.
     
  • 2.90, Аноним (91), 11:58, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Зачем тебе код обучения, если у тебя всё равно нет мощностей для его обучения? А у кого они есть - они нейросетями занимаются профессионально, и при бэкграунде в обработке речи для них труда не составить воссоздать обучалку в TensorFlow по уже открытой части - собственно открытая часть и есть нейросеть, секретны лишь дейтасеты, конкретные приёмы ускорения и гиперпараметры, но они от SOTA недалеко ушли, можно сделать что-то полностью своё в недостающих частях и получить результаты не хуже.
     

  • 1.96, анончик (?), 12:43, 07/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • –3 +/
    и написали на устаревшем и небезопасном C++.
     
     
  • 2.99, Аноним (92), 13:18, 07/04/2021 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Fracta1L, это ты?
     

  • 1.97, Anonymus (?), 12:46, 07/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Про автозамену и T9 уже пошутили?
     
     
  • 2.114, fidoman (ok), 02:36, 08/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Ещё нет, но вспоминается прикол на каком-то старом ксероксе, который так сканы жал, что там цифры менялись.
     

  • 1.115, б.б. (?), 02:53, 08/04/2021 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Гугле изобрёл телеграфистку?

    Ну да, гунлепочта, потом гуглетелефон, потом гуглетелеграф

     
     
  • 2.119, Айнанай (?), 12:28, 08/04/2021 [^] [^^] [^^^] [ответить]  
  • +/
    Для голосовых сообщений в Телегу, кстати, было бы офигенно. Так-то на таких каналах где со скоростью всё так туго то наверно и с пингом/джиттером смерть так что говорить нормально всё-равно не получится, а вот голосовые сообщения пойдут на ура.
     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру