На прошлой неделе Гугл представила новый аудио-кодек, который получил название Lyra. Новая технология позволяет вести разговор при подключении к сети со скоростью всего 3 килобита в секунду.
Разработка эта не сказать, чтобы совсем новая. Утечки о новом разговорном кодеке были и раньше. Но было не очень понятно, что это — очередной эксперимент или реальный продукт, который готовится к массовому релизу. Теперь появилась определённость и новый кодек дебютирует в мессенджере Google Duo.
Базовая архитектура кодека Lyra довольно проста. Значимые для восприятия звуки речи извлекаются из общего звукового потока и затем сжимаются для передачи. Из этих данных, при получении, по сути, реконструируется человеческая речь с использованием технологий машинного обучения. Ну, это если не вдаваться в излишние технические подробности связанные с алгоритмами и моделями.
Сама идея подобного подхода к кодированию речи тоже не нова. Схожий по базовой архитектуре MELP-кодек появился в распоряжении американских военных ещё в середине 90-х, и мог работать при соединении 2400 бит в секунду, а к 2010 году появились ревизии, которые позволяют передавать речь при скорости от 300 бит в секунду. Но у военных свои требования к качеству речи и задержкам кодирования, которые не очень подходят для современного мирного применения. Кроме того, этот кодек оптимизирован для английского языка. Отзывы носителей языков других языковых групп, например, арийской или даже романской уже не такие позитивные и часто содержат жалобы на невысокую разборчивость речи.
Современные наработки Гугла в обработке и генерации голоса позволили реализовать эту идею на качественно ином уровне. Для обучения использовались записи носителей более чем 70 языков, а также большая группа испытуемых, которая позволяла отбирать наиболее эффективные алгоритмы восстановление голоса. Получившийся в итоге продукт демонстрирует существенное преимущество над своими конкурентами.
Разумеется, в пресс-релизе и маркетинговых материалах рассказывается, что обновление Google Duo c поддержкой Lyra, было создано ради заботы о сельских жителях развивающихся стран страдающих от пандемии и все в таком духе. Тут, конечно, пандемия сыграла свою роль. Но всё-таки не нужно забывать, что разработка Lyra велась не один год, и, при всем уважении, улучшение качества голосовой связи у фермеров в индийской глубинке, это далеко не та мотивация, которая заставила Гугл потратить огромные ресурсы на развитие технологии и собирать лучших специалистов по всему миру.
Дело в том, что нагрузка на инфрастуктуру ИТ-гигантов растёт быстрее, чем снижается стоимость хранения и передачи данных. До определённого момента это было не так, и считалось, что ширина каналов, это в первую очередь, забота операторов связи. Но стремительный рост пользовательской базы и некоторый застой на рынке технологий хранения данных заставил начать работы по созданию более экономичных кодеков, таких как Lyra, AV1 и так далее. Кстати, на полученных результатах в Гугле не остановились и начали исследования возможности создания кодека построенного на схожих принципах, но уже общего назначения, не только для голоса. Приоритетом все также остаётся максимальная компрессия данных.
И хотя бы часто критикуем Гугл, то в случае с Lyra мы можем только похвалить компанию. Во-первых, это пример хорошей, добросовестной конкуренции: продвижение своего мессенджера с помощью создания технологий, которые дают пользователям новые возможности и лучшее качество. Во-вторых, в ближайшем будущем Гугл обещает открыть исходный код и предоставить другим компаниям возможность использовать этот кодек. Такое можно только приветствовать.