Яндекс опубликовал принципы синтеза речи

Фото GoogleDeepMind/pexels.com
Яндекс сделал общедоступным внутренний документ, в котором описаны принципы компании при работе с технологией синтеза речи. Это нормы и правила, которые, на взгляд Яндекса, позволяют сделать технологию комфортной и безопасной для всех, кто с ней так или иначе соприкасается.

В документе рассказывается, как Яндекс обрабатывает данные синтеза — они хранятся в дата-центрах компании, соответствующих индустриальным требованиям безопасности, — как строится работа над технологией и какие ограничения действуют при её использовании. Отдельное внимание уделено дикторам — людям, на чьих голосах обучается модель синтеза. Яндекс запрашивает у них согласие на использование голоса и объясняет им, что их голосами впоследствии будут озвучены произвольные тексты.

«Наши принципы будут полезны всем, кто имеет дело с синтезом речи: звукозаписывающим студиям, разработчикам технологии и компаниям, которые её у себя внедряют. Если наш подход разделят другие участники рынка, в будущем он сможет послужить основой для отраслевого стандарта», — говорит директор Яндекса по развитию технологий искусственного интеллекта Александр Крайнов.

«Союз дикторов приветствует инициативу Яндекса по разработке этических норм при работе с синтезом речи. Это первый, но важный шаг по защите голосов дикторов и актёров. Мы поддерживаем идею предложить им прозрачные условия работы — когда компания детально информирует их о том, как может быть использован голос. Пока законодательные меры еще не приняты, поэтому Союз дикторов рекомендует дикторам и актёрам внимательно выбирать проекты для участия. В любом случае мы рады, что поднимается тема этики — это может стимулировать развитие качественного партнерства разработчиков, студий и дикторов», — отмечает Александр Лапшин, председатель Союза дикторов России.


Яндекс с 2012 года развивает собственные речевые технологии, в том числе технологию синтеза речи. Она используется в Алисе, Браузере, Книгах, Навигаторе, Картах и других сервисах. Технология доступна внешним пользователям в составе сервиса Yandex SpeechKit на облачной платформе Yandex Cloud. Её можно применять для создания голосовых помощников, автоматизации коммуникаций в колл-центрах, озвучивания книг и не только.