Алиса осваивала шёпот в несколько этапов. Сначала она училась понимать, когда человек шепчет. Для этого нейронную сеть обучили узнавать шёпот по звуковому спектру. Дело в том, что шёпот — это не просто тихий звук. Люди шепчут без использования голосовых связок, поэтому звуковой спектр шёпота и обычной речи различаются. Отдельно Алиса тренировалась отличать шёпот от глухого голоса, например, как при простуде. Оказалось, что они похожи по спектру, и поначалу Алиса их часто путала.
Дальше нужно было научить Алису шептать. Для этого записали несколько часов шёпота в исполнении Татьяны Шитовой — актрисы, которая озвучивала Алису. Но самих по себе этих данных недостаточно для обучения модели, которая синтезирует голос. Поэтому их добавили в уже накопленный обучающий корпус и сообщали нейросети, где шёпот, а где обычная речь. В итоге Алиса научилась между ними переключаться.
«Алису любят во многом за то, что она похожа на человека. С ней можно пошутить и поболтать, у неё есть свой характер и чувство юмора. Шёпот — это ещё одно человеческое проявление, которое теперь свойственно и Алисе. Надо сказать, что она освоила уже несколько вариантов голоса. Например, утреннее шоу Алиса ведёт бодро и весело, а переводит видео более флегматично, чтобы не отвлекать от просмотра», — говорит Сергей Мельник, руководитель умных устройств Яндекса.