Для обучения нейронной сети использовали часть набора данных компании Google: 64 728 аудиофайлов с записями одной из 30 команд на английском языке. Дальше авторы планируют собрать собственный набор данных — команды для робота-манипулятора на русском языке. Также в планах увеличить точность распознавания команд до 95%.
Распознаванием речи в России занимаются давно. Готовая технология уже есть у Яндекса — Yandex SpeechKit, на основе которой работает Алиса. Правда, для роботов на заводах ее не используют. На сайте пишут, что SpeechKit подойдет для колл-центров, озвучки контента, включая подкасты, и для умного дома. У Сбера есть свой речевой сервис SalutSpeech, который могут использовать любые организации. Но мы бы наверняка узнали, если бы решение Сбера встроили в робота.
Так что разработка МТУСИ вполне может занять свою нишу. Роботы-манипуляторы используются в автомобилестроении, химической и медицинской промышленности, в металлургии электронике, на пищевых производствах и др. Такие роботы, например, умеют красить, упаковывать и заниматься сваркой.
По данным International Federation of Robots на сентябрь в мире на производствах насчитывается более 553 000 роботов-манипуляторов. К концу года прогнозируют рост числа роботов как минимум до 590 000. Что касается денег, то объем сегмента промышленных роботов в мире в 2022 годуоценили в 37,8 млрд $. Так что проект по распознаванию голосовых команд, который в перспективе повысит эффективность связки робот+человек, может здорово тут развернуться. Осталось поработать над точностью, ведь даже планируемые 95% оставляют место для ошибки.