Сайт открытой нейронной сети ruDALL-E, генерирующей изображения на основе текстового описания, теперь может работать с текстами не только на русском, но и на других языках. В мобильном приложении «Салют» и на устройствах Sber создать картинку можно даже по голосовому запросу, перевод на английский получил и демо-сайт, на котором можно попробовать модель.
За неделю с момента релиза ruDALL-E пользователи по всему миру уже сгенерировали более 3 млн изображений при помощи ruDALL-E, используя для формирования русскоязычных запросов различные системы машинного перевода, а теперь смогут делать запросы на английском и других языках. При вводе текста модель самостоятельно определяет язык ввода и генерирует соответствующее изображение.
Прототипом для создания ruDALL-E стала нейросеть DALL-E для английского языка, которая была впервые представлена OpenAI в 2021 году. При этом исследователи из американской компании не стали выкладывать модель в открытый доступ, ограничившись общим описанием архитектуры и впечатляющим набором примеров работы модели, отобранных вручную. На основе публикации OpenAI команды SberDevices и Sber AI при содействии SberCloud создали аналогичное решение и запустили обучение нейросети на платформе ML Space на базе суперкомпьютера Christofari, получив аналогичный результат для русского языка, а позднее и мультиязычный вариант.
Модель существует в двух вариантах: ruDALL-E XL, содержащая 1,3 миллиарда параметров, и ruDALL-E XXL с 12 миллиардами параметров. Возможностями меньшей можно воспользоваться бесплатно, загрузив её с сервиса Github и Hugging Face. Обе модели также можно найти в ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.
Большая модель может послужить для создания вариантов дизайна интерьера, стоковых изображений или векторных иллюстраций, материалов для рекламы, копирайтинга, в то время, как уменьшенный вариант в приложении «Салют» и на демо-сайте призван скорее развлечь пользователей и показать им возможности нейросети. Чтобы создать изображение на устройствах Sber или в приложении «Салют» достаточно сказать: «Открой Далли» или «Запусти художника».
Давид Рафаловский, СТО «Сбербанк Груп», исполнительный вице-президент: «После запуска ruDALL-E мы увидели большой интерес к модели со стороны аудитории. Поэтому мы решили создать мультиязычный вариант сервиса, который упростит пользователю путь к созданию изображения. Сейчас моделью может воспользоваться практически любой желающий по всему миру. Поставить задачу нейросети можно и голосом, вызвав его в приложении «Салют» и на устройствах Sber».