Бенчмарк DiBiMT — это эталонный тест для измерения процента ошибок (то есть неверного определения смысла или значения слова в контексте) в машинном переводе. Тестирование проходили как онлайн-переводчики, такие как Google Translate и DeepL, так и открытые большие языковые модели: mBART-50, M2M100, а также проект OPUS.
Как проводилось тестирование
Исследователи собрали базу данных из нескольких тысяч предложений на английском языке с омонимами — одинаковыми по написанию словами, имеющими разное значение. Модели и сервисы перевели эти предложения, а алгоритмы бенчмарка определили процент корректно переведённых слов. Кроме того, правильные варианты выборочно проверяли профессиональные переводчики, что обеспечило высокое качество замеров. На основе этих показателей и был сформирован публичный рейтинг.
Как работают нейросети в Яндекс Переводчике
Сервис использует разработанную в Яндексе технологию машинного перевода на основе нейросетей. Они анализируют массивы текстов, учатся находить в них закономерности и составляют списки всех употребляемых слов и фраз. Во время перевода каждое предложение не разбивается на слова и фразы, а переводится полностью. Нейросети определяют семантику слов и взаимосвязь между ними, даже если они не находятся рядом.
Чтобы повысить точность, на этапе обучения модели AI-тренеры Яндекса вручную размечают качественные варианты перевода, чтобы она лучше учитывала важные для восприятия человека аспекты.