Яндекс опубликовал набор данных беспилотных автомобилей для исследований в области машинного обучения и автономного транспорта. Это самый большой в мире массив данных такого типа в открытом доступе: он содержит более 1600 часов движения, разбитых на 600 000 размеченных фрагментов поездок на дорогах России, Израиля и США в хорошую погоду, в снег и в дождь.
Датасет опубликовали для конкурса Shifts Challenge, который Яндекс проведёт в рамках международной конференции NeurIPS 2021 совместно с учёными из Оксфорда и Кембриджа. Задача конкурса — привлечь внимание к проблеме «сдвига данных» в машинном обучении.
«Если вы привыкли водить машину в небольшом городе, то в Москве вы не сразу адаптируетесь к трафику и, скорее всего, поначалу будете более осторожны на дороге. Это и есть сдвиг данных. Вы можете оценить его масштаб и скорректировать свои действия. Машинно обученные модели должны уметь делать то же самое — оценивать величину сдвига и эффективно действовать в новых условиях. От того, насколько хорошо алгоритм может работать при сдвиге данных, будет зависеть широта его применения», — говорит старший исследователь Yandex Research Андрей Малинин.
Сдвиг данных возможен везде, где модели машинного обучения сталкиваются с неопределённостью — незнакомыми ситуациями и неизвестными данными. Для Shifts Challenge Яндекс выбрал три области: предсказание траектории движения транспорта и пешеходов на дороге, прогнозирование погоды и машинный перевод текстов. Участники конкурса должны будут создать устойчивые к сдвигу модели. Например, такую модель машинного перевода, которая обучалась на художественной литературе, но может качественно переводить и твиты, и ролики на YouTube.
Конкурс позволит не только привлечь внимание к проблеме сдвига, но и даст учёным доступ к уникальным данным, позволяющим оценить качество работы моделей машинного обучения в реальном мире. Для конкурса исследователи Яндекса вместе с командами Яндекс.Погоды, Яндекс.Переводчика и беспилотных технологий предоставили данные сервисов, решающих практические задачи и часто сталкивающихся со сдвигом. Такие разнородные данные помогут ускорить разработку алгоритмов, способных адаптироваться к новым условиям быстрее и лучше сегодняшних.
Все данные обезличены. Так, датасет по беспилотным автомобилям содержит высокоточные карты маршрутов и треки всех окружающих машин и пешеходов (их положение, скорость, ускорение и пр.), но не использует видео, где были бы видны номера машин или лица прохожих. Исследователи должны будут обучить алгоритмы на предоставленных данных, а затем проверить качество их работы в условиях сдвига. Создатели алгоритмов, которые покажут лучшее качество, получат денежные призы.