«Мы впервые выложили CatBoost в открытый доступ в 2017 году. За это время библиотека обрела популярность за пределами Яндекса. Её используют и коммерческие компании, и научные учреждения — например, в ЦЕРНе с её помощью классифицируют полученные в результате экспериментов частицы. Вместе с сообществом разработчиков мы постоянно обновляем CatBoost и добавляем новые функции. Сейчас возможности CatBoost стали настолько широки, что мы решили присвоить очередной версии номер 1.0.0 — чтобы ознаменовать выход проекта из детского возраста», — говорит Станислав Кириллов, руководитель группы разработки систем машинного обучения в Яндексе.
В последние полгода CatBoost получил сразу несколько крупных обновлений. В частности, он начал полноценно поддерживать Apache Spark — фреймворк, который используется в распределённом обучении на больших данных. Выросла скорость работы — теперь обучение занимает меньше времени. Появилась возможность применять CatBoost для задач классификации с пересекающимися классами (multi-label) — эта функция может пригодиться, например, для предсказания возможных характеристик объекта при поведенческом анализе. Подробнее о новшествах в CatBoost можно узнать на «Хабре».
CatBoost — это метод машинного обучения, в основе которого лежит механизм градиентного бустинга. Одной из важных особенностей CatBoost является то, что он хорошо подходит для работы с данными, выраженными в нечисловой форме. Яндекс создал CatBoost для своих нужд. Он применяется во многих сервисах компании. Например, Алиса с помощью CatBoost принимает решение, какой ответ дать пользователю, а КиноПоиск, Музыка и Дзен используют его для составления рекомендаций.