Белые воротнички и голубой экран смерти

Глобальный сбой, который сделал бренд Crowdstrike именем нарицательным, к счастью, имеет слишком очевидные технические причины, чтобы можно было его списать на привычных зловредных хакеров. Была допущена классическая ошибка при работе с памятью, что случается более-менее регулярно. Просто в этот раз компонент, в котором эта ошибка была допущена, был критически важным. Это своего рода драйвер, задача которого предотвращать запуск вредоносных приложений, и стартует он в самом начале загрузки системы имея полный доступ к ядру Windows. Как итог: знаменитый синий экран сразу после включения компьютера.

Финансовый ущерб еще не определен, но эта ошибка однозначно войдёт в топ самых дорогих в истории индустрии. В пятницу остановилась работа сотен глобальных корпораций, сбои затронули десятки банков, аэропортов, больниц, прерывалась работа бирж, торговых сетей, вещание телеканалов и проч.

Немедленно появились комментарии экспертов, каждый из которых традиционно видел что-то своё: не тот язык программирования, не те инструменты проверки, не та архитектура ОС, не тот день для обновления. Еще и конспирологи увидели наглядное подтверждение всех своих теорий.

Многие из тех, кого этот сбой не мог коснуться в принципе, восприняли это как повод заявить о своем величии. Например, Илон Маск похвастался тем, что его соцсеть работала стабильно, но это касалось всех соцсети и медиа-платформ, ведь они точно также, как и икс-твиттер, практически не используют Windows на своих серверах.

Сыграли в ситуативку и те, кто вообще никогда не пользовались продуктами Crowdstrike, а то и вовсе не используют Windows. Это примерно как гордиться тем, что построенный вами дом выстоял во время урагана, который бушевал в другом полушарии.

Но важно понимать, что ни один сбой такого глобального масштаба не может быть следствием лишь программной ошибки. Это результат ошибок менеджмента, которые обычно копятся годами. «Модель швейцарского сыра» наглядно показывает, как набор отдельных ошибок превращается в катастрофу.

Настоящей причиной случившегося стал современный менеджмент, который старается снять с себя всякую ответственность и риски, но при этом сохранить максимально возможную зарплату и бонусы. Перенос собственной критической инфраструктуры в чужое облако идеально подходит под самую распространенную на сегодняшний день управленческую стратегию: краткосрочное планирование, максимум личных доходов, минимум личных усилий. Фактически задача сводится лишь к тому, чтобы выбрать аутсорс услуг.

Ну а там где аутсорс недоступен, мы все чаще видим так называемую «оптимизацию». Почему «так называемую»? Потому под нож попадают всевозможные предохранители без малейшего анализа причин их появления. Отсутствие проверок и аудита сделало возможным моментальное распространение фатального обновления.

К слову, в биологии процесс упрощения организации, избавление от тех или иных функций и систем, называется дегенерацией, а вовсе не «оптимизацией».

Поэтому не стоит ерничать и злорадствовать над фотографиями заполненных ручкой посадочных талонов и маркерных досок с расписаниями полетов. Это лишь доказывает, что остались сотрудники, старающиеся поддерживать работоспособность вверенного ему участка работы, несмотря ни на что.

Недавно мы воочию наблюдали за сбоем в «лучшем цифровом аэропорте года» Шереметьево, где случился сбой ПО на регистрации пассажиров, и вот там все было иначе: ответственность была переложена на рядовой персонал, менеджмент упорно делал вид что ничего не происходит, а вместо объявлений для пассажиров на экранах демонстрировалась реклама «VK Музыки» с Тимати.

Не стоит думать, что полная изоляция или отказ от каких-то продуктов автоматически гарантирует отсутствие катастроф. Надежность и стабильность системы это в большей степени производная от культуры управления, а не используемых инструментов.

//Владимир Яблоков