В середине января мы стали свидетелями самой сильной солнечной бури за последние десять лет. Возникший при этом поток космических лучей вызвал мощное полярное сияние, но этим дело не ограничилось.
Помимо полярных сияний потоки космических лучей вызывают исключительно мощные электромагнитные бури. Они, в свою очередь, порождают сильные скачки напряжения, способные повредить системы распределения электроэнергии, сбросить спутники с расчетных орбит и исказить данные электронных приборов. В прошлом такое случалось не раз. Вспомним, к примеру, отключение энергосистемы, оставившее без электричества канадскую провинцию Квебек.
Эта проблема хорошо знакома инженерам, проектирующим электронные системы для самолетов и спутников. Подобные "единичные сбои" представляют опасность и для наземных систем, обязанных работать с высочайшей надежностью (хотя в наземных системах сбои, как правило, возникают не под воздействием комического излучения, а по иным причинам). Чем выше быстродействие электронных систем — особенно, на скоростях, превышающих 10 Гбит/с — и чем выше плотность транзисторов на чипе, тем выше вероятность того, что внешний поток энергии сможет отрицательно повлиять на производительность маршрутизатора или коммутатора. Солнечные бури — явление очень редкое, но, с точки зрения оператора, эксплуатирующего критически важную сеть, недопустимы даже очень редкие сбои и отказы. Поэтому мы в компании Cisco решили найти способы предотвращения таких сбоев.
С 2001 года Cisco ведет исследования солнечных бурь, чтобы понять, как предотвратить их негативные последствия, особенно, для крупных критически важных систем вроде магистральных маршрутизаторов CRS-3. Чтобы смоделировать долгосрочное воздействие космического излучения на наши системы, мы даже установили свое оборудование в ускорителе элементарных частиц, но оказалось, что небольшие, отдельные улучшения не дают желаемого результата. Для повышения надежности систем нужно было в корне менять их архитектуру и учитывать комплексное взаимодействие всех аппаратных и программных компонентов. При этом, чтобы объективно оценить свои разработки, мы замеряли производительность не только своих, но и конкурирующих систем в тех же условиях.
По итогам этих экспериментов группа исследователей, работавших тогда в Cisco (большинство из них продолжает работать в нашей компании), подготовила солидный научный труд под названием "Особенности и выявление случайных сбоев в высоконадежных магистральных интернет-маршрутизаторах" (Specification and Verification of Soft Error Performance in Reliable Internet Core Routers), опубликованный в 2008 году организацией IEEE Transactions on Nuclear Engineering. Главный вывод авторов состоит в том, что гарантировать надежную работу оборудования можно лишь в том случае, если вы глубоко понимаете всю систему, знаете, как должны функционировать аппаратные средства, и используете правильную методологию для проектирования этой системы "снизу вверх". Методология проектирования должна охватывать все: от процессоров и микросхем до программного обеспечения и коммуникационных протоколов, поддерживающих функции надежности.
Это исследование помогло компании Cisco разработать новаторские интегральные схемы (ASIC), системные архитектуры и программные средства для критически важных операторских платформ, позволяющие минимизировать влияние "единичных сбоев". Наша жизнь все больше зависит от сетевых электронных систем, и поэтому мы должны непрерывно заботиться о надежности всей электроники — от сетевых магистралей до личных мобильных устройств.
Так сможет ли Интернет пережить "космическую бурю"? Сможет — если он построен на платформах Cisco.
Блог Стивена Лю (Stephen Liu), директора компании Cisco по маркетингу продуктов и технологий для операторов связи