Архив » Выпуск №13 ноябрь 2015 г. »
Колонка эксперта: Игорь Шварц
Из обширной практики нашей компании приведу один случай системной аварии в ЦОДе режимного предприятия, где располагается вычислительный кластер. Характеристики ЦОДа: потребляемая мощность — 1 МВт; используется внутрирядное охлаждение; компоненты систем электропитания, системы охлаждения зарезервированы по схеме N+1 или 2N.
Анализ причин
Отсутствие в ТЗ на проектирование требований к каналам оповещения системы мониторинга, связанных с режимом секретности. Система автоматического отключения и оповещения (САОО) была рассчитана на работу с дежурным оператором путем его оповещения по SMS и e-mail, которые были заблокированы из-за режима безопасности объекта. При введении в эксплуатацию САОО не была переведена на автоматическое функционирование в отсутствие каналов оповещения об аварии. Была отключена сигнальная линия «авария», предусмотренная производителем (APC) между комплексом мониторинга NetBotz и ИБП. Не был запроектирован и установлен дополнительный контур мониторинга параметров среды с выводом сигнализации на пост охраны. Аварию удалось обнаружить, только когда сработали объемные датчики движения охранно-тревожной сигнализации, выведенные на пост охраны, зафиксировавшие падение оплавленных заглушек и боковых стенок шкафов.
Рекомендации
В ТЗ на проектирование необходимо устанавливать требования к выводу сигнализации на пост охраны, к каналам связи для оповещения, к независимости контура мониторинга от работоспособности ЛВС, серверов, АТС и другого оборудования, за которым же и ведется наблюдение. При питании трехфазной техники желательно использовать реле контроля фаз. Следует разработать подробную методику испытаний для приема комплекса в эксплуатацию, предусматривающую максимально возможные комбинации нештатных событий. Документация должна содержать инструкции по действиям сотрудников в нештатных ситуациях. Проводить обучение эксплуатирующего персонала.