Архив » Выпуск №17 ноябрь 2016 г. » Пожаротушение в ЦОДе: а нужно ли?

Пожаротушение в ЦОДе: а нужно ли?

Традиционно, когда говорят о пожаротушении в ЦОДе, обсуждаются детали: какую систему использовать, какие датчики или огнетушащие составы выбрать и т. д. Вопрос о необходимости самого решения — оправданно ли оно? — не стоит вообще. Попробуем рассмотреть разные аспекты использования системы автоматического пожаротушения в дата-центре — возможно, не все так однозначно.

Наиболее корректной проверкой истины всегда является практика. Попробуйте набрать в поисковиках запрос о пожарах, которые произошли в ЦОДах, — очень интересная получается картина. Да, они случались, но о причинах либо вообще не говорится, либо инциденты происходили в строящихся дата-центрах, либо пожары возникали вне стен ЦОДа. Статистики, которая бы позволила узнать, сколько комплексов было спасено благодаря тому, что система пожаротушения справилась со своей задачей, в общем доступе не найти.

Собственный практический опыт, постоянное общение со специалистами, которые работали не менее чем на 50 % всех ЦОДов, созданных в России, показывает, что случаев такого спасения или не наблюдается вовсе, или же о таких случаях все умалчивают. Но есть другая статистика: только в практике автора этих строк отмечено четыре инцидента, которые привели к сбоям разной продолжительности в работе ЦОДов. А причиной стали именно системы пожаротушения или работы, связанные с их обслуживанием.

Четыре страшные истории

Наиболее показательный пример произошел в одном из дата-центров во время первых же обязательных регламентных проверок автоматики пожаротушения: в результате были отключены все серверы в ЦОДе. Дело в том, что для проведения проверок автоматика была отключена от исполнительных устройств пуска газа. Далее, следуя правилам, имитировалась сработка двух датчиков пожара, автоматика отработала штатно и, как и было задумано, дала команду на отключение некоторых устройств. Однако по прихоти заказчика в алгоритме процесса было заложено не только отключение по команде «Пожар» кондиционеров и вентиляции, но также ИБП и всей электрической нагрузки. Специалисты проверяющей организации, которая была привлечена к обслуживанию пожарной сигнализации ЦОДа и всего здания, не были поставлены в известность о наличии нетипичного алгоритма. Мгновенное отключение серверов реляционных баз данных привело к необходимости восстанавливать файлы из архивных копий, а полностью ЦОД заработал только через двое суток.

Другой инцидент произошел в крупном коммерческом дата-центре. Его причиной стал человеческий фактор, а также неквалифицированный монтаж в сочетании с чрезмерной экономией на проекте. К счастью, все случилось в самом начале эксплуатации конкретного серверного зала — оборудования там стояло еще немного.

Свою роль сыграла роковая последовательность действий: несанкционированное отключение и некорректное блокирование автоматики; случайное включение ручного пуска ГОТВ; затем пересмена дежурного персонала (который, обнаружив отключенную автоматику, соответственно, включил ее, но состояние блокировок и ручного пуска не проверил). В результате сработала система пожаротушения. В качестве ГОТВ использовался фреон 125, и двенадцать 180-литровых баллонов газа опустели за несколько секунд. Дополнительные потери возникли в связи с тем, что форсунки были перекрыты металлическими перфорированными панелями фальшпотолка (исключительно проектная ошибка).

Последствия визуально были ужасными, и только по счастливой случайности в этот момент в зале не было никого из персонала. Панели фальш­потолка, выбитые из направляющих пусковым давлением, пробили двери в некоторых шкафах, а в нескольких стойках даже повредили оборудование (одна из панелей, например, застряла в сетевом коммутаторе). Кроме того, из трубопроводной системы вышел весь шлак: окалина после сварки, окислы и т. д. По соображениям экономии трубопроводы не были продуты и обработаны изнутри после монтажа. Окалина попала в блоки питания оборудования, которые в тот момент работали, и большая часть БП в результате сгорела. Восстановление заняло несколько дней, финансовые потери измерялись многими миллионами рублей, а ЦОД после этого инцидента заполнялся клиентским оборудованием очень медленно. Так что, кроме прямых убытков, компания получила еще и косвенные, объем которых с трудом поддается подсчету.

Два других инцидента связаны с эксплуатацией систем сверхраннего обнаружения пожаров, которые позволяют выявить микроскопические концентрации дыма. Однако, кроме дыма, данные датчики реагируют и на утечки фреона из системы кондиционирования. Как правило, датчики сверхраннего обнаружения возгораний не подключают к автоматике пуска газа — они служат для информирования дежурной смены и привлечения внимания к потенциальной угрозе. Но один из заказчиков настоял на включении датчиков в общую систему пуска огнетушащего состава: руководитель противопожарной службы заказчика был особо настойчив и любил все новое. Объект был небольшой, но все же три баллона с Novec вылетели в трубу. Причиной второго инцидента стал человеческий фактор: не очень опытный диспетчер после предупреждающего сигнала включил ручной пуск газа, не проверив реальную ситуацию.

Три эффективные защиты

Итак, потери от использования систем пожаротушения в ЦОДах реальны, а вот насколько такие системы все же позволяют предотвратить инциденты в дата-центрах?

Следуя логике и согласно нормативным документам, источником возгораний в сооружениях категории, к которой относятся ЦОДы, являются электрооборудование и кабельные линии электропроводки. Это значит, что в момент, когда сработает система пожаротушения, инцидент с проводкой или электрооборудованием уже произошел. Проблемы с электрической системой всегда приводят к авариям или сбоям в работе ЦОДа. То есть пожаротушение (по логике своей работы) не защищает ЦОД от происшествий, а всего лишь обеспечивает страховку на случай открытого пожара. Рассмотрим основные причины, по которым могут произойти инциденты с оборудованием.

Серверы, коммутаторы, ИБП, кондиционеры, вентиляционные установки — все современное оборудование оснащено собственными системами защиты от перегрузок, так называемыми умными блоками питания, которые отключаются при превышении предельных токов потребления. Если не используется откровенно сомнительное оборудование, вероятность того, что сервер или ИБП загорится, близка к нулю. Это первая защита.

Теперь что касается электрорас­пределительных устройств, кабельных линий и всей сети распределения электроэнергии в ЦОДе. Существует ПУЭ — документ, регламентирующий работу каждого элемента электроустановок и их взаимосвязи, и он обязателен к исполнению! В случае если нет нарушений ПУЭ, а также откровенно бракованных компонентов и устройств, нагревание любого элемента ЦОДа выше 70 °C просто невозможно. Да, со временем электроконтакты деградируют — окисления никто не отменял, но для предотвращения этих рисков существуют строго регламентированные мероприятия по периодической проверке всего электрооборудования и его коммуникаций. Если ими не пренебрегать и выполнять в полной мере, вероятность возгораний ничтожна. Это вторая защита.

Все современные дата-центры оснащаются средствами мониторинга и дублирующего контроля: датчиками температуры, токов потребления, состояния автоматов защиты. Пожарная сигнализация также включается в общую автоматизированную систему дублирующего контроля. Любое отклонение от нормальных значений генерирует тревожные сообщения, требующие реакции дежурной смены ЦОДа. Это третья защита.

Страховка от собственных ошибок

Итак, в зависимости от уровня «интеллекта» ЦОДа, само пожаротушение является второй или третьей ступенью «страховки». Ситуация похожа на старый сюжет из детского юмористического тележурнала, когда мальчик покупает для себя два билета на автобус, но на всякий случай у него в кармане еще проездной. Конечно, от риска полного выгорания не защищают альтернативные системы защиты, но есть еще субъективный эффект. Пожаротушение создает «ложное ощущение защищенности». В России это особенно актуально: русскую надежду на волшебную палочку под названием «авось» побороть невозможно.

В частности, при наличии системы пожаротушения на практике считается нормальным немного слукавить при расчетах сечения кабелей в проекте, использовав не совсем тот способ прокладки, который будет в реальности, или занизить в расчетах температуру, которая будет в горячих коридорах (где могут проходить кабельные трассы). Хитрые проектировщики могут выбрать сечение кабеля исходя из его максимально допустимых рабочих температур для холодного коридора, а не для горячего, а исполнители могут купить автоматы защиты очень сомнительного качества.

Нередко также приобретаются кабели с горючей изоляцией, а для реализации проекта привлекаются самые низкоквалифицированные и, соответственно, низкооплачиваемые монтажники, которые впервые видят кабель с сечением токоведущих жил 180 мм. Такие «специалисты» согнут их под почти прямым углом, а кабели уложат внавалку, хотя по проекту они должны быть уложены без пересечений. Собственно, получается, что пожаротушение позволяет не бояться большого пожара и «прикрывает» разгильдяйство, неадекватную экономию бюджета, невыполнение нормативных регламентных работ в части электрохозяйства и отсутствие нагрузочных проверок при пуске объекта.

Новому ЦОДу — новое здание

Однако то, о чем говорилось выше, — это еще не все. Посмотрите на сообщения о пожарах в ЦОДах: известные прецеденты на объектах, находящихся в эксплуатации, были связаны в основном с возгораниями на сопредельной территории или в здании, где размещается дата-центр. Стоит обратить внимание на то, что за рубежом очень немногие дата-центры создаются в существующих зданиях — чаще всего для них строят новое, ведь таким образом можно существенно сократить эксплуатационные затраты.

А в рамках полного бюджета ЦОДа (с учетом расходов на компьютерное оборудование) стоимость стройки достаточно мала. У нас же, наоборот, единицы ЦОДов строят в новых зданиях, да и то теми немногими заказчиками, которые сумели посчитать, что величина непродуктивных затрат на охлаждение дата-центра, построенного в неподходящем здании, за 5–7 лет эксплуатации сопоставима с бюджетом создания всего комплекса.

Во вновь создаваемом, специально проектируемом для ЦОДа здании гораздо проще сразу заложить полностью не горючие материалы, предусмотреть соответствующие шахты для кабельных коммуникаций, возможно, разделить зоны: в одних будет размещаться потенциально пожароопасное оборудование, в других — наиболее дорогостоящие системы. Причем залы должны отделяться друг от друга огнеустойчивыми преградами. Это можно сделать в любом типе нового сооружения для ЦОДа, во вновь проектируемом капитальном здании, сборно-модульной конструкции из блоков заводской готовности либо в быстровозводимом помещении из металлоконструкций или на основе железобетонного каркаса.

Непродуктивные затраты

Теперь поговорим о том, зачем, собственно, рассматривать целесообразность создания системы пожаротушения. Не проще ли не задумываться об этом и делать, как большинство, приняв за аксиому, что система пожаротушения в дата-центре необходима?

Все определяется тем, что в настоящее время сместились приоритетные требования к инфраструктуре ЦОДа. Прежде всего объект должен быть недорогим при создании и дешевым в процессе эксплуатации. А распределенные вычислительные системы, которые в настоящее время являются единственными серьезными драйверами рынка дата-центров, гораздо менее требовательны к надежности единичного узла информационной системы.

Существующие зарубежные стандарты и рекомендации Uptime Institute еще долго будут гармонизироваться с изменившимися требованиями, предъявляемыми новыми ИТ-системами к инфраструктуре, а ЦОДы необходимы уже сегодня. Российские нормы и правила пожарной безопасности не накладывают жестких требований на наличие системы автоматического газового пожаротушения в дата-центре. Точнее, их можно истолковать и в ту, и в другую сторону — в зависимости от того, какой результат надо получить. С помощью определенных манипуляций ЦОД всегда можно отнести к той или иной категории сооружений.

Система газового пожаротушения дата-центра обычно является самой дорогостоящей подсистемой комплекса безопасности и вносит существенный вклад в общий бюджет создания ЦОДа. Цена решения может достигать нескольких процентов от стоимости всего проекта, что сопоставимо со стоимостью строительства некоторых типов новых зданий. Не надо забывать, что газовое пожаротушение также требует жестко регламентированных циклических проверок — ежегодных, трех- и пятилетних. Цена за некоторые из проверочных мероприятий сопоставима с затратами на монтаж всей системы, ведь в ряде случаев необходимо, по сути, разобрать и повторно собрать всю автоматику. Это вносит свой вклад и в эксплуатационные расходы. При этом система пожаротушения никоим образом не защищает от инцидентов, причины которых связаны с компонентами электрической подсистемы ЦОДа. Сэкономленные на пожаротушении средства целесообразно распределить на использование современных негорючих отделочных материалов и кабелей с полностью негорючей изоляцией, приобретение надежных, а не самых дешевых автоматов защиты и оплату регламентных проверок электросистемы. Эффект в обеспечении общей надежности ЦОДа и снижение количества инцидентов будут выше, поскольку устраняется причина инцидентов, а не тратятся деньги на борьбу с последствиями.

Как минимизировать ущерб и предотвратить пожар?

Однако остается маленький, очень маленький, но все же риск того, что «взорвется процессор» и загорятся сами серверы. Представить такое сложно, но все же теоретически шанс выгорания ЦОДа в подобных случаях существует. Компенсировать этот риск вроде бы должна система газового пожаротушения. Но именно компенсировать — в классическом понимании данного термина, так как СГП не устраняет полностью вероятность большого пожара: она сама является достаточно сложной системой и может отказать в нужный момент. К тому же есть риск, связанный с выделением водорода из аккумуляторных батарей. Ведь на самом деле герметичных АКБ на основе свинца не существует — в лучшем случае они герметизированные. В процессе зарядки через клапан может выделяться водород, который при определенных условиях способен привести к взрыву, а от него даже пожаротушение не защитит.

Если же будут использоваться литий-ионные батареи, то ситуация становится еще более непредсказуемой. Производители таких АКБ всегда вынуждены искать оптимум между безопасностью, энергоэффективностью и стоимостью, и не всегда находят. Некоторые батареи самопроизвольно взрываются, а другие горят так, что в ряде штатов США пожарным по инструкции запрещено их тушить. Компенсация рисков — это вовсе не их полное устранение: стопроцентной защиты не существует. Компенсация рисков — это мероприятия, которые направлены на уменьшение вероятности возникновения условий, приводящих к инциденту, и сокращение ущерба от него, в случае если инцидент все же произойдет.

Теперь рассмотрим возможный вариант сокращения объема потенциального ущерба в случае реализации риска. Естественный способ сокращения ущерба — поделить ЦОД на относительно небольшие блоки, каждый из которых в крайнем случае если и может сгореть, то не повредит остальные. Такой подход построения ЦОДа используют многие ведущие операторы, работающие в реалиях «цифровой экономики». Речь идет о ЦОДах на основе контейнеров. Такая система, собранная из отдельных функциональных блоков, кроме того что сокращает потенциальный ущерб, еще и уменьшает вероятность возникновения инцидентов, связанных с возгораниями.

В контейнерах энергетического модуля концентрируется наиболее опасное оборудование, в том числе АКБ. В серверных контейнерах может вообще не быть никакого электрооборудования, кроме серверов и кабелей питания, однако в этих контейнерах находятся наиболее дорогие ИТ-системы, в которых содержится, собственно, то, что представляет основную ценность ЦОДа, — данные.

Такой подход к строительству — с использованием готовых контейнеров — особо интересен для России, где вроде бы потребность в ЦОДах есть, но деньги на создание крупных объектов найти сложно. Контейнерный подход позволяет экономить хотя бы на стоимости денег во времени. За тот период, пока будет возводиться стационарный дата-центр (не менее полутора лет), вложенные в него средства потеряют часть своей стоимости. Причем абсолютная величина потерь может оказаться существенной — сопоставимой с суммой, необходимой на оснащение контейнерного ЦОДа ровно того масштаба, который нужен сразу для начала деятельности и который сразу же будет заполнен. В дельнейшем, по мере потребностей в расширении, поставка дополнительных блоков займет не более трех месяцев с момента размещения заказа на производстве.

Данная статья — фактически альтернативная точка зрения на вопрос организации пожаротушения в ЦОДе. Но это отнюдь не рекомендация отказаться от СГП, а скорее попытка указать на то, что для эффективного предотвращения пожара необходимо прежде всего принять все необходимые меры для повышения качества системы электроснабжения дата-центра. А вот стоит ли после этого создавать еще и систему пожаротушения — пусть каждый решит для себя сам.

Оставить отзыв

Имя:
Email:
Текст отзыва:


Отзывы (0)