Как подготовиться к авариям в дата-центре
Необходимо ли готовиться к катастрофам в центрах обработки данных? Определенно да. Если ваша компания обрабатывает значительный объем информации, для нее важно обеспечить надлежащую защиту от любых потенциальных угроз. Основная проблема ЦОДов в том, что оборудование в них должно функционировать 24 часа в сутки, предоставляя сервис клиентам, иначе те просто уйдут. Его нельзя ни выключить, ни перевезти на время в другое место, при этом за последние 20 лет накопилось достаточно опыта, чтобы понять к чему нужно быть готовым.
К чему готовиться?
Первый шаг к любому плану предотвращения и восстановления при катастрофе заключается в определении потенциальных типов бедствий, которые могут произойти. Ниже приведены примеры крупных катастроф, к которым учреждения должны готовиться в первую очередь.
- Пожар – является одним из наиболее распространенных типов катастроф, с которыми может столкнуться центр обработки данных. Учреждения должны готовиться к риску приближения лесных пожаров, к тому что пожар может перекинуться с соседних зданий, особенно если ЦОД построен на территории промышленного предприятия и, конечно же, быть готовыми к возгоранию внутри помещения.
Самый известный случай пожара с наиболее разрушительными последствиями зафиксирован 10 марта 2021 года в ЦОД компании OVHCloud. В результате выгорел целиком дата-центр SBG2 в Страсбурге, а оборудование и данные клиентов так и не удалось восстановить. Причина до сих пор не установлена.
- Наводнения – могут быть вызваны избыточными осадками, таянием снега, разрушением плотин или другими естественными явлениями. Еще один тип наводнений, на который следует обратить внимание, - повреждённые внутри центра обработки данных трубы.
В 2012 году на США обрушился ураган Сэнди, в результате которого многие небольшие ЦОДы коммерческих компаний банально залило водой. Вообще, локальные наводнения от прорывов труб и протекания крыши в дата-центрах встречаются чаще других потрясений.
- Землетрясения – могут быть абсолютно разрушительными и часто случаются совершенно неожиданно. Даже небольшие землетрясения могут наносить серьезный ущерб незащищенному оборудованию.
Как правило, крупные ЦОДы строятся в сейсмоустойчивых районах, по сейсмоустойчивой конструкции, и в них используются специальные сейсмоустойчивые шкафы.
- Торнадо и ураганы – Мощный ветер торнадо может обесточить электричество, оборвать цепи передачи данных, опрокинуть деревья на здание и побить окна. Каждый знает, что вычислительные устройства не выдерживают воды, но вдобавок к этому ураганы могут вызвать разрушения, пожары, отключение электроэнергии и многое другое.
- Террористические акты и погромы – Центры обработки данных несут ответственность за поддержку большой части экономики, что делает их потенциальной мишенью террористов. Вычислительные устройства - очень хрупкие, их легко повредить и почти невозможно после этого восстановить, поэтому как крупный ЦОД, так и мелкий, могут притягивать не только террористов, но и погромщиков.
- Боевые действия и война - Дата-центры относятся к объектам критической инфраструктуры, и поэтому в случае войны, будут уничтожены в первую очередь.
Бедствия, которые не касаются ЦОД непосредственно, но влияют на его работу
Если бедствие не влияет на ЦОД непосредственно, он всё равно может пострадать от опосредованного влияния. Например, если стихийное бедствие происходит в соседнем районе города, это может привести к перебоям в электроснабжении или к проблемам с доступностью сотрудников, которые не могут добраться до рабочего места из-за дорожной обстановки. Повреждение на электроподстанции или на электростанции неизбежно приведёт к перебоям с электроэнергией, которые могут вызвать каскадные отключения во всём регионе. И поскольку в таких случаях развитие событий принимает лавинообразный характер, ЦОД не может обеспечивать работу от собственных генераторов, так как возникают проблемы с поставками топлива. Типичный пример такой ситуации - действия во время урагана Сэнди в Манхэттене, США, в 2012 году. Один из дата-центров компании Internap во время общей эвакуации города продолжил работать на резервном топливе, которое подвозили огромные бензовозы. Вот, что об этом пишет представитель компании:
Больницы и учреждения критической помощи были в верхней части списка местных поставщиков топлива ", - сказал Орчард. "Они имели преимущество перед всеми остальными, что вполне понятно". В итоге Internap заказала две машины и насосы у своего поставщика из Балтимора. Как только уровень топлива в бака дата-центра снизился до критического уровня, серверы были отключены, и простояли без питания больше 12 часов.
Бензовозы прибыли 30 октября около 20:00, но передача топлива на верхний этаж оказалась не такой простой задачей. Нужно было изготовить переходники, чтобы соединить шланги бензовозов с баком для топлива. "Пришлось искать нужные детали и либо сваривать их вместе, либо на скорую руку соединять шесть частей", - сказал Орчард. В конечном итоге генератор был снова запущен, и питание вернулось на серверы клиентов около 23:30 того в тот же день. Серверы оставались на электропитании генератора в течение 10 дней до позднего вечера 10 ноября, когда площадка, наконец-то, была переведена на электроснабжение от подстанции.
Всего компания Internap потратила около 65 тонн топлива для питания серверов ЦОД от генератора и допустила простой около 3-4 часов в такой сложной ситуации. И можно сказать, что сотрудникам Internap ещё повезло, потому что в отличии от своих конкурентов из компании Peer1, им не пришлось в тот же период таскать 20-литровые канистры с бензином на 18 этаж пешком по лестнице.
Как видно по опыту ЦОД в США в 2018 году, в случае критической ситуации, дата-центры сталкиваются не только с нехваткой персонала из-за эвакуации (которая в том случае была не обязательна), но и с распределением приоритетов, когда все ресурсы правительства направлены на спасение людей и критически важных медицинских организаций. Спасение утопающего в данном случае ЦОДа не просто возлагается на сотрудников компании, но и усложняется эвакуацией населения.
Эвакуация ЦОД
В истории не было примеров эвакуации ЦОД-ов из зоны стихийных бедствий, но сегодня, с увеличением количества ЦОД и повышением их важности, разработка эффективных планов эвакуации и восстановления работы становится все более актуальной задачей. Здесь надо разделять два аспекта спасения ЦОД: эвакуация оборудования для защиты от уничтожения перед тем, как событие наступит (например, при надвигающихся пожарах или приближении линии боевых действий) и перенос работы на внешние ресурсы после того, как негативное событие наступило, и дата-центр больше не может продолжать работать в том же месте (например, в результате разрушения оружием массового поражения), извержения супер-вулкана, цунами, катастрофой на атомной электростанции и т.д.
Искусственный электромагнитный импульс высокой высоты (HEMP), созданный человеком, может вызвать серьезные катастрофы и привести к полной изоляции земных информационно-технологических систем. И поскольку импульс также распространяется вверх, он потенциально опасен для низколетящих спутников. Традиционно, одним из важных применений спутниковой связи является резервное соединение в случае отказа или серьезной перегрузки земной связи. Однако после HEMP некоторые спутники могут стать недоступными, возможно, препятствуя их использованию в качестве резервного соединения в окружающей среде после катастрофы. Таким образом, с точки зрения ИТ-инфраструктуры, HEMP является одним из самых сильных катастрофических событий.
Обычно, в преддверии катастрофы или сразу после неё, нагрузка на линии связи вырастает в десятки раз, что может быть связано с повреждением других каналов связи и направлением их трафика "в обход". Поэтому нужно чётко понимать, что скорее всего в условиях недостаточного времени, единственная часть оборудования, которую удастся эвакуировать - это накопители с данными (HDD, SSD, кассеты LTO). Эвакуировать застрахованное оборудование в иных случаях, кроме войны (обычно не покрывается страховкой) нецелесообразно, а вывоз SSD/HDD/LTO - это единственный способ быстро перенести большие объёмы данных. Соответственно, в первую очередь нужно озаботиться наличием этих самых "резервных данных", которые находятся не в "горячем" состоянии и могут быть восстановлены на другом оборудовании, а так же - кейсами для транспортировки HDD и паролями шифрования, которые хранятся отдельно от оборудования.
Как подготовиться к катастрофе заранее
Подготовка к катастрофе начинается с самого начала проектирования любого центра обработки данных. Независимо от того, строится ли новый объект с нуля или просто конвертируется существующее помещение, это потребует определенных размышлений. Ниже приведены ключевые решения в области планирования бедствий, которые могут существенно снизить риск для любого центра обработки данных:
- Правильная система тушения пожара - системы тушения пожара требуются практически во всех зданиях. Выбор системы, которая не повредит компьютерному оборудованию внутри центра обработки данных, является кропотливым процессом. В случае использования порошковой системы тушения пожаров, нужно выбирать специальные форсунки, звук которых не повреждает жёсткие диски вибрациями. Существует много решений для защиты серверов от пожаров, таких как защитная жидкость от огня на основе фторокетона.
- Усиленная охрана на земле и в воздухе - поможет минимизировать риск террористических атак, предотвратить нанесение ущерба неудовлетворенным сотрудником и защитит в случае беспорядков или гражданских волнений. С учётом реалий последних лет, следует рассматривать вероятность террористической атаки с беспилотников, поэтому служба безопасности должна иметь возможность сбивать дроны.
- Сейсмические полки для серверных стоек - в районах, где возможны землетрясения, специально разработанные полки для серверных стоек помогают удерживать серверы, маршрутизаторы, коммутаторы и другое оборудование, не давая ему выпасть на пол. Они также помогают снизить вибрацию, передаваемую от земли на оборудование во избежание повреждений.
- Часто в центрах обработки данных применяется поднятые полы для прокладки кабелей. Такие полы способны обезопасить дорогостоящее оборудование от наводнения. Кроме того, необходимо предусмотреть водоотводы, дренаж и насосы, предназначенные для быстрого удаления воды из здания.
- Место восстановления после бедствия - в случае, если дальнейшая работа в ЦОД невозможна, компания должна иметь план релокации в другой ЦОД или в облако.
Для ЦОДа первостепенное значение имеет подготовка персонала и создание детального плана действий на случай любого стихийного бедствия. Вам нужно точно понимать, что как только час X пробьёт, всё сразу пойдёт не так, как вам хотелось бы: персонал в лучшем случае не будет знать, что делать, а в худшем - эвакуируется или не сможет попасть на работу. Что охрана не будет пускать на территорию автомобиль, на который никто не смог выписать пропуск по причине, указанной выше. Вам потребуется бензин - его не будет, когда найдёте - не будет бензовоза, не будет шланга, как у ребят из Internap, или не будет канистры. А если вы решите вывезти жёсткие диски с данными, вы не найдёте ни кейсов для транспортировки, ни машины, ни ярлыков для их меток. Вплоть до того, что отвёртки, которыми выкрутить серверы или ключи, которыми замыкаются HDD, в нужное время могут просто исчезнуть в соответствии с законами Мерфи.
Рон Амадео
31/03.2023