Мониторинг серверной стойки: что для этого нужно
Серверная стойка - это миниатюрная экосистема со своим климатом, своей электрической частью, а также со своими средствами безопасности и защиты. Но как обеспечить надлежащее функционирование стойки и раннюю диагностику неисправностей? Решение - мониторинг серверных стоек. Технологии сегодня настолько развиты, что существует множество инструментов для контроля серверных стоек и всей вычислительной инфраструктуры небольшого предприятия. Данные системы также позволяют оптимизировать использование энергии, управлять резервным питанием и контролировать охлаждение.
Почему важно мониторить серверные стойки?
Современное вычислительное оборудование намного более надёжное и долговечное, чем было лет десять назад. Тем не менее, если условия эксплуатации не являются оптимальными, это окажет негативное влияние на срок службы компонентов. Чипы на платах расширения могут перегреваться до такой степени, что нарушится контакт в местах пайки, и как говорится, "чип отвалится", вызвав аварийное отключение машины, хотя внешне и чисто физически он конечно будет оставаться припаянным к плате расширения или материнской плате. С обратной стороны, если чипам слишком холодно, может сработать сигнализация об ошибке. Некоторые SSD и почти все HDD очень плохо относятся к работе при низких температурах.
Проблемы окружающей среды, которые сразу не влияют на оборудование, могут все же сократить общий срок его службы. Сервер, работающий в стойке при температуре на 10 градусов выше оптимальной температуры, не имеет заметных проблем с производительностью и не перестает работать сразу.
Однако, вентиляторы должны работать на более высокой скорости, что может привести к их более быстрому выходу из строя, электролитические конденсаторы быстрее высыхают, и всё это грозит неминуемыми тратами в дальнейшем.
Виды инструментов для мониторинга серверных стоек
Существует множество различных инструментов для мониторинга серверных стоек, которые используются на предприятиях:
- Температурные датчики - температура, возможно, является самой важной проблемой, способной вызвать немедленные и серьёзные проблемы. Знание точной температуры серверной стойки критично в любых ситуациях. И это не считая мониторинга температуры в целом в центре обработки данных.
- Датчики влажности - влажность может оказывать большое влияние на срок службы компьютерного оборудования и на его повседневную работу. Точный мониторинг датчиков позволит заранее спрогнозировать поломки вентиляционного оборудования в ЦОД и принять необходимые меры.
- Датчики воздушного потока - давление воздушного потока в серверной стойке при использовании внешних систем кондиционирования должно постоянно отслеживаться, чтобы обеспечивать оптимальные условия для работы серверов. В случае, если серверная стойка не получает свежий воздух в нужном объёме, необходимо незамедлительно обратиться в службу, отвечающую за системы кондиционирования.
- Датчики контакта - получение уведомлений при каждом контакте с серверной стойкой поможет гарантировать ее безопасность. Это может помочь предотвратить кражи или даже предупреждать людей о случайных ударах, которые могут привести к повреждению.
- Датчики открытия двери стойки - срабатывание оповещения при открытии двери стойки - хороший способ обеспечения безопасности и избежания несанкционированной работы.
- Датчики вибрации - в зонах с землетрясениями они очень популярны. Они также могут использоваться для того, чтобы понять, вызывают ли строительные или какие-то монтажные работы, такой уровень вибрации, который может повредить оборудование. Более всего к вибрации чувствительны магнитные жёсткие диски.
- Мониторинг электропитания - мониторинг электрической нагрузки каждой серверной стойки поможет определить оборудование, работающее с максимальной нагрузкой. В каких-то случаях, эта информация поможет вам распределить нагрузку между другими серверными шкафами, чтобы не вызывать перегрева в часы пик.
- Визуальный мониторинг стойки через вебкамеру или IP-камеру. Это один из самых полезных способов мониторинга: установив видеонаблюдение на стойку, вы легко увидите на записях, как техник случайно отключил не тот кабель, какая светодиодная индикация сейчас активна, да и в целом этот шаг очень помогает в расследовании инцидентов.
ПО для мониторинга серверной стойки
В принципе, ПО для мониторинга можно разделить на два класса: специализированный софт для дата-центров и программный стек общего назначения, собирающий и анализирующий информацию с датчиков и средств сбора метрик. К первому типу в том числе относятся Nagios, Zabbix, Netdata, а ко второму - InfluxDB, Prometheus, Icinga и т.д.
Рон Амадео
28/03.2023