Рынок центров обработки данных (ЦОД) продолжает стремительный рост. Дата-центры давно уже перестали быть эксклюзивным сервисом крупных IT-гигантов — собственные мощности для обработки и хранения информации строят финансовые учреждения, маркетплейсы и промышленные предприятия.
Однако ЦОД по-прежнему продолжает быть сложным инфраструктурным объектом, где для бесперебойной работы всего центра должны слаженно работать различные системы, которые выделяются в три основных группы:
- информационная инфраструктура,
- телекоммуникационная инфраструктура,
- инженерная инфраструктура.
Информационная инфраструктура прежде всего включает в себя серверное оборудование, обеспечивающее основную функцию ЦОД — обработку и хранение информации. Помимо высокой производительности серверы должны обладать максимальной отказоустойчивостью, что реализуется, например, резервированием электропитания и возможностью «горячей» замены его компонентов, таких как модули вентиляции или блоки питания.
Рис. 1. Горячая замена компонентов сервера.
Телекоммуникационная инфраструктура обеспечивает передачу данных как внутри ЦОДа, так и между дата-центрами и их пользователями.
Кабельная система, как основа передачи информации, в целом копирует решения, применяемые для построения офисных СКС, но имеет свои особенности:
- высокая плотность монтажа, которая характеризуется тем, что оконечные устройства (патч-панели и кроссы) имеют больше 24 портов на 1U высоты телекоммуникационного шкафа;
- высокие скорости передачи данных, которые многократно растут и в межмашинном общении не имеют ограничений, как это происходит в офисе, где основным потребителем информации является человек;
- доля систем на основе медных витопарных кабелей стремительно снижается, что обусловлено в первую очередь скоростью передачи данных по оптическому волокну, а во вторую более компактными и легкими компонентами.
Подробно все компоненты ЦОДов мы рассматриваем на профильном образовательном семинаре УЦ ВОЛС.Эксперт — Монтаж и тестирование СКС в ЦОД.
Компоненты для телекоммуникационной инфраструктуры ЦОД широко представлены как зарубежными, так и отечественными вендорами. В основном это претеминированные кабельные сборки и сопутствующие материалы для их прокладки и размещения в телекоммуникационных шкафах.
Рис. 2. Пример оптического кросса для дата-центров.
Инженерная инфраструктура центра обработки данных представляет собой комплекс систем и их оборудования, обеспечивающий бесперебойное функционирование систем и оборудования ИТ-инфраструктуры ЦОЦ и включает в себя:
- кондиционирование для поддержания температуры и уровня влажности в заданных параметрах;
- бесперебойное электроснабжение для автономной работы дата-центра в случаях отключения центральных источников электроэнергии;
- охранно-пожарную сигнализацию и система газового пожаротушения;
- системы удаленного IP-контроля, управления питанием и контроля доступа.
С развитием отрасли ЦОД растут и требования к этим сложным инфраструктурным объектам, где основным показателем работы является отказоустойчивость. Стандарт TIA-942, который определяет минимальные требования к телекоммуникационной инфраструктуре центров обработки данных предполагает 4 уровня надежности дата-центров:
- Уровень 1 (N) — отказы оборудования или проведение ремонтных работ приводят к остановке работы всего дата-центра; в дата-центре отсутствуют фальшполы, резервные источники электроснабжения и источники бесперебойного питания; инженерная инфраструктура не зарезервирована;
- Уровень 2 (N+1) — имеется небольшой уровень резервирования; в дата-центре имеются фальшполы и резервные источники электроснабжения, однако проведение ремонтных работ также вызывает остановку работы дата-центра;
- Уровень 3 (2N) — имеется возможность проведения ремонтных работ (включая замену компонентов системы, добавление и удаление вышедшего из строя оборудования) без остановки работы дата-центра; инженерные системы однократно зарезервированы, имеется несколько каналов распределения электропитания и охлаждения, однако постоянно активен только один из них;
- Уровень 4 (2(N+1)) — имеется возможность проведения любых работ без остановки работы дата-центра; инженерные системы двукратно зарезервированы, то есть продублированы как основная, так и дополнительная системы (например, бесперебойное питание представлено двумя ИБП, каждый из которых уже зарезервирован по схеме N+1).
Для подтверждения надежности ЦОД применяется система сертификации, где наиболее распространенной является система классификации Tier, разработанная Uptime Institute — независимой коммерческой организацией, занимающейся исследованиями в области дата-центров, разработкой стандартов, обучением специалистов, аудитом и сертификацией дата-центров в области надежности и отказоустойчивости.
Всего существует четыре уровня надежности ЦОД, где каждый новый уровень включает в себя требования, предъявляемые к предыдущим:
- Tier I подразумевает, что дата-центр обладает базовой функциональностью для поддержания IT-инфраструктуры: имеется система бесперебойного питания, гарантирующая защиту от скачков напряжения, а также система охлаждения и генератор, обеспечивающий возможность работы при отключении электроэнергии. Система резервирования при этом отсутствует: выход из строя одного из компонентов приведет к простою всего дата-центра;
- Tier II предполагает наличие определенного уровня резервирования. Дата-центр этого уровня может не прекращать работу в случае выхода оборудования из строя. Это возможно благодаря наличию дополнительных каналов электропитания и охлаждения. Проведение ремонтных работ, однако, невозможно без остановки дата-центра. Используемая схема резервирования называется N+1 (к используемым N основным системам добавляется одна резервная);
- Tier III подразумевает более высокий уровень резервирования: работы по техническому обслуживанию или замене вышедших из строя компонентов могут производиться без нарушения нормального функционирования дата-центра. Все инженерные системы многократно зарезервированы: имеется множество каналов электропитания и охлаждения, однако постоянно активным является только один из них. Такая схема резервирования называется 2N: все основные системы продублированы, что исключает простои;
- Tier IV включает наивысший уровень резервирования. Все инженерные системы дата-центров этого уровня резервируются по схеме 2 (N+1): дублируются как основная, так и дополнительная системы.
Каждый уровень надежности включает в себя три этапа проверки: проект (Dеsign), готовый объект (Facility) и эксплуатация (Operational Sustainability). Использование данных уровней логично — сначала проверяется проектная документация, где должны быть отображены все решения по требованиям отказоустойчивости. Затем построенный объект проверяется на соответствие проекту. И уже в конце сертифицируется то, как будет эксплуатироваться построенный объект, включая проверку квалификации персонала и знание инструкций, как действовать в случае аварии.
Проверить наличие сертификата дата-центра можно на официальном сайте Uptime Institute. В качестве примера на рисунке 3 приведен скриншот с сайта, подтверждающий наличие сертификата по уровню надежности Tier III у одного из дата-центров МТС.
Рис. 3. Скриншот с сайта Uptime Institute.
Наиболее распространённый уровень — Tier III, так как он выполняет все необходимые функции для обеспечения бесперебойной работы всего оборудования. На дату написания статьи все доступные в общем списке российские ЦОДы имели именно этот уровень сертификации.
Сертификация дата-центра не гарантирует полную отказоустойчивость. Она лишь показывает, что при проектировании и строительстве были максимально учтены все рекомендации по его надежности. Если возможные стихийные бедствия еще можно как-то предусмотреть, как, например, строительство сейсмоустойчивых ЦОДов, то повреждения, вызванные боевыми действиями или техногенными катастрофами предугадать невозможно.
В качестве примера можно привести пожар в дата-центре SBG2 в Страсбурге, где огнем было уничтожено всё здание и нарушилась работа соседних центров обработки данных. Пример, может быть, не совсем удачный, так как при расследовании причин пожара выявились многочисленные нарушения, но наглядно показывающий, что никто не застрахован от катастроф.
Рис 4. Тушение горящего дата-центра SBG2
Центр обработки данных — это сложное инженерное сооружение, работоспособность и отказоустойчивость систем которого начинается еще с этапа проектирования, где рассчитывается резервирование всех систем. Но важно помнить, что отказоустойчивость всех систем обеспечивают люди, которые строят и обслуживают дата-центры. Своевременное обучение и повышение квалификации персонала — важный шаг к надежности ЦОДов.