Cтратегия выживания или планирование непрерывности бизнеса
Даже незначительные сбои в ИТ инфраструктуре могут привести к остановке бизнес процессов и повлиять на достижение целей компании, более серьезные могут привести к значительным финансовым потерям и даже закрытию бизнеса. Риск возникновения сбоя будет существовать всегда, и эффективность решения возникающих проблем будет зависеть от того, насколько компания подготовлена к ним, поэтому обеспечение непрерывности бизнеса является одним из важнейших стратегических направлений развития любой компании. “Знал бы где упадешь соломку подстелил бы.” Естественно, заранее наперед знать где произойдет сбой невозможно, но что если “подстелить соломку” в наиболее вероятных местах падений, ну или там где будет больнее всего падать.
Планирование непрерывности бизнеса (Business Continuity Management) BCM - это комплексный стратегический ряд организационных мер направленных на снижение рисков прерывания бизнес процессов и минимизации негативных последствий в случае сбоев ИТ инфраструктуры. Комплексный подход, потому что охватывает рассмотрение всей инфраструктуры в целом: от уровня аппаратного обеспечения и заканчивая ИТ сервисами и процессами в компании.Стратегический потому как включает полный план действий при всевозможных ситуациях, способных возникнуть и привести к простою. По мимо этого, так же включает план восстановления ИТ экосистемы до приемлемого для функционирования бизнеса уровня в определенной последовательности действий и установленные сроки. Само понятие планирования непрерывности бизнеса является одним из направлений стратегического и оперативного менеджмента компании, но так как ИТ инфраструктура — это кровеносная система предприятия, то значительная часть BCM затрагивает ИТ. Обычно, некоторые аспекты BCM уже присутствуют в компании в том или ином виде, но чаще всего это бывает набор планов по послеаварийному восстановлению тех или иных отдельно взятых ИТ сервисов. Проблема такого “традиционного” подхода заключается в том, что он рассматривает отдельные ИТ сервисы обеспечивающие отдельные бизнес процессы или вовсе только их часть, не рассматриваю ситуацию в целом. Причины такого подхода кроются в отсутствии должной экспертизы и опыта ответственного человека. Дело в том, что планирование непрерывности бизнеса сложный процесс, требующий высокой компетенции и опыта во всех составляющих компонентах ИТ инфраструктуры: аппаратное обеспечение, программные приложения, сети передачи данных, сети хранения данных, решения обеспечения безопасности, требует понимания взаимодействия этих компонентов и объединение этих знаний в рамках одного контекста – стратегия непрерывности бизнеса. К примеру сервис онлайн магазина, бизнес процесс оформления покупки в онлайн магазине зависит от доступности следующих сервисов: веб серверы, серверы приложений, сервисной шины, сервисов онлайн платежей и клиент банка, а также ниже лежащих компонентов сети и серверной инфраструктуры.
Рис. 1. Схема сервисов онлайн магазина.
Планирование непрерывности бизнеса состоит из следующих этапов:
- Анализ
- Дизайн решения
- Внедрение
- Тестирование
- Сопровождение
На этапе общего анализа проводится: анализ бизнес-процессов; анализ рисков; анализ воздействия на бизнес. Анализ бизнес-процессов – на этом этапе определяют и оценивают важные для бизнеса процессы и определяют к ним требования по доступности и качеству. Анализ рисков — определение и оценка угроз влияющих на доступность и качество бизнес-процессов. Анализ воздействия на бизнес — оценка последствий для бизнеса в случае простоев той или иной системы, а так же определение целей восстановления каждого бизнес-процесса вместе с поддерживающей его инфраструктурой.
Определяют следующие основные метрики:
- максимально допустимое время простоя RTO (Recovery time objective)
- максимально допустимый период времени потери данных RPO (Recovery point objective)
- какую часть нагрузки должна обеспечивать резервная система RCapO (Recovery capacity objective)
Рис. 2. Основные метрики RPO, RTO.
Дизайн решения - на этом этапе определяет технологии и решения, которые позволят добиться соответствия ранее определенным требованиям RTO, RPO, RCapO. Дизайн решения – поиск компромиссного решения между стоимостью решения, соответствия требованиям RTO, RPO, RCapO и техническими возможностями решений. Для выбора оптимального решения необходимы глубокие и обширные знания решений и технологий рынке, а также опыт их применения. После проведенного сравнительного анализа решений выбирают наиболее рентабельное с точки зрения общей стоимости владения и выгоды, полученной от минимизации последствий простоя сервисов.
Рис. 3. Технологии обеспечения непрерывности бизнеса.
Для обеспечения жестко заданных требований RTO, RPO, RCapO при все возможных сбоях, невозможно обойтись какой-то одной технологией, необходима их комбинация. Но к примеру, при достаточно лояльных требованиях RTO, RPO, RCapO и жестких по бюджету, технологической основой плана непрерывности бизнеса могут быть выбраны продукты резервного копирования, капитальные расходы на них дешевле, чем на полноценные катастрофа устойчивые решения. Такая схема предусматривает резервное копирование на основную и удаленную площадку. Для снижения капитальных расходов на построение удаленной площадки, можно организовать резервное копирование в облако публичного провайдера и потом, в случае необходимости, арендовать мощности и произвести восстановление. Параметры RTO, RPO в такой схеме будут ориентировочно 24 и 4 часа соответственно. При оптимизации данной схемы с использованием услуг DRaaS (Disaster Recovery as a Service) - услуга катастрофа устойчивости по запросу, параметры RTO, RPO можно привести к 4 часа и 5 мин соответственно. В такой схеме у публичного сервис провайдера арендуется виртуальная машина и дисковое пространство для выполнения резервных копий и репликации данных в облако, заключается договор с сервис провайдером на гарантированное предоставление мощностей по требованию, в случае сбоя на основной площадке. Таким образом в штатном режиме работы(Рис. 4 Схема работи услуги DRaaS в нормальных условиях) ежемесячная плата сервис провайдеру включает в себя только аренду одной виртуальной машины для репликации и резервного копирования, а также плата за гарантирование сервис провайдером предоставления ресурсов RCap (Recovery Capacity) по требованию. В случае же сбоя (Рис. 5 Схема работи услуги DRaaS в случае падения основной площадки) и переключения сервисов на работу в облаке, заказчик будет оплачивать используемые ресурсы с гранулярностью в минуты. Использование услуг DRaaS позволяет оптимизировать капитальные расходы на построение катастроф устойчивых решений, нам теперь не нужно строить полноценную удаленную площадку, чтобы использовать ее только пару процентов в год в случае сбоев основной площадки. Операционные расходы на использование услуги DRaaS пару процентов в год гораздо меньше суммарных расходов на построение и обслуживание резервной площадки. Немаловажным фактором при выборе решения является возможность автоматизации процесса переключения и возможности обратного переключения на основную площадку (Fail Back), которая позволяет свести к минимуму запланированные простои во время процедуру переноса сервисов на основную площадку. Автоматизация задач переключения на резервную и основную площадки имеет важное значение, так как позволяет сократить RTO и что немало важно исключить ошибку человеческого фактора в стрессовых условиях. Следует так же отметить, что большое кол-во программных приложений имеют встроенный функционал резервирования данных и вычислительных ресурсов, что позволяет добиться параметров RTO, RPO близких к нулю, но их использование ведет к усложнению плана переключения на резервную площадку.
Рис. 4 Схема работи услуги DRaaS в нормальных условиях.
Рис. 5 Схема работи услуги DRaaS в случае падения основной площадки.
После внедрения плана непрерывности бизнеса, необходимо провести его тестирование на соответствие требованиям SLA, а также для отработки навыков персонала. Учитывая динамику развития современных ИТ инфраструктур план непрерывности бизнеса необходимо постоянно адаптировать под меняющуюся инфраструктуру, новые сервисы. Правильно спланированные решение позволяет минимизировать административные затраты на поддержание плана Business Continues в актуальном состоянии.