План аварийного восстановления как конкурентное преимущество
С увеличением спектра используемых ИТ-систем и ростом их влияния на успешное течение рутинных рабочих процессов все больше предприятий принимает решение о составлении плана аварийного восстановления (англ. Disaster Recovery, DR). Это основной способ обеспечения сохранности важных данных и, в случае инцидента, возможность восстановить функционирование критических ИТ-систем в кратчайшие сроки. Как выглядит такой план и какую ценность он имеет для предприятия?
Начать необходимо с оценки рисков
Начать составление плана аварийного восстановления следует с оценки рисков для работы предприятия и их цены – может ли предприятие продолжать работу при сбое используемых ИТ-систем, сколько времени предприятие сможет работать в такой ситуации, располагает ли предприятие альтернативами используемых ИТ-систем и проч.
«Руководитель каждого предприятия должен предусмотреть ситуации, когда по причине обычной аварии, случайных или злонамеренных действий случаются сбои в работе ИТ-систем, и рассчитать потерянную в связи с простоями прибыль или возможные убытки. Если даже достаточно непродолжительный по времени простой, всего в несколько часов, будет стоить предприятию очень дорого или может привести к остановке деятельности, то стоит позаботиться о возможности оперативного восстановления работы ИТ-систем. Осуществить это помогает наличие конкретного плана действий», – говорит администратор облачных компьютерных систем компании «Балтнета» Александр Сташевский.
Как утверждает А. Сташевский, как правило, план аварийного восстановления является частью общего плана непрерывности бизнеса. Необходимость в плане аварийного восстановления возникает в процессе оценки всех возможных рисков для бизнеса. И все же, на предприятиях, где ИТ-системы являются существенным компонентом, определяющим работу предприятий, наличие такого плана должно быть приоритетом.
«Для предприятий, где ИТ-системы являются существенным, определяющим работу компании компонентом, наличие плана аварийного восстановления должно быть приоритетом.»
Основные элементы плана аварийного восстановления
План аварийного восстановления включает политику, инструменты и процедуры, позволяющие восстановить или продолжить эксплуатацию критичных систем и других элементов технологической инфраструктуры после различных сбоев, которые могут быть вызваны природными явлениями, злонамеренной деятельностью, человеческой ошибкой или техническими неполадками. В плане должны быть предусмотрены 5 основных элементов:
- Команда восстановления, члены которой отвечают за подготовку, осуществление и управление планом.
- Оценка риска, помогающая предусмотреть возможные опасности и необходимые меры, а также другие ресурсы, необходимые для возобновления работы предприятия.
- Идентификация критических данных и систем обеспечивающих непрерывность деятельности предприятия.
- Порядок создания и хранения резервных копий, в котором должны быть указаны точка восстановления данных (RPO) и время их восстановления (RTO), от которых зависит продолжительность времени простоя предприятия после инцидента.
- Порядок тестирования и оптимизации, предусматривающий регулярный пересмотр и обновление плана аварийного восстановления с учетом меняющихся потребностей предприятия.
К быстрому восстановлению работы необходимо подготовиться заранее
План аварийного восстановления – теоретический документ, который превращает в реальность соответствующие технологические решения. Один из старейших методов восстановления данных после инцидента – удаленные резервные копии данных (англ. Offsite Backup). Как утверждает А. Сташевский, это самый простой тип восстановления, позволяющий сохранить важные данные. Однако, он не гарантирует быстрого восстановления и возврата к обычному режиму работы, так как гарантирует лишь сохранность критичных данных, но не решает задачу рабочей резервной инфраструктуры.
Резервную ИТ-инфраструктуру можно подготовить в том же удаленном месте, в котором хранятся резервные данные предприятия. Наиболее простым и бюджетным методом является «холодное резервирование» (англ. Cold Site). В случае аварии, на предусмотренные вычислительные ресурсы переносят данные, разворачивают ИТ-системы и подготавливают их к работе. Несмотря на то, что такое решение является относительно недорогим, его основной недостаток – достаточно продолжительное время восстановления работы после инцидента.
Для максимально быстрого возобновления работы используются решение «горячее резервирование» (англ. Hot Site) – в удаленном месте беспрерывно работает копия инфраструктуры со всеми ИТ-системами и данными, что позволяет в максимально короткий срок заново запустить важные для предприятия процессы.
Правда, иметь продублированную IT инфраструктуру предприятия и постоянно следить за ее состоянием достаточно дорого. Поэтому на практике часто встречается промежуточный вариант между «холодным» и «горячим» резервированием – дублируются только основные системы предприятия, которые в случае инцидента обеспечивают непрерывность основных процессов работы предприятия, а остальные функции могут быть восстановлены в течение более продолжительного времени.
Решения, основанные на облачной технологии
Все большую популярность приобретает работающая на основе облачных сервисов- услуга DRaaS (англ. Disaster Recovery as a Service), которую предоставляет своим клиентам и «Балтнета». В данном случае данные и процессы переносятся в облачную инфраструктуру поставщика, которая позволяет слаженно продолжать работу и в случае сбоя основных ИТ-систем. Это решение дает возможность предложить клиенту большую гибкость.
Как утверждает А. Сташевский, для обеспечения максимальной отказоустойчивости на практике наиболее часто рекомендуется использовать комплексные решения. «Технологическая компания Veeam сформулировала правила защиты данных 3-2-1. Она рекомендует иметь 3 копии данных, которые хранятся на 2 носителях разного типа, один из которых расположен в удаленном месте. Это общее правило, которое в случае конкретной компании может быть применено с учетом ее потребностей. Но суть правила проста – нет ни одной технологии, надежной на сто процентов, поэтому высокий уровень защиты возможен при сочетании нескольких решений», – отмечает А. Сташевский.
«Для обеспечения максимальной отказоустойчивости на практике чаще всего рекомендуется использовать комплексные решения.»
Еще один дополнительный уровень защиты обеспечивает не так давно появившаяся на рынке услуга «тайных» копий данных, принцип действия которой похож на принцип обычного мусорного ящика компьютера, только в этом случае «мусорный ящик» невиден, и к нему нет доступа из инфраструктуры пользователя. Ориентированное на защиту от умышленного уничтожения резервных данных, решение позволяет предприятиям восстановить данные, которые были стерты кибер-преступниками или враждебно настроенными сотрудниками предприятия.
Ожидания пользователей и конкурентные преимущества предприятия
Слаженно работающие цифровые технологии могут быть одним из конкурентных преимуществ предприятия. В ситуации, когда все больше пользователей переходит к использованию услуг в цифровой среде, растут ожидания – от предприятий и других организаций ожидается обеспечение бесперебойного круглосуточного предоставления услуг.
«С одной стороны, бизнес сталкивается с ростом давления потребителей, которые предъявляют все более высокие требования к бесперебойно предоставляемым ИТ услугам. С другой стороны, предприятия используют все более комплексные системы, а также сталкиваются с опасностью кибер-рисков, что увеличивает вероятность всевозможных сбоев», – говорит А. Сташевский.
Эксперт считает, что план аварийного восстановления – только одна из частей ИТ стратегии предприятия. Несмотря на то, что план активируется достаточно редко и руководству предприятия может казаться, что это лишняя строка расходов в ИТ-бюджете, наличие такого плана можно сравнить со страховкой от несчастных случаев.
«Мы должны всегда надеяться на лучшее, но быть готовыми к худшему сценарию. И если худший сценарий реализуется, предприятию будет гораздо проще вернуться к привычной работе, а его клиенты, скорее всего, даже не заметят сбоя. То есть план не только помогает уменьшить количество инцидентов, но и позволяет сохранить доверие клиентов. Наличие такого плана сегодня – конкурентное преимущество.»