본문 바로가기

네트워크

재해 복구 시스템 / 업무연속성 계획 [DRS / BCP]

 

장애 및 장애

  • 장애 : 비정상적인 동작 및 오류 및 외부환경 등으로 인하여 서비스가 불가능하게 된 경우

  재해 : 주요 서비스가 최대 허용 가능시간(Maximum Allowable Downtime :MAD)을 초과하여 중단된 경우

 

 

재해복구 시스템/서비스(DRS)

 

  정 의

 재해 발생 시, 각 서비스별 복구 계획 수립을 통하여 복구 목표시간(RTO)내에 서비스를 재개하기 위한 IT 인프라

 재해로 인한 영향 및 손실을 최소화하기 위한 대비 요소

 BCP로 확장하기 위한 최소 요소

 

 목 적

 시스템 중단으로 인한 다른 서비스에 미치는 영향을 최소화 하기 위함

 • 내부/대외의 금전적  손실 예방

 서비스 중단으로 인한 기업 이미지 하락 및 그로 인한 고객 이탈 예방

 

 

 RTO / RPO

 RTO (Recovery Time Objective : 복구 목표시간)

     재해  발생 시, 서비스가 중단된 경우 이를 복구하는 데까지는 걸리는 최대 허용 시간

 RPO (Recovery Point Objective : 복구 목표시점)

     재해 발생 시, 중단된 서비스를 복구한 경우 이를 허용 가능한 유실범위를 시간으로 정의

 RTO + RPO = 허용 가능한 비즈니스 Risk

 

 

 

업무연속성 계획(Business Continutiy Planning : BCP)

 

  정 의

 재해/장애 발생을 대비하여 주요 서비스를 중단 없이 지속적으로 보장하도록 하기 위한 예방 및 복구 계획

 

 목 적

 고객에게 서비스 연속성을 보장하여 기업 신뢰도 향상

 

 

 BCP 방법론   

 

 현황분석

  업무 환경 분석

         1. 정보 자원의 조사

         2. 자원 이력 및 요구사항 분석

         3. 업무 지원 자원 현황 분석

         4. 기술 및 솔루션 현황 분석

 

 

 업무 영향 분석 (Business Impact Analysis : BIA)

       정의

            - 재해나 장애로 인해 서비스 운영의 문제가 발생할 것을 가정하고, 이에 따른 영향도 및  손실평가를 조사

       수행단계

            - 업무 분류 체계 정의 및 주요 업무 프로세스 식별 (정성적/정량적 평가 항목 도출 및 IT 담당자 인터뷰 설문조사 필요)

            - 각 서비스별 업무 상관 관계 분석

            - 재해 유형 및 피해 시, 손실 비용 분석

            - 서비스 중요도에 따른 복구 대상 범위 설정 및 우선 순위 도출 (서비스 중요도에 따른 가중치 적용)

            - 주요 서비스별 복구 목표 시간 설정

       구성요소

            - 핵심 우선순위 결정 (Criticality Prioritization) : 서비스 중요도에 따라서 복구에 대한 우선 순위 부여

            - 서비스 중단 시간 산정(Downtime Estimation) : 서비스 중단에 따른 최대 극복 가능 시간 산정 (MTD)

            - 자원요구 사항 (Resource Requirements) : 주요 서비스에 대한 자원 요구 사항을 정의

 

 

 전략 수립

 •재해복구 시스템

       1. 재해복구 등급별  복구 방안 수립

       2. 재해복구 시스템 요건 정의

       3. 재해복구 솔루션/기술 검토

 

 재해복구 체계

       1. 재해 선포 기준 선정

       2. 주 센터에 대한 백업센터 선정

       3. 재해 발생 시의 내부의 역할 분담 및 수행 활동 지침, 커뮤니케이션 전략 수립

 

 

시스템 구축/복구 계획 수립

 •재해복구 시스템

        1. 재해 복구를 위한 솔루션 구축

       2. 재해 복구 시 필요한 자원 및 소요 비용 산정

      

 재해복구 체계

       1. 재해복구 센터 구축

       2. 재해 발생 시 서비스 전환 세부 계획 수립

       3. 재해 발생 서비스의 단계별 세부 복구 계획 수립

       4. 재해 복구 센터의 일반 운영 계획 수립

       5. 재해 발생 모의 훈련 계획 수립

       6. 모든 절차는 초기 상황 분석을 통한 재해 선언 ~ 재해 복구 및 사후 처리에 대한 전 과정에 대한 절차 수립 필요

       7. 각 복구 단계별로 세부적인 행동 지침을 정의

       8. 최신 데이터를 반영할 수 있도록 복구 계획은 지속적인 변경 및 유지 관리

 

 

운영 및 이행

 •운영 및 이행 계획

       1.  주기적인 재해 복구 테스트 운영 및 결과에 따른 미비점 보완

       2.  추가적인 과제 추진을 위한 조직/역할 정의 필요