고가용성(HA)은 일반적으로 내장된 장애 조치 메커니즘을 사용하여 다운타임이나 장애 없이 지속적으로 작동할 수 있는 시스템의 기능을 말합니다. 고가용성 시스템은 예상치 못한 사건이 발생하더라도 오류 없이 작동하도록 설계되었습니다.

고가용성이 중요한 이유

HA의 주요 목표는 가동 중지 시간을 방지하는 것입니다. 가동 중지 시간이란 시스템, 서비스, 애플리케이션, 클라우드 서비스 또는 기능을 사용할 수 없거나 제대로 작동하지 않는 기간을 말합니다. 가동 중단으로 인해 매출 손실, 생산성 저하, 회사 평판 손상이 발생합니다. 이는 HA를 다음과 같은 이유로 중요하게 만듭니다.

  • 비즈니스 연속성 – HA는 중요한 시스템, 기능 및 기능이 항상 예상대로 실행되도록 보장합니다. HA 시스템은 장애로부터 빠르게 복구되므로 조직은 예상대로(가급적 눈에 띄는 중단 없이) 고객에게 계속 서비스를 제공할 수 있습니다.
  • 향상된 사용자 경험 – 빠르고 안정적인 시스템은 고객 만족도를 유지하고 매출 손실, 데이터 손상, 생산성 저하로 인한 부정적인 영향을 방지하는 데 도움이 됩니다.
  • 경쟁 우위 – 높은 수준의 가용성은 조직이 경쟁사보다 더 빠르고 안정적인 서비스를 제공하여 차별화를 이루는 데 도움이 됩니다. 이는 전반적인 품질과 고객 만족에 대한 헌신을 보여줍니다.

고가용성 유형

HA에는 여러 유형이 있으며, 필요한 중복성 수준, 필요한 장애 허용 유형, 보호되는 시스템 종류에 따라 분류할 수 있습니다. 가장 일반적인 HA 유형은 다음과 같습니다.

  • 활성-수동 – 백업 시스템은 수동 또는 대기 모드로 유지되며 기본 시스템에 장애가 발생할 경우에만 활성화됩니다. 이러한 장애 조치 보호 방법을 사용하려면 백업 시스템으로 전환하기 위해 수동 개입이 필요할 때가 있습니다.
  • 활성-활성 – 여러 시스템이 적극적으로 실행되고 작업 부하를 공유합니다. 한 시스템에 장애가 발생하면 다른 시스템이 자동으로 해당 작업 부하를 이어받습니다. 이 유형의 HA는 시스템 간에 보다 복잡한 구성과 조정을 요구하지만 수동 옵션보다 향상된 성능과 확장성을 제공합니다.

이 다이어그램은 두 대의 NGINX Plus 서버로 구성된 액티브-패시브 HA 클러스터를 보여줍니다. NGINX는 또한 액티브-액티브 및 기타 HA 구성을 지원합니다.

 

 

도표

고가용성은 어떻게 구현되나요?

중복성과 장애 조치 메커니즘은 단일 장애 지점을 방지하여 구성 요소의 장애가 전체 시스템, 애플리케이션 또는 기능의 작동을 방해하지 않도록 합니다. 일반적인 메커니즘은 다음과 같습니다.

  1. 중복 구성 요소 – 시스템 내에 여러 서버, 네트워크 연결, 스토리지 시스템 및 전원 공급 장치를 배포합니다. 한 구성 요소가 고장나면 중단 없이 다른 구성 요소가 작동하게 됩니다.
  2. 모니터링 및 알림 – 성능과 가용성을 지속적으로 모니터링합니다 . 정전이나 기타 문제가 감지되면 경고가 생성됩니다. 시스템 관리자는 문제를 신속하게 식별하고 해결하여 가동 중지 위험을 줄일 수 있습니다.
  3. 부하 분산 – 하나 이상의 특수 서버가 백엔드 시스템 그룹을 대상으로 하는 요청을 가로채서 최적의 성능을 위해 트래픽을 분산합니다. 백엔드 시스템 하나에 장애가 발생하면 로드 밸런서는 자동으로 들어오는 요청을 다른 시스템으로 리디렉션합니다.
  4. 장애 조치 메커니즘 – 액티브-패시브 또는 액티브-액티브 구성이나 장애 조치 클러스터링을 구축하여 한 시스템에 장애가 발생하더라도 다른 시스템이 최소한의 중단으로 작업을 수행할 수 있도록 보장합니다.
  5. 백업 및 복구 시스템 – 장애 발생 시 데이터와 애플리케이션을 신속하게 복구할 수 있도록 보장합니다. 시스템은 하이브리드 방식일 수도 있고, 여러 위치 에 분산될 수도 있으며, 클라우드 기반 방식일 수도 있고, 장애 발생 후 곧바로 온라인으로 전환할 수도 있습니다.

고가용성을 지원하는 방법

HA를 제공하기 위해 배포해야 하는 서비스와 리소스는 시스템 유형, HA 유형 및 조직의 특정 요구 사항에 따라 달라집니다. 지원 요소는 다음과 같습니다.

  • 기술 지원 – HA 시스템에 대한 도움이 필요한 조직의 첫 번째 방어선입니다. 전담 지원 담당자가 문제 해결, 진단 및 해결을 도울 수 있습니다. 또한 높은 수준의 가용성을 유지하기 위한 모범 사례에 대한 지침을 제공할 수도 있습니다.
  • 유지관리 및 업그레이드 – 작동과 보안을 유지하려면 HA 시스템을 정기적으로 유지관리하고 사용 가능한 최신 버전의 소프트웨어를 실행해야 합니다.
  • 재해 복구 계획 – 시스템을 신속하게 복구해야 하는 조직에 필수적입니다. 미리 결정되고 문서화된 절차가 있으므로 시스템 관리자는 비상 시에 해결책을 기억하거나 생각해 낼 필요가 없습니다.
  • 문서화 및 교육 – 시스템 관리자가 HA 시스템을 관리하는 방법을 이해하는 데 도움이 됩니다. 문서에는 모범 사례, 튜토리얼, 교육 세션이 포함될 수 있습니다.

모범 사례: 고가용성

모범 사례를 따르면 운영 성과가 향상되고 비용이 많이 드는 가동 중지 시간이 최소화됩니다. 이러한 일반적인 모범 사례는 조직의 시스템, 위치 및 원하는 결과에 맞게 조정할 수 있습니다.

  • 중복성 통합 – 하드웨어 구성 요소에서 네트워크 연결에 이르기까지 시스템의 모든 수준이 강화되어 한 구성 요소에 오류가 발생하더라도 시스템은 예상대로 작동합니다.
  • 트래픽 부하 분산 – 들어오는 요청을 여러 시스템에 분산함으로써 한 시스템에 장애가 발생하더라도 여전히 작동 중인 시스템이 작업을 대신 수행할 수 있습니다.
  • 성능 및 가용성 모니터링 – 지속적인 모니터링과 알림을 통해 문제를 식별하고 해결하는 데 걸리는 시간을 줄일 수 있습니다.
  • 장애 조치 메커니즘을 자주 테스트하고 검증합니다. 장애 조치 메커니즘이 중단 발생 시에도 여전히 안정적으로 기능을 인계할 수 있는지 확인하기 위해 정기 테스트를 실시합니다.
  • 백업 및 복구 절차 – 장애 발생 시 데이터와 애플리케이션을 신속하게 복구할 수 있는지 확인합니다.
  • 정기적으로 시스템을 업그레이드하고 유지 관리합니다. 이를 통해 애플리케이션과 시스템을 작동하고 안전하게 유지할 수 있습니다.
  • 인력 교육 – 정기적인 테스트와 절차 강화는 특히 HA를 담당하는 개인과 팀의 표준 운영 절차가 되어야 합니다.
  • 클라우드 솔루션을 고려하세요. 클라우드 스토리지와 재해 복구를 통해 시스템은 장애 위치에 관계없이 계속 작동할 수 있습니다.
  • 보안 모니터링 – 악의적인 행위자 또는 무단 사용자가 데이터를 침해하거나 시스템에 접근하는 것을 방지하는 조치를 구현합니다.