블로그 | CTO 사무실

SRE는 현대적 엔터프라이즈 아키텍처를 초점에 맞춥니다.

타비타 R. R. 파웰 썸네일
타비타 R. R. 파웰
2023년 1월 12일 게시

'켜져 있다'는 것은 성과를 측정하는 기준이 아닙니다. 램프에 전력이 공급된다고 해서 사용자가 자신이 하는 일을 확실히 볼 수 있을 만큼 충분한 조명을 제공한다는 의미는 아닙니다. 전력 이외에도 사용자가 볼 수 있는지 여부에 영향을 미치는 요소는 여러 가지가 있습니다. 전구가 어두울 수 있습니다. 전구가 거의 소진되었거나 전력은 공급되지만 충분하지 않기 때문입니다. 전구가 밝게 유지할 만큼 충분한 전력이 없다면 배선에 문제가 있거나 조광기로 인해 전기 흐름이 제한될 수 있습니다. 전구가 밝으면 램프 갓이 너무 어두울 수도 있고, 하나의 조명만으로는 공간이 너무 클 수도 있습니다. 간단히 말해서 램프의 성능과 그에 따른 사용자 경험에 영향을 미치는 요소는 많습니다. 마찬가지로, 가동 시간을 측정하는 기존 방식을 넘어 시스템과 애플리케이션의 성능과 안정성을 평가하는 데에는 더 많은 요소가 있습니다. 신뢰성은 서비스 수준에 따라서도 달라집니다.

시스템과 애플리케이션은 인프라, API, 보안, 워크플로, 논리, 데이터 등 여러 구성 요소로 이루어져 있으며, 특정 목적을 위해 함께 결합되어 있으며, 그저 결합되어 있다고 해서 안정성이 보장되는 것은 아닙니다. 램프 비유와 마찬가지로 최적의 성능과 경험을 확인하려면 모든 구성 요소를 평가하고 분석할 수 있어야 합니다. 반면, 오프라인 사업에서는 전반적인 경험을 평가하기 위해 '고객 경로'를 살펴보면 서비스 수준의 단점을 파악하는 것이 쉬울 수 있지만, 디지털 사업에서는 상당한 어려움이 될 수 있습니다. 기존 엔터프라이즈 아키텍처로 인해 비즈니스 및 IT 사일로가 형성되면서 문제를 식별하고 근본 원인을 찾는 것이 항상 쉽거나 효율적인 것은 아닙니다. 기업 리더는 문제가 있다고 생각할 수 있지만, 모든 것이 '켜져' 있다면 구성 요소를 관리하는 IT 팀은 문제가 없다고 생각할 수도 있습니다. SRE(사이트 안정성 엔지니어링)는 서비스 수준 목표(SLO)를 통해 비즈니스 약속의 실행을 보장하기 위해 비즈니스와 IT를 연결하는 다리 역할을 합니다.

SRE란 무엇인가?

사이트 안정성 엔지니어링은 2000년대 초반에 Google에서 처음 시작되었으며, Google에 따르면 "운영을 소프트웨어 문제인 것처럼 취급하면 얻을 수 있는 것"입니다. 우리 용어로 표현하면, 이는 비즈니스 목표를 지원하는 안정적이고 효율적이며 확장 가능한 시스템을 만드는 데 사용되는 프로세스, 관행, 도구의 집합이며 문화와 사고방식입니다.

SRE는 가용성뿐만 아니라 확장성과 안정성이 뛰어난 시스템에 초점을 맞춥니다. 보안과 마찬가지로 모든 사람이 자신의 역할에 관계없이 품질이 좋고 신뢰할 수 있는 시스템에 긍정적으로 기여해야 하기 때문에 이는 사고방식과 문화라고 덧붙입니다. SRE의 관행은 문화이자 사고방식이기도 하지만 종종 처음부터 끝까지 전체 서비스를 제공하는 서비스 팀에 내재되어 있습니다. 이러한 팀은 일반적으로 가용성, 지연 시간, 성능 및 복구를 모니터링하여 핵심 시스템을 개선하고 혁신을 실현하는 책임을 맡으며, 자동화 및 효율성을 통해 지속적인 개선을 추진합니다. 본질적으로 그들은 램프가 켜져 있는지 확인하는 것뿐만 아니라 방 전체를 살펴보고 있습니다.

SRE가 SLI를 사용하여 SLO를 충족하는 방법

사이트 안정성 엔지니어링은 비즈니스 성과를 충족하기 위해 SLO와 SLI(서비스 수준 지표)의 측정을 정의합니다. 더 간단히 말해서, SRE는 개발, 보안 및 운영 팀의 요구 사항과 목표를 통합하여 기업이 고객에게 한 약속을 확실히 이행합니다.

사용자가 자신의 작업을 볼 수 있을 만큼 충분한 조명을 안정적으로 확보한다는 것이 비즈니스 약속인 경우(서비스 수준), SLO는 10제곱피트마다 밝게 빛나는 램프 하나(가용성)를 유지하는 것이 될 수 있습니다. 한편, 또 다른 SLO는 MTTR(평균 복구 시간)로 정의될 수 있는데, 이 예에서는 꺼지거나 수명이 다한 전구를 교체하는 데 걸리는 시간을 말합니다. SLI는 사이트 안정성 엔지니어와 IT가 SLO가 달성되는지 확인하기 위해 정의하는 임계값입니다. 여기에는 광속, 각 램프로 흐르는 전기 흐름, 사용자가 램프를 부딪히거나 옮겨서 발생하는 램프 위치의 미미한 변화 등을 모니터링하는 것이 포함됩니다. 애플리케이션 제공 시스템에서는 CPU 사용률, API 호출, 데이터베이스 쿼리 시간 등이 이러한 지표로 나타날 수 있습니다. 사이트 안정성 엔지니어는 운영 정책과 구성을 조정하여 비즈니스 SLO에 영향을 미치는 SLI 측정값을 정의하고 특정 임계값 아래로 떨어질 때 어떤 대응을 취할 것인지 결정해야 합니다.

현대 엔터프라이즈 아키텍처에서 SRE의 이점

측정, 임계값, 대응은 SRE와 디지털 비즈니스의 애플리케이션 제공을 위해 설계된 최신 엔터프라이즈 아키텍처의 다른 도메인의 교차점입니다. 운영 데이터(원격 측정)는 SRE에서 정한 정의된 측정 및 임계값의 관찰 가능성을 제공합니다. 자동화는 사이트 안정성 엔지니어가 덜한 노력으로 정의된 대응을 확장할 수 있도록 도구, 기술, 관행을 결합해 적용하는 것으로, 이를 통해 디지털 서비스의 SLO를 효율적으로 충족할 수 있습니다. 그리고 디지털 서비스의 시스템 안정성은 디지털 비즈니스에서 긍정적인 사용자 경험을 제공할 가능성을 높여줍니다.

다시 말해, SRE는 모든 도구, 기술, 프로세스를 사용하여 시스템을 '켜는' 것 그 이상으로 안정적으로 작동하도록 보장함으로써 IT와 비즈니스의 노력을 통합하는 다리 역할을 합니다. SRE를 엔터프라이즈 아키텍처에 도입하면 기업은 시스템 애플리케이션 관리에 적극적으로 나설 수 있고, 중단이나 불규칙성을 더 빨리 알아차릴 수 있으며, 사이트 안정성 엔지니어는 사용자 경험에 영향을 미치기 전에 이를 조사하여 해결할 수 있습니다.

SRE를 비즈니스에 통합하고 효율적이고 확장 가능한 디지털 비즈니스로의 전환 여정을 지원하는 방법을 알아보려면 O'Reilly의 Enterprise Architecture for Digital Business 에서 Julia Renouard의 한 장인 "The Need for Speed"를 읽어보세요 .