SLI/SLO Calculator
SLI/SLO/SLA 계산기 - 가용성 허용 다운타임 계산
가용성 목표
99.9%
허용 다운타임
연간
8시간 45분 57초
월간
43분 50초
주간
10분 4초
일간
1분 26초
에러 버짓 (허용 오류 수)
연간
365,250건
월간
30,440건
일간
1,000건
SLI/SLO Calculator 소개
SLI/SLO 에러 버짓 계산기는 가용성 목표의 실질적인 결과를 수치화해야 하는 사이트 신뢰성 엔지니어(SRE), DevOps 팀, 플랫폼 엔지니어를 위한 무료 도구입니다. 가용성 수준(99%, 99.5%, 99.9%(쓰리 나인), 99.95%, 99.99%(포 나인), 99.999%(파이브 나인))을 선택하고 예상 일일 요청 수를 입력하면, 계산기가 연간, 월간, 주간, 일간 허용 다운타임과 연간, 월간, 일간 허용 오류 수를 즉시 보여줍니다.
서비스 수준 지표(SLI), 서비스 수준 목표(SLO), 에러 버짓은 Google이 개척한 SRE 관행의 기반입니다. SLI는 서비스 신뢰성의 정량적 측정값(예: 요청 성공률 또는 지연 시간)입니다. SLO는 SLI의 목표 값(예: 요청의 99.9%가 성공)입니다. 에러 버짓은 허용되는 비신뢰성의 양, 즉 100%와 SLO 사이의 차이입니다. 새 기능을 빠르게 원하는 제품 팀과 안정성을 원하는 신뢰성 팀 사이에 비즈니스 합의를 만들어냅니다.
기술적으로, 계산기는 (1 - 가용성)에 각 기간의 초 수를 곱하여 허용 다운타임을 계산합니다: 연간 365.25일, 월간 30.44일, 주간 7일, 일간 1일. 에러 버짓은 (1 - 가용성)에 일일 요청 수를 곱한 다음 각 기간으로 확장하여 계산합니다. 결과는 SLO 목표의 실제 영향을 즉시 이해할 수 있도록 사람이 읽을 수 있는 기간 형식(일, 시간, 분, 초)으로 표시됩니다.
주요 기능
- 6가지 가용성 프리셋: 99%, 99.5%, 99.9%(쓰리 나인), 99.95%, 99.99%(포 나인), 99.999%(파이브 나인)
- 허용 다운타임 분류: 연간, 월간, 주간, 일간 허용 장애 시간
- 에러 버짓 분류: 일일 요청 수를 기반으로 한 연간, 월간, 일간 허용 오류 수
- 일, 시간, 분, 초 단위의 사람이 읽을 수 있는 기간 출력
- 트래픽 규모에 따른 정확한 에러 버짓 계산을 위한 일일 요청 수 설정
- 실시간 재계산 — 가용성 목표나 요청 수 변경 시 즉시 결과 업데이트
- 다운타임과 에러 버짓을 한눈에 비교할 수 있는 깔끔한 나란히 카드 레이아웃
- 100% 클라이언트 사이드 계산 — 서버로 데이터가 전송되지 않음
자주 묻는 질문
SLO란 무엇이고 SLA와 어떻게 다른가요?
SLO(서비스 수준 목표)는 서비스 신뢰성에 대한 내부 목표로, 예를 들어 HTTP 요청의 99.9%가 200ms 이내에 성공하는 것을 목표로 합니다. SLA(서비스 수준 계약)는 위반 시 패널티를 포함하는 고객과의 계약상 약속입니다. SLO는 SLA보다 더 엄격합니다 — 계약 위반 전에 완충 공간을 두기 위해 SLO를 SLA보다 높게 설정합니다.
에러 버짓이란 무엇이고 왜 유용한가요?
에러 버짓은 SLO 기간 내에 허용되는 비신뢰성의 양입니다. 99.9% SLO의 경우 에러 버짓은 요청 또는 시간의 0.1%입니다. 제품 팀에게 위험한 배포나 기능에 사용할 구체적인 "예산"을 제공하고, SRE 팀에게 버짓이 부족해질 때 감정이 아닌 데이터를 기반으로 릴리즈 속도를 늦출 이유를 제공합니다.
쓰리 나인(99.9%)과 포 나인(99.99%)의 차이는 무엇인가요?
쓰리 나인(99.9%)은 연간 약 8.77시간의 다운타임을 허용하며, 월간 약 43.8분에 해당합니다. 포 나인(99.99%)은 연간 52.6분, 월간 약 4.38분만 허용합니다. 나인 하나가 추가될 때마다 허용 다운타임이 약 10배씩 줄어들어, 이를 달성하기 위해 신뢰성 엔지니어링에 훨씬 더 많은 투자가 필요합니다.
오류 수 기준으로 에러 버짓을 어떻게 계산하나요?
일일 요청 수 필드에 평균 일일 요청 수를 입력하세요. 계산기는 일일 요청에 (1 - 가용성)을 곱하여 일일 에러 버짓을 구하고, 월간(x 30.44)과 연간(x 365.25)으로 확장합니다. 예를 들어 일일 요청이 1,000,000개이고 99.9% SLO인 경우, 하루에 1,000개의 오류가 허용됩니다.
SLO에 대비하여 측정할 때 다운타임이란 무엇을 의미하나요?
다운타임은 서비스가 SLO에 정의된 SLI 임계값을 충족하지 못하는 모든 기간입니다. 성공률 SLO의 경우 다운타임은 실패한 요청의 비율에 측정 기간을 곱하여 계산됩니다. 지연 시간 SLO의 경우 지연 시간 임계값을 초과한 요청의 비율입니다. 계획된 유지 관리 기간은 SLA 조건에 따라 제외될 수 있습니다.
파이브 나인(99.999%)은 달성 가능한가요?
파이브 나인은 연간 약 5.26분의 다운타임만 허용합니다. 이를 달성하려면 단일 실패 지점이 없는 완전 중복 인프라, 초 단위로 완료되는 자동 장애 조치, 인적 오류를 방지하기 위한 엄격한 변경 관리가 필요합니다. 일반적으로 다운타임이 심각한 결과를 초래하는 핵심 금융, 의료, 통신 서비스에서만 비용 대비 가치가 있습니다.
에러 버짓을 릴리즈 결정에 어떻게 활용해야 하나요?
모니터링 도구에서 실제 오류율을 SLO에 대해 추적하세요. 에러 버짓이 충분할 때(50% 이상)는 자신 있게 자주 배포할 수 있습니다. 10% 미만으로 떨어지면 중요하지 않은 배포를 중단하고 신뢰성 작업에 집중하세요. 버짓이 완전히 소진되면 신뢰성이 회복될 때까지 모든 기능 릴리즈를 중단하세요. 이 정책은 신뢰성을 조직 전체의 공유 목표로 만듭니다.
SLI, SLO, SLA의 차이는 무엇인가요?
SLI(서비스 수준 지표)는 요청 성공률 같이 측정하는 지표입니다. SLO(서비스 수준 목표)는 해당 지표의 내부 목표로, 예를 들어 성공률 99.9%입니다. SLA(서비스 수준 계약)는 SLO를 놓쳤을 때 환불 같은 결과를 포함하는 사용자나 고객과의 계약입니다. SLA 위반을 방지하기 위해 SLO는 항상 SLA보다 엄격해야 합니다.