평균트루범위 지표

마지막 업데이트: 2022년 3월 28일 | 0개 댓글
  • 네이버 블로그 공유하기
  • 네이버 밴드에 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 카카오스토리 공유하기

글머리기호 차트 참조

글머리기호 차트를 사용하면 타겟 업계 기준치 대비 주어진 측정항목의 실적을 빠르게 확인할 수 있습니다. 글머리기호 차트는 3가지 구성요소로만 이루어집니다.

  • 그래프로 보려는 측정항목의 실제 값을 나타내는 중심 막대
  • 목표 값을 나타내는 세로선
  • 나쁨, 평균, 좋음 등 임계값 범위를 나타내는 색상 밴드

글머리기호 차트는 주로 대시보드에서 사용되어 다양한 '건강 상태' 또는 실적 KPI(핵심성과지표)를 모니터링하는 측정기 또는 측정기 모양의 위젯을 제공합니다.

데이터 스튜디오의 글머리기호 차트

데이터 스튜디오의 글머리기호 차트는 단일 측정항목을 시각화합니다. 목표 값을 표시하고 최대 3개의 범위를 설정할 수 있습니다(선택사항). 차트 색상을 변경하고 데이터 필터를 적용할 수도 있습니다.

예:

아래의 글머리기호 차트는 가상 온라인 과정의 평균 성적 측정항목을 기준으로 작성되었습니다. 평균 성적이 목표를 초과한다는 것을 한눈에 알 수 있습니다.

  • 중심 막대는 측정항목 값을 나타냅니다(이 예에서는 3.2).
  • 세로선은 목표 평균 성적을 나타냅니다(차트 구성에서 2.8로 설정됨).
  • 그래프의 색상 밴드는 평균 성적의 범위를 나쁨, 평균, 좋음으로 나타냅니다.

글머리기호 차트의 예. 평균 성적 측정항목은 글머리기호 차트 상단에 스코어카드를 추가하면 표시됩니다.

차트 구성

차트를 선택한 다음 오른쪽에서 속성 패널을 사용하여 차트 옵션을 구성합니다.

데이터 속성

차트의 데이터 속성 패널에 있는 옵션은 데이터가 구성되고 표시되는 방법에 영향을 줍니다.

데이터 소스

데이터 소스는 구성요소와 기본 데이터 세트를 연결해줍니다.

  • 차트의 데이터 소스를 변경하려면 현재 데이터 소스 이름을 클릭합니다.
  • 데이터 소스를 보거나 수정하려면 를 클릭합니다. (이 아이콘을 보려면 보기 권한이 있어야 합니다.)
  • 동일한 차트에서 여러 데이터 소스의 데이터를 보려면 +데이터 혼합을 클릭합니다. 데이터 혼합에 대해 자세히 알아보기

측정기준은 데이터 카테고리로서, 카테고리의 이름, 설명, 기타 특징이 측정기준의 값(측정기준별로 포함된 데이터)이 됩니다.

오른쪽 사용 가능한 필드 패널에서 필드를 드래그하여 차트에 측정기준을 추가합니다. 데이터 탭에서 측정기준 추가를 클릭하는 방법도 있습니다.

이 옵션은 드릴다운을 지원하는 차트에 표시됩니다.

드릴다운을 사용하면 뷰어가 차트에서 다른 수준의 세부정보를 확인할 수 있습니다. 드릴다운 옵션을 사용 설정하면 추가된 각 측정기준이 드릴다운할 수 있는 또 다른 세부정보 수준이 됩니다. 차트 드릴다운에 대해 자세히 알아보기

기간 측정기준

이 옵션은 데이터 소스에 유효한 기간 측정기준이 있는 경우 표시됩니다. Google Ads 및 애널리틱스 데이터 소스의 경우 이 옵션은 날짜 측정기준으로 자동 설정됩니다.

기간 측정기준은 차트의 기간을 제한하는 기준값으로 사용됩니다. 예를 들어 차트에 대해 기간 속성을 설정할 때나 보고서의 뷰어가 기간 컨트롤을 통해 기간을 제한할 때 사용되는 측정기준입니다.

시간 측정기준은 차트에서 시간 기반의 X축에 표시되는 정보입니다. 이 측정기준의 데이터에 의해 시간열의 기간이 결정됩니다. 이 측정기준은 기간 측정기준과 같을 수도 있고 별도의 측정기준일 수도 있습니다. 예를 들어 기간 측정기준으로 YYYYMMDD 형식의 기간 측정기준을 사용할 수 있지만, 차트에서 X축에 달력의 분기별로 분류된 다른 측정기준을 사용할 수 있습니다.

세부 측정기준

세부 측정기준에는 선택한 측정기준에 따라 분류된 측정항목 데이터가 표시됩니다. 예를 들어 연간 판매 데이터를 보여주는 차트에서 지역별 판매량을 확인할 수 있도록 판매 지역 측정기준에 따라 분류하거나, 영업 담당자별 판매량을 확인할 수 있도록 직원 ID 측정기준에 따라 분류할 수 있습니다.

측정항목을 통해 측정기준에 포함된 항목을 측정하고 차트에는 숫자 범위와 데이터 계열을 포함합니다.

오른쪽의 사용 가능한 필드 패널에서 필드를 드래그하여 차트에 측정항목을 추가합니다. 데이터 탭에서 측정항목 추가를 클릭하는 방법도 있습니다.

측정항목은 기본 데이터 세트에서 가져온 집계 또는 COUNT(), SUM(), AVG() 등의 집계 함수를 암시적 또는 명시적으로 적용한 결과입니다. 측정항목 자체에는 정의된 설정값이 없으므로 측정기준을 사용할 때처럼 측정항목별로 그룹화할 수 없습니다.

글머리기호 차트는 단일 측정항목을 포함할 수 있습니다.

범위 제한

범위 제한은 차트의 임계값을 지정할 수 있습니다. 범위는 보통 '나쁨', '평균', '좋음' 임계값을 나타냅니다. 글머리기호 차트는 기본적으로 범위 값을 1, 2, 3으로 설정합니다. 실제 데이터에 잘 맞도록 이 값을 조정해야 합니다. 범위 값을 0으로 설정해 평균트루범위 지표 차트에서 범위를 삭제할 수 있습니다. 범위가 전혀 필요하지 않으면 3개의 범위를 모두 같은 값으로 설정하세요(측정항목 값을 표시할 수 있도록 충분히 큰 값을 사용).

범위 1 '나쁨' 범위의 임계값을 설정합니다.
범위 2 평균 '범위'의 임계값을 설정합니다.
범위 3 '좋음' 범위의 임계값을 설정합니다.

차트의 목표 값을 지정할 수 있습니다.

목표 표시 세로 목표 막대를 표시하거나 숨깁니다.
목표 값 목표 값을 설정합니다.

기본 기간

기본 기간 속성을 사용하면 개별 차트에 기간을 설정할 수 있습니다.

기본 기간 옵션

자동 차트의 데이터 소스에 의해 지정된 기본 기간을 사용합니다.
맞춤 캘린더 위젯을 사용해 차트 기간을 직접 선택할 수 있습니다.
날짜 비교 유형 선택한 기간의 비교 데이터를 표시합니다.

Google 애널리틱스 세그먼트

이 옵션은 유니버설 애널리틱스 데이터 소스를 기반으로 차트에 나타납니다.

세그먼트는 애널리틱스 데이터의 하위 집합입니다. 데이터 스튜디오 차트에 세그먼트를 적용하여 데이터 스튜디오와 Google 애널리틱스 보고서에 동일한 데이터가 표시되도록 할 수 있습니다. 데이터 스튜디오의 애널리틱스 세그먼트에 대해 자세히 알아보기

필터는 지정된 값을 포함하거나 제외하여 구성요소에 표시되는 데이터를 제한합니다. 필터 속성 자세히 알아보기

필터 옵션

필터 이름 수정하려면 기존 필터를 클릭합니다. 삭제하려면 필터 이름 위로 마우스를 이동한 다음 X 를 클릭합니다.
+필터 추가 차트에 새 필터를 만들려면 이 옵션을 클릭하세요.

스타일 속성

차트의 스타일 속성은 전체적인 차트의 모양과 표시 방법을 설정합니다.

막대 색상

이 섹션에서 중심 목표 막대와 범위의 모양을 설정합니다.

막대 색상 값 막대의 색상을 설정합니다.
범위 색상 범위의 색상을 설정합니다.

차트 축의 모양을 설정합니다.

축 표시 차트 축을 표시하거나 숨깁니다.
글꼴 색상 축 라벨의 색상을 설정합니다.
글꼴 모음 축 라벨의 글꼴 모음을 설정합니다.

배경 및 테두리

이 옵션으로 차트 배경 컨테이너의 모양을 설정합니다.

평균트루범위 지표
배경 차트의 배경 색상을 설정합니다.
테두리 반경 차트 배경에 둥근 테두리를 추가합니다. 반경이 0이면 배경 도형의 모서리는 90°입니다. 테두리 반경이 100°면 원형 도형이 만들어집니다.
불투명도 차트의 불투명도를 설정합니다. 불투명도를 100%로 설정하면 객체를 차트 뒤에 완전히 숨길 수 있습니다. 불투명도를 0%로 설정하면 차트를 숨길 수 있습니다.
테두리 색상 차트 테두리의 색상을 설정합니다.
테두리 두께 차트 테두리의 선 두께를 설정합니다.
테두리 스타일 차트 테두리의 선 스타일을 설정합니다.
테두리 그림자 추가 차트 오른쪽 하단 테두리에 그림자를 추가합니다.

차트 헤더

차트 헤더를 사용하면 조회자가 데이터 내보내기, 드릴업 또는 드릴다운, 탐색기 도구에서 차트 보기 등의 다양한 작업을 수행할 수 있습니다. 차트 헤더 옵션은 다음과 같습니다.

평균트루범위 지표

기계학습에서 모델이나 패턴의 분류 성능 평가에 사용되는 지표들을 다루겠습니다. 어느 모델이든 간에 발전을 위한 feedback은 현재 모델의 performance를 올바르게 평가하는 것에서부터 시작합니다. 모델이 평가해야하는 요소와 그 것을 수치화한 지표들, 그리고 관련 개념들에 대해서 다루도록 하겠습니다.

모델의 분류와 정답

모델을 평가하는 요소는 결국, 모델이 내놓은 답과 실제 정답의 관계로써 정의를 내릴 수 있습니다. 정답이 True와 평균트루범위 지표 False로 나누어져있고, 분류 모델 또한 True False의 답을 내놓 습니다. 그렇게 하면, 아래와 같이 2x2 matrix로 case를 나누어볼 수 있겠네요.

이제 각 case별로 살펴보겠습니다.

  • True Positive(TP) : 실제 True인 정답을 True라고 예측 (정답)
  • False Positive(FP) : 실제 False인 정답을 True라고 예측 (오답)
  • False Negative(FN) : 실제 True인 정답을 False라고 예측 (오답)
  • True Negative(TN) : 실제 평균트루범위 지표 False인 정답을 False라고 예측 (정답)

이러한 case별로 우리의 분류 모델의 성능을 어떻게 평가할 수 있을까요?

1. Precision, Recall and Accuracy

Precision, Recall, Accuracy는 논문에서도 사용하는 지표들이며 가장 눈에 익는 지표들입 니 다. 하지만 서로 헷갈리는 경우가 많으니, 제대로 정리할 필요가 있겠 습니 다. 우리는 모델이 예측한 다양한 경우를 생각해보며, 위의 2x2 matrix에 해당하는 것을 어떻게 지표화 할 것인지 고민해보겠습니다. 지표를 평균트루범위 지표 고민함과 동시에 실제 사례를 들어서 해당 지표를 왜 써야하는지도 함께 생각해보고자 합니다. 여기서는 한달 동안의 날씨를 예측하는 상황을 생각해보겠습니다. 날씨는 비가 오거나 맑거나 두 가지만 존재한다고 가정합니다.

1.1 Precision(정밀도)

정밀도란 모델이 True라고 분류한 것 중에서 실제 True인 것의 비율입니다. 즉, 아래와 같은 식으로 표현할 수 있습니다.

Positive 정답률, PPV(Positive Predictive Value)라고도 불립니다. 날씨 예측 모델이 맑다로 예측했는데, 실제 날씨가 맑았는지를 살펴보는 지표라고 할 수 있겠습니다.

1.2 Recall(재현율)

재현율이란 실제 True인 것 중에서 모델이 True라고 예측한 것의 비율입니다.

통계학에서는 sensitivity으로, 그리고 다른 분야에서는 hit rate라는 용어로도 사용합니다. 실제 날씨가 맑은 날 중에서 모델이 맑다고 예측한 비율을 나타낸 지표인데, 정밀도(Precision)와 True Positive의 경우를 다르게 바라보는 것입니다. 즉, Precision이나 Recall은 모두 실제 True인 정답을 모델이 True라고 예측한 경우에 관심이 있으나, 바라보고자 하는 관점만 다릅니다. Precision은 모델의 입장에서, 그리고 Recall은 실제 정답(data)의 입장에서 정답을 정답이라고 맞춘 경우를 바라보고 있습니다. 다음의 경우를 생각해보겠습니다.

"어떤 요소에 의해, 확실히 맑은 날을 예측할 수 있다면 해당하는 날에만 맑은 날이라고 예측하면 되겠다."

이 경우에는 확실하지 않은 날에는 아에 예측을 하지 않고 보류하여 FP의 경우의 수를 줄여, Precision을 극도로 끌어올리는 일종의 편법입니다. 예를 들어 한달 30일 동안 맑은 날이 20일이었는데, 확실한 2일만 맑다고 예측한다면, 당연히 맑다고 한 날 중에 실제 맑은 날(Precision)은 100%가 나오게 됩니다. 하지만 과연, 이러한 모델이 이상적인 모델일까요?

따라서, 우리는 실제 맑은 20일 중에서 예측한 맑은 날의 수도 고려해 보아야합니다. 이 경우에는 Precision만큼 높은 결과가 나오지 않습니다. Precision과 함께 Recall을 함께 고려하면 실제 맑은 날들(즉, 분류의 대상이 되는 정의역, 실제 data)의 입장에서 우리의 모델이 맑다고 예측한 비율을 함께 고려하게 되어 제대로 평가할 수 있습니다. Precision과 Recall은 상호보완적으로 사용할 수 있으며, 두 지표가 모두 높을 수록 좋은 모델입니다.

1.3 Precision-Recall Trade-off

1. 3. 1 with Type 1, 2 error

이 table과 위 matrix는 같은 개념을 다르게 표현한 것 뿐입니다. 가설 검정에서도 Type 1 error와 Type 2 error는 서로 trade off 관계에 있다고 배웠습니다. 여기서 다시 짚고 넘어가보죠.

이 정의에 따라 Type 1, 2 error를 그림으로 살펴봅시다.

Image Source: https://stats.stackexchange.com/questions/211736/type-i-error-and-type-ii-error-trade-off

가설 검정 시에 어떤 상황에서 어떤 가설을 받아들일지의 기준이 필요합니다. 그래서, 그 기준으로써 critical region을 잡게 되는데 Type 1 error는 H0가 true일 때, reject H0일 확률, 즉, 미리 설정해둔 critical region의 표본을 뽑을 확률입니다. 위의 그림에서 Any mean이 기준점이고 H0 관점에서 빨간색 영역이 기각역이라고 볼 수 있습니다. 그리고 이 기각역에 따라 Type 2 error도 정해집니다. 그림으로 보다시피 Any mean을 좌우로 조정하게되면 Type 1, 2 error의 크기가 변합니다. 하지만 둘다 커지거나 둘다 작아지는 경우가 없는 trade-off관계입니다.

다시 본론으로 돌아와서, Precision과 Recall은 TP를 분자로써 같이하고 분모에는 TP에 Type 1, 2 error에 해당하는 FN, FP를 더하여 계산합니다. 이때, FN, FP는 각각 Type 1, 2 error에 있으므로 Precision과 Recall 또한 trade-off 관계에 있다고 할 수 있습니다.

1. 3.2 with Venn-diagram

A는 실제 날씨가 맑은 날입니다. 그리고 B는 모델에서 날씨가 맑은 날이라고 예측한 것입니다. 이때 b의 영역은 TP로 실제 맑은 날씨를 모델이 맑다고 제대로 예측한 영역입니다. 이러한 영역 상에서 Precision과 Recall은 다음과 같습니다.

모델의 입장에서 모두 맑은 날이라고만 예측하는 경우를 생각해봅시다. 그렇게 되면 TN(d)의 영역이 줄어들게 되고 그에 따라 FN(a)의 영역 또한 줄게 됩니다. 그러므로 Recall은 분모의 일부인 FN(a)영역이 줄기 때문에 Recall은 100%가 됩니다. 즉, 여기서 A⊂B인 관계를 형성합니다. 하지만, 주의할 것은 단순히 a의 영역만 줄어드는 것이 아니라 d의 영역과 a의 영역이 모두 c로 흡수된다는 것입니다. Precision의 경우에는 기존보다 FP(c)의 영역이 커져 Precision은 줄게 됩니다. 이해가 안된다면 다음 표로 이해해보겠습니다.

General Case에서 Recall은 20 / 50 = 40%, Precision = 20 / 60 = 33.3% 입니다. 그리고 분류모델이 모두 True라고 예측한 오른쪽의 case에서의 recall은 FN = 0이므로 100%이지만 그에 따라 FP가 늘어서 precision은 20/100 = 20%가 되었습니다. 이처럼 precision과 recall은 모두 높은 것이 좋지만, trade-off 관계에 있어서 함께 늘리기가 힘듭니다.

1.4 Accuracy(정확도)

이제는 또 관점을 다르게 생각해봅시다. 사고의 확장이 빠른 사람들은 예상했겠지만, 위 두 지표는 모두 True를 True라고 옳게 예측한 경우에 대해서만 다루었 습니 다. 하지만, False를 False라고 예측한 경우도 옳은 경우입니다. 이때, 해당 경우를 고려하는 지표가 바로 정확도(Accuracy) 입니 다. 식으로는 다음과 같이 나타냅니다.

정확도는 가장 직관적으로 모델의 성능을 나타낼 수 있는 평가 지표입니다. 하지만, 여기서 고려해야하는 것이 있습니다. 바로 domain의 편중(bias)입니다. 만약 우리가 예측하고자 하는 한달 동안이 특정 기후에 부합하여 비오는 날이 흔치 않다고 생각해보죠. 이 경우에는 해당 data의 domain이 불균형하게되므로 맑은 것을 예측하는 성능은 높지만, 비가 오는 것을 예측하는 성능은 매우 낮을 수 밖에 없습니다. 따라서 이를 보완할 지표가 필요합니다.

1.5 F1 score

1.5.1 F1 score

F1 score는 Precision과 Recall의 조화평균입니다.

F1 score는 데이터 label이 불균형 구조일 때, 모델의 성능을 정확하게 평가할 수 있으며, 성능을 하나의 숫자로 표현할 수 있습니다. 여기서 단순 산술평균으로 사용하지 않는 이유는 무엇일까요? 우리가 평균 속력을 구할 때, 이 조화평균의 개념을 사용해 본 경험이 있을 것입니다. 조화평균의 본질에 대해 이해해보겠습니다.

1.5.2 조화평균의 기하학적 접근

조화평균은 기하학적으로 다음과 같이 표현할 수 있 습니 다. 서로 다른 길이의 A, B와 이 두 길이의 합만큼 떨어진 변(AB)으로 이루어진 사다리꼴을 생각해봅시다. 이 AB에서 각 변의 길이가 만나는 지점으로부터 맞은 편의 사다리꼴의 변으로 내린 선분이 바로 조화평균을 나타냅니다.

기하학적으로 봤을 때, 단순 평균이라기보다는 작은 길이 쪽으로 치우치게 된, 그러면서 작은 쪽과 큰 쪽의 사이의 값을 가진 평균이 도출됩니다. 이렇게 조화평균을 이용하면 산술평균을 이용하는 것보다, 큰 비중이 끼치는 bias가 줄어든다고 볼 수 있습니다. 즉, F1-score는 아래와 같이 생각할 수 있습니다.

2. 그 외 다른 지표들

이 외에도 모델의 성능을 측정하는 다양한 지표들이 존재합니다. 다음을 살펴봅시다.

2.1 Fall-out

Fall-ou t은 FPR(False Positive Rate)으로도 불리며, 실제 False인 data 중에서 모델이 True라고 예측한 비율입니 다. 즉, 모델이 실제 false data인데 True라고 잘못 예측(분류)한 것으로 다음과 같이 표현할 수 있 습니 다.

2.1 ROC(Receiver Operating Characteristic) curve

여러 임계값들을 기준으로 Recall-Fallout의 변화를 시각화한 것입니다. Fallout은 실제 False인 data 중에서 모델이 True로 분류한, 그리고 Recall은 실제 True인 data 중에서 모델이 True로 분류한 비율을 나타낸 지표로써, 이 두 지표를 각각 x, y의 축으로 놓고 그려지는 그래프를 해석합니다. 아래 예시를 보죠.

Image Source: https://www.medcalc.org/manual/roc-curves.php

curve가 왼쪽 위 모서리에 가까울수록 모델의 성능이 좋다고 평가합니다. 즉, Recall이 크고 Fall-out이 작은 모형이 좋은 모형인 것입니다. 또한 y=x 그래프보다 상단에 위치해야 어느정도 성능이 있다고 말할 수 있습니다.

2.2 AUC(Area Under Curve)

ROC curve는 그래프이기 때문에 명확한 수치로써 비교하기가 어렵 습니 다. 따라서 그래프 아래의 면적값을 이용합니다. 이것이 바로 AUC(Area Under Curve) 입니다. 최대값은 1이며 좋은 모델(즉, Fall-out에 비해 Recall 값이 클수록) 1에 가까운 값이 나옵니다.

Amazon CloudWatch 개념

다음 용어 및 개념은 Amazon CloudWatch를 이해하고 사용하는 데 있어 매우 중요합니다.

네임스페이스

네임스페이스는 CloudWatch 지표의 컨테이너입니다. 다른 네임스페이스의 지표는 서로 격리되어 있으므로 다른 애플리케이션의 지표가 실수로 동일한 통계로 집계되는 일은 없습니다.

기본 네임스페이스는 없습니다. CloudWatch에 게시하는 각 데이터 포인트의 네임스페이스를 지정해야 합니다. 사용자는 지표를 생성할 때 네임스페이스 이름을 지정할 수 있습니다. 이 이름은 유효한 XML 문자를 포함하고 있어야 하고 길이가 256자 미만이어야 합니다. 가능한 문자로는 영숫자 문자(0-9A-Za-z), 마침표(.), 하이픈(-), 밑줄(_), 슬래시(/), 해시(#), 콜론(:)이 있습니다.

AWS 네임스페이스는 일반적으로 AWS/ service 라는 명명 규칙을 사용합니다. 예를 들어 Amazon EC2는 AWS/EC2 네임스페이스를 사용합니다. AWS 네임스페이스 목록은 CloudWatch 지표를 게시하는 AWS 서비스 단원을 참조하십시오.

‘지표’는 CloudWatch의 기본 개념입니다. 지표는 CloudWatch에 게시된 시간 순서별 데이터 요소 집합을 나타냅니다. 지표는 모니터링할 변수로, 데이터 요소는 시간에 따른 변수의 값을 나타내는 것으로 간주합니다. 예를 들어 특정 EC2 인스턴스의 CPU 사용량은 Amazon EC2가 제공하는 하나의 지표입니다. 데이터 요소 그 자체는 데이터를 수집하는 애플리케이션이나 비즈니스 활동에서 나올 수 있습니다.

기본적으로 많은 AWS 서비스에서 리소스(예: Amazon EC2 인스턴스, Amazon EBS 볼륨, Amazon RDS DB 인스턴스)에 대한 무료 지표를 제공합니다. 또한 유료로 Amazon EC2 인스턴스와 같은 일부 리소스에 대한 세부 모니터링을 사용하거나 자체 애플리케이션 지표를 게시할 수도 있습니다. 사용자 지정 지표의 경우 원하는 순서와 속도로 데이터 요소를 추가할 수 있습니다. 이러한 데이터 요소에 대한 통계를 정렬된 시계열 집합으로 검색할 수 있습니다.

지표는 생성된 리전에만 존재합니다. 지표는 삭제가 불가능하지만, 지표에 새 데이터가 게시되지 않을 경우 15개월 후에 자동으로 만료됩니다. 15개월이 지난 데이터 요소는 순서대로 만료됩니다. 새로운 데이터 요소가 들어오면 15개월이 지난 데이터가 삭제됩니다.

지표는 이름, 네임스페이스 및 0개 이상의 측정기준으로 고유하게 정의됩니다. 지표의 각 데이터 요소에는 타임스탬프와 측정 단위(선택 사항)가 있습니다. CloudWatch에서 어떤 지표의 통계든 검색할 수 있습니다.

자세한 내용은 사용 가능한 지표 보기 및 사용자 지정 지표 게시 단원을 참조하세요.

타임스탬프

각 지표 데이터 요소에는 타임스탬프가 연결되어 있어야 합니다. 타임스탬프는 최대 2주 전이고 최대 2시간 빠를 수 있습니다. 타임스탬프를 제공하지 않으면 CloudWatch는 데이터 요소를 수신한 시간에 따라 자동으로 타임스탬프를 생성합니다.

CloudWatch 경보는 UTC의 현재 시간을 기반으로 지표를 확인합니다. 현재 UTC 평균트루범위 지표 시간이 아닌 타임스탬프와 함께 사용자 지정 지표를 CloudWatch에 전송하면 경보에 [데이터 부족(Insufficient Data)] 상태가 표시되거나 경보가 지연될 수 있습니다.

지표 보존 기간

CloudWatch는 지표 데이터를 다음과 같이 유지합니다.

기간이 60초 미만으로 설정된 데이터 요소들은 3시간 동안 사용이 가능합니다. 이러한 데이터 요소는 고분해능 사용자 지정 지표입니다.

기간이 60초(1분)로 설정된 데이터 요소들은 15일 동안 사용이 가능

기간이 300초(5분)로 설정된 데이터 요소들은 63일 동안 사용이 가능

기간이 3600초(1시간)로 설정된 데이터 요소들은 455일(15개월) 동안 사용이 가능

원래 더 짧은 기간으로 게시된 데이터 요소는 장기 보관을 위해 집계됩니다. 예를 들어 데이터를 1분 기간으로 수집할 경우 15일 동안 1분 분해능으로 데이터를 사용할 수 있습니다. 15일 이후에는 이 데이터를 계속 사용할 수 있지만 데이터가 5분 분해능으로 집계됩니다. 63일 이후에는 이 데이터가 추가로 집계되어 1시간 분해능으로 제공됩니다.

지난 2주 동안 새로운 데이터 요소가 없는 지표는 콘솔에 나타나지 않습니다. 콘솔의 모든 지표 탭에 있는 검색 상자에 지표 이름이나 측정기준 이름을 입력할 때도 나타나지 않으며 list-metrics 명령의 결과에도 반환되지 않습니다. 이러한 지표를 검색하는 가장 좋은 방법은 AWS CLI에서 get-metric-data 또는 get-metric-statistics 명령을 사용하는 것입니다.

측정기준은 지표의 자격 증명에 속하는 이름/값 페어입니다. 각 지표에 측정기준을 최대 10개까지 할당할 수 있습니다.

모든 지표에는 자신을 설명하는 고유한 특징이 있고 측정기준을 이러한 특징에 대한 범주로 생각할 수 있습니다. 측정기준을 사용하면 통계 계획을 위한 구조를 설계할 수 있습니다. 측정기준은 지표에 대한 고유한 식별자의 일부이므로 지표 중 하나에 이름/값 쌍을 추가할 때마다 해당 지표의 새로운 변형이 생성되는 것입니다.

AWSCloudWatch에 데이터를 전송하는 서비스는 각 지표에 측정기준을 연결합니다. 측정기준을 사용하여 CloudWatch가 반환하는 결과를 필터링할 수 있습니다. 예를 들어 지표를 검색할 때 InstanceId 측정기준을 지정하여 특정 EC2 인스턴스에 대한 통계를 얻을 수 있습니다.

Amazon EC2와 같은 특정 AWS 서비스에서 생성한 지표의 경우 CloudWatch는 측정기준 전반의 데이터를 집계할 수 있습니다. 예를 들어 AWS/EC2 네임스페이스의 지표를 검색하는데 어떤 측정기준도 지정하지 않으면 CloudWatch는 지정된 지표에 대한 모든 데이터를 집계하여 요청된 통계를 생성합니다. 사용자 지정 지표의 경우 CloudWatch는 측정기준 전반에서 집계하지 않습니다.

측정기준 조합

CloudWatch는 지표에 동일한 지표 이름이 있는 경우에도 각각의 고유한 측정기준 조합을 별도의 지표로 처리합니다. 사용자가 게시한 측정기준의 조합만 사용해서 통계를 검색할 수 있습니다. 통계를 검색할 때 지표 생성 시 사용했던 네임스페이스, 지표 이름 및 측정기준 파라미터에 동일한 값을 지정합니다. 또한 CloudWatch에서 집계에 사용할 시작 및 종료 시간을 지정할 수도 있습니다.

예를 들어 다음 속성을 가진 DataCenterMetric 네임스페이스에 ServerStats라는 이름을 가진 서로 다른 4개의 지표를 게시한다고 가정합니다.

이러한 4개의 지표만 게시할 경우, 측정기준의 조합에 대한 통계를 검색할 수 있습니다.

다음 측정기준이 사용되거나 측정기준을 지정하지 않은 경우에는 통계를 검색할 수 없습니다. (단, 여러 지표에 대한 통계를 검색할 수 있는 지표 수학 SEARCH 함수를 사용하는 경우는 예외입니다. 자세한 내용은 그래프에서 검색 표현식 사용 단원을 참조하세요.)

각 지표는 다음 중 하나입니다.

표준 분해능 - 1분 세분화 데이터

고분해능 - 1초 세분화 데이터

AWS 서비스에 의해 생성되는 지표는 기본적으로 표준 분해능입니다. 사용자 지정 지표를 게시할 때는 지표를 표준 분해능 또는 고분해능으로 정의할 수 있습니다. 고분해능 지표를 게시할 경우 CloudWatch는 이 지표를 1초 분해능으로 저장합니다. 그러면 사용자는 1초, 5초, 10초, 30초 또는 60초의 배수 기간으로 지표를 읽고 검색할 수 있습니다.

고분해능 지표는 애플리케이션의 단기(1분 미만) 활동을 보다 즉각적으로 관찰할 수 있게 해줍니다. 사용자 지정 지표에 대해 PutMetricData 를 호출할 때마다 요금이 부과되며, 따라서 고분해능 지표에 대해 PutMetricData 를 자주 호출할수록 요금이 증가할 수 있다는 점에 유의하십시오. CloudWatch 요금에 대한 자세한 내용은 Amazon CloudWatch 요금 을 참조하세요.

고분해능 지표에 대해 경보를 설정할 경우 고분해능 경보를 10초 평균트루범위 지표 또는 30초 기간으로 지정하거나 60초의 배수 기간으로 정기 경보를 설정할 수 있습니다. 10초 또는 30초 기간의 고분해능 경보는 요금이 더 비쌉니다.

통계는 지정한 기간에 걸친 지표 데이터 집계입니다. CloudWatch는 사용자 지정 데이터가 제공하거나 다른 AWS 서비스가 CloudWatch에 제공한 지표 데이터 요소를 기반으로 통계를 제공합니다. 집계는 네임스페이스, 지표 이름, 측정기준 및 데이터 요소 측정 단위를 사용하여 지정한 기간에 대해 수행됩니다.

CloudWatch에서 평균트루범위 지표 지원하는 통계에 대한 자세한 정의는 CloudWatch 통계 정의 단원을 참조하세요.

각각의 통계는 측정 단위를 가지고 있습니다. 단위로는 Bytes , Seconds , Count 및 Percent 가 있습니다. CloudWatch에서 지원하는 단위의 전체 목록은 Amazon CloudWatch API 참조의 MetricDatum 데이터 유형을 참조하세요.

사용자 지정 지표를 만들 때 단위를 지정할 수도 있습니다. 단위를 지정하지 않을 경우 CloudWatch는 None 을 단위로 사용합니다. 단위를 사용하면 데이터에 개념적 의미를 더할 수 있습니다. CloudWatch는 내부적으로 단위에 의미를 부여하지 않지만 다른 애플리케이션은 단위를 기반으로 의미 정보를 도출할 수 있습니다.

측정 단위를 지정하는 지표 데이터 요소들은 개별적으로 집계됩니다. 단위를 지정하지 않고 통계를 구하는 경우 CloudWatch는 동일한 단위의 데이터 요소를 모두 함께 집계합니다. 단위만 다른 동일한 지표가 두 개 있는 경우에는 각 단위에 대해 하나씩, 개별 데이터 스트림 두 개가 반환됩니다.

‘기간’은 특정 Amazon CloudWatch 통계와 연관된 시간의 길이입니다. 각 통계는 지정한 기간에 대해 수집된 지표 데이터의 집계를 나타냅니다. 기간은 초 단위로 정의되며, 유효한 기간 값은 1, 5, 10, 30 또는 60의 배수입니다. 예를 들어 6분의 기간을 지정하려면 기간 값으로 360을 사용합니다. 기간을 변경하여 데이터가 집계되는 방식을 조정할 수 있습니다. 기간은 최소 1초에서 최대 1일(86,400초)일 수 있습니다. 기본 값은 60초입니다.

저장 분해능 1초를 사용하여 정의한 사용자 지정 지표만 1분 미만 기간을 지원합니다. 콘솔에서는 항상 60 미만의 기간을 설정할 수 있지만 지표가 저장되는 방식과 일치하도록 기간을 선택해야 합니다. 1분 미만 기간을 지원하는 지표에 대한 자세한 내용은 고분해능 지표 단원을 참조하십시오.

통계를 검색할 때 기간, 시작 시간, 종료 시간을 지정할 수 있습니다. 이들 파라미터는 통계와 연관된 전체 기간을 결정합니다. 시작 시간과 종료 시간은 지난 1시간 동안의 통계를 얻을 수 있도록 기본 설정되어 있습니다. 시작 시간 및 종료 시간에 지정하는 값에 따라 CloudWatch가 반환하는 기간이 결정됩니다. 예를 들어 기간, 시작 시간 및 종료 시간에 대한 기본값을 사용해 통계를 검색하면 전 시간 동안 1분마다 집계된 통계값들이 반환됩니다. 10분 단위로 집계된 통계를 선호할 경우에는 기간을 600으로 지정합니다. 전체 시간 동안 통계를 집계하고 싶은 경우에는 기간을 3600으로 지정합니다.

특정 시간 동안 통계가 집계되는 경우, 통계가 그 기간이 시작하는 시간으로 타임 스탬프가 추가됩니다. 예를 들어, 7:00pm에서 8:00pm에 집계된 데이터는 타임 스탬프가 7:00pm로 추가됩니다. 또한, 7:00pm와 8:00pm 사이에 집계된 데이터는 7:00pm에 표시되기 시작하며, 그렇게 집계된 데이터의 값은 CloudWatch가 해당 기간 동안 더 많은 샘플을 수집하면서 변경될 수 있습니다.

기간은 CloudWatch 경보에도 중요합니다. 특정 지표를 모니터링하도록 경보를 생성하면 CloudWatch가 해당 지표를 지정된 임계값과 비교하게 됩니다. CloudWatch가 이러한 비교를 수행하는 방식을 광범위하게 제어할 수 있습니다. 비교 작업이 수행되는 기간을 지정할 수 있을 뿐 아니라, 결론에 도달하기까지 사용되는 평가 기간의 수를 지정할 수 있습니다. 예를 들어 세 평가 기간을 지정하는 경우 CloudWatch는 세 데이터 요소의 기간을 비교합니다. CloudWatch는 가장 오래된 데이터 요소가 위반이고 다른 데이터 요소가 위반 또는 누락인 경우에만 이를 알려 줍니다. 지표를 계속해서 내보낸 경우 CloudWatch는 세 개의 실패가 발견될 때까지 이를 알리지 않습니다.

Amazon CloudWatch는 통계 검색 시 지정한 기간에 따라 통계를 집계합니다. 동일하거나 유사한 타임스탬프를 사용하여 데이터 요소를 원하는 만큼 게시할 수 있습니다. CloudWatch는 지정된 기간에 따라 데이터 요소를 집계합니다. CloudWatch는 리전 전체에서 데이터를 자동으로 집계하지 않습니다. 그러나 지표 수학을 사용하여 다양한 리전의 지표를 집계할 수 있습니다.

동일한 타임스탬프뿐만 아니라 동일한 네임스페이스 및 측정기준을 공유하는 지표에 대한 데이터 요소를 게시할 수 있습니다. CloudWatch는 이러한 데이터 요소에 대해 통계를 집계해 반환합니다. 또한 타임스탬프에 상관 없이 동일하거나 다른 지표에 대한 여러 데이터 요소를 게시할 수도 있습니다.

대량의 데이터 세트에서는 통계 세트라는 사전 집계된 데이터 세트를 삽입할 수 있습니다. 통계 집합을 사용하면 CloudWatch에 여러 데이터 요소의 Min, Max, Sum, SampleCount를 제공할 수 있습니다. 통계 세트는 1분에 여러 번 데이터를 수집해야 하는 경우 일반적으로 사용됩니다. 예를 들어 웹 페이지의 요청 지연 시간에 대한 지표가 있다고 가정해 보겠습니다. 웹 페이지 방문 시 데이터를 게시하는 것은 적절하지 않습니다. 해당 웹 페이지에 대한 모든 방문의 대기 시간을 수집하고 1분에 한 번씩 이러한 데이터를 집계하여 해당 통계 집합을 CloudWatch에 전송하는 것이 좋습니다.

Amazon CloudWatch는 지표의 소스를 구별하지 않습니다. 소스가 다르지만 네임스페이스 및 측정기준이 동일한 지표를 게시하는 경우 CloudWatch는 이 지표를 단일 지표로 처리합니다. 이는 확장된 분산형 시스템의 서비스 지표에 유용할 수 있습니다. 예를 들어 웹 서버 애플리케이션의 모든 호스트가 처리 중인 요청의 대기 시간을 나타내는 동일한 지표를 게시할 수 있습니다. CloudWatch는 이러한 지표를 단일 지표로 처리하므로 애플리케이션 전체의 모든 요청에 ​​대한 최솟값, 최댓값, 평균, 합계 등의 통계를 얻을 수 있습니다.

백분위수는 데이터 세트에서 값의 상대적 위치를 나타냅니다. 예를 들어 95 백분위는 데이터의 95%가 이 값보다 아래에 있고 5%가 이 값보다 위에 있다는 것을 의미합니다. 백분위수는 지표 데이터의 분포를 정확하게 이해하는 데 도움이 됩니다.

백분위 수는 종종 이상치를 격리하는 데 사용됩니다. 일반적인 분포에서 데이터의 95%는 평균값으로부터 2 표준 편차 내에 있으며, 데이터의 99.7%는 평균값으로부터 표준 편차 3 이내에 있습니다. 3 표준 편차 밖에 있는 데이터는 평균값에서 크게 벗어나 있다는 점에서 종종 이상치로 간주됩니다. 예를 들어 뛰어난 고객 경험을 보장하기 위해 EC2 인스턴스의 CPU 사용률을 모니터링하고 있다고 가정합니다. 평균값을 모니터링하면 이상치가 감춰질 수 있습니다. 최대값을 모니터링하면 단 하나의 이상치로도 결과가 잘못될 수 있습니다. 백분위수를 사용하면 CPU 사용률에 대한 95 백분위를 모니터링하여 비정상적으로 부하가 많은 인스턴스를 확인할 수 있습니다.

일부 CloudWatch 지표는 백분위수를 통계로 지원합니다. 이러한 지표의 경우 다른 CloudWatch 통계(평균, 최솟값, 최댓값, 합계)를 사용할 때와 마찬가지로 백분위수를 사용하여 시스템 및 애플리케이션을 모니터링할 수 있습니다. 예를 들어 경보를 생성할 때 통계 함수로 백분위수를 사용할 수 있습니다. 백분위수를 소수점 이하 10자리까지 지정할 수 있습니다(예: p95.0123456789).

사용자 지정 지표에 대해 요약되지 않은 원시 데이터 요소를 게시하는 경우 사용자 지정 지표에 백분위수 통계를 사용할 수 있습니다. 지표 값에 음수 값이 포함된 지표에서는 백분위수 통계를 사용할 수 없습니다.

CloudWatch가 백분위수를 계산하려면 원시 데이터 요소가 필요합니다. 대신 통계 세트를 사용해 데이터를 게시하면 아래 조건 중 하나가 true인 경우에만 이 데이터에 대한 백분위수 통계를 검색할 수 있습니다.

자료의 분포를 나타내는 통계지표

우리가 갖고 있는 데이터를 가장 잘 대표하는 값 하나를 뽑으라면 평균이라고 생각합니다. 평균을 구하는 방법은 각각의 데이터를 더한 후, 데이터의 갯수만큼으로 나줘주면 됩니다.

Q. 중간고사의 평균은 어떻게 될까요?

평균을 구한다는 것은 우리가 가진 데이터 분포의 가운데가 어디인지를 구한다고 생각하면 됩니다. 다음의 그래프를 생각해봅시다.

빨간색 세로선은 중간고사 점수에서 평균의 위치를 나타냅니다.

중앙값 (median)

통계에는 분포의 가운데를 나타내는 지표가 하나 더 있습니다. 바로 중앙값 입니다. 중앙값은 말 그대로 자료를 순서대로 나열한 후 정중앙에 위치한 데이터를 찾아 보여줍니다.

Q. 그렇다면 중간고사의 중앙값은 어떻게 될까요?

중앙값이 평균보다 살짝 큽니다만, 평균과 중앙값이 거의 같아서 분포의 중앙을 나타내 준다는 사실을 잘 알 수 있습니다. 그런데 이 두 값은 항상 이렇게 비슷할까요? 만약 그렇다면 굳이 따로 이름을 붙일 필요가 없을 것입니다. 학생 한 명의 중간고사 점수를 바꿔봅시다.

그래프가 그려진 범위는 80으로 똑같으므로, 우리가 바꾼 두 점수가 두 지표간의 차이를 벌려놓은 것이 확실합니다. 이전 그래프는 평균(빨간선)이 중앙값(파란선)보다 왼쪽에 위치해있었는데, 이젠 평균이 중앙값보다 더 큰 것을 알 수 있습니다. 이렇듯 두 지표는 분포의 형태에 따라서 각자 다르게 반응합니다.

분포의 산포된 정도를 나타내주는 분위수 (quantile)와 분산 (variance)

분위수들 (Quantiles)

R 에는 quantile 이라는 함수가 자료의 사분위수를 계산하는데에 쓰입니다. quantile 함수는 사분위수와 함께 통계에서 유명한 다섯가지 숫자를 통하여 분포의 특성을 요약해 줍니다.

결과를 보면, 중간고사 점수들의 분포를 다섯개의 숫자를 써서 나타내주는데, 0% 에 대응되는 숫자가 자료에서의 최소값을 나타내는 숫자이며, 100% 에 대응되는 숫자가 최대값을 나타냅니다.

25% 와 75% 에 대응하는 숫자들을 각각 제 1 사분위수와 제 3 사분위수라고 부르며, 제 2 사분위수는 중앙값을 의미합니다.

분산 (variance) 과 표준편차 (standard deviation)

분산은 평균과 함께 통계 전체를 대표하는 값이라고 해도 무방합니다. 분산의 제곱근을 표준편차라고 부르며, 분포가 얼마나 퍼져있는지를 나타내주는 지표입니다.

다음은 \(n\) 개의 데이터가 있을때, 표본 분산 \(s^2\) 를 구하는 식 입니다.

\[ s^=\frac<\left(x_<1>-\overline\right)^+\left(x_-\overline\right)^+. +\left(x_-\overline\right)^> \] 좀 더 간단하게는 다음과 같이 나타낼 수 있습니다.

표준편차 \(s\) 는 분산에 제곱근을 씌운 값을 나타냅니다. \[ s=\sqrt^\left(x_-\overline\right)^>> \]

경보 품질 관리: 경보를 최적화하고 경보 피로도를 줄입니다.

이 가이드는 알림 품질을 개선하고 최적화하는 과정을 안내합니다. 이것은 관찰 가능성 성숙도에 대한 시리즈 의 일부입니다.

팀은 높은 경보 볼륨과 비즈니스 영향에 맞지 않는 경보를 경험할 때 경보 피로로 어려움을 겪습니다. 그들은 많은 경고가 거짓이고 도움이 되지 않는다는 것을 인식하기 시작하면서 다른 경고보다 해결하기 쉬운 경고를 우선시할 수 있습니다. 또한 SLA 목표 내에 머물 수 있도록 해결되지 않은 사건을 종료할 수 있습니다.

그 결과 실제 비즈니스에 영향을 미치는 문제가 발생할 경우 사고 응답이 느려지고 문제 범위가 확대되며 심각도가 높아집니다.

경고 품질 관리 (AQM) 구현 가이드는 실제 비즈니스에 영향을 미치는 경고에만 집중할 수 있도록 성가신 사건의 수를 줄이는 데 중점을 둡니다. 이렇게 하면 경보 피로가 줄어들고 귀하와 귀하의 팀이 적시에 적절한 장소에 주의를 집중할 수 있습니다.

다음과 같은 경우 AQM에 적합한 후보자입니다.

  • 알림이 너무 많습니다.
  • 오랫동안 열려 있는 알림이 있습니다.
  • 귀하의 알림은 관련이 없습니다.
  • 고객은 모니터링 도구보다 먼저 문제를 발견합니다.
  • 관찰 가능성 도구의 가치를 볼 수 없습니다.

다음은 경고 품질 관리 개념을 소개하는 짧은 비디오(3:34)입니다.

비즈니스 영향 측정을 기반으로 하는 경고 전략은 더 빠른 응답 시간과 중요한 이벤트에 대한 사전 예방적 인식을 가져옵니다. 개선된 경보 신호 대 잡음비는 혼란을 줄이고 신속한 식별 및 문제 격리를 개선합니다.

경보 품질 관리 관행의 전반적인 목표는 더 적은 수의 더 중요한 사고가 생성되도록 하여 다음과 같은 결과를 초래하도록 하는 것입니다.

  • 가동 시간 및 가용성 향상
  • 감소된 MTTR
  • 경고 볼륨 감소
  • 중요하지 않은 경고를 쉽게 식별하여 가치 있게 만들거나 제거할 수 있습니다.

이 가이드에 설명된 프로세스는 이러한 목표를 향한 진행 상황을 측정하는 데 사용할 핵심 성과 지표 및 메트릭을 생성합니다. 메트릭은 실시간으로 측정되고 대시보드에 게시되며 성가신 경고를 식별 및 줄이고 사고 조사에 대한 사용자 참여를 높이는 지속적인 개선 프로세스를 추진하는 데 사용됩니다.

당사의 경보 품질 관리 관행에는 알 수 없거나 예기치 않은 장애 모드를 감지하도록 설계된 이상 감지 또는 AIOps가 포함되지 않습니다. 두 가지 방식(AQM 및 ML/AI)은 함께 작동합니다. 상호 배타적이지 않습니다.

AQM 프로세스를 사용하여 다음 KPI를 수집하고 측정합니다.

  • 사건 수
  • 누적 사고 시간
  • 평균 마감 시간(MTTC)
  • 5분 미만 비율
  • 평균 조사 시간(MTTI)
  • 조사된 사건의 %

이러한 KPI는 가장 시끄럽고 가장 가치가 낮은 경고를 찾는 데 도움이 되므로 경고의 가치를 높이거나 제거할 수 있습니다. 그런 다음 장기적인 메트릭 추세를 사용하여 경영진과 이해 관계자에게 실제 비즈니스 영향을 보여줍니다. 이러한 측정항목에 대한 자세한 정보는 다음과 같습니다.

인시던트(경고 유무에 관계없이)를 작업 대기열처럼 처리해야 합니다. 대기열과 마찬가지로 경고 수는 거의 0에 가까운 시간을 소비해야 합니다. 각 인시던트는 조건을 해결하기 위한 조치의 트리거가 되어야 합니다. 경고가 조치로 이어지지 않으면 경고 조건의 값에 대해 질문해야 합니다.

"항상 켜진" 인시던트 또는 특정 인시던트가 일정한 비율로 표시되는 경우 그 이유에 대해 질문해야 합니다. 비즈니스에 지속적으로 영향을 미치고 있습니까, 아니면 단순히 많은 양의 소음이 있습니까? 경고 볼륨 KPI는 이러한 질문에 답하고 고품질 경고의 정상적인 평균트루범위 지표 상태를 향한 진행 상황을 측정하는 데 도움이 됩니다.

사고 수 KPI

인시던트 수는 일정 기간 동안 생성된 인시던트 수입니다. 일반적으로 현재 주와 이전 주를 비교해야 합니다.

목표: 가치가 낮거나 성가신 사건의 수를 줄입니다.

모범 사례:

  • 조건 설정이 실제 비즈니스 영향을 감지하도록 의도되었는지 확인합니다.
  • 조건 설정이 비정상적인 동작을 감지하는지 확인합니다.
  • 인시던트 세부 정보 "확인" 기능이 의미 있고 실행 가능한 경고를 측정하는 데 도움이 됨을 알립니다. 인시던트 확인 KPI 를 참조하십시오.
  • 모든 이해 관계자에게 AQM KPI를 보고합니다.
누적 사고 기간 KPI

누적 인시던트 기간은 일정 기간 동안 모든 인시던트가 누적된 총합(분)입니다. 일반적으로 현재 주와 이전 주를 비교해야 합니다.

목표: 총 사고 누적 시간(분)을 줄입니다.

모범 사례:

  • 인시던트를 수동으로 닫지 마십시오. 수동 폐쇄는 사고 길이의 실제 기간을 왜곡합니다.
  • 수신자의 수정 조치를 초래하지 않는 경고를 제거합니다.
  • 탐지 및 응답 시간 개선에 대한 중요성을 전달하여 조사 비율과 평균 조사 시간을 개선합니다.
  • 모든 이해 관계자에게 AQM KPI를 보고합니다.
평균 마감 시간(MTTC) KPI

측정된 기간 내 사고의 평균 지속 시간입니다.

목표: MTTC 감소

모범 사례:

  • 인시던트를 수동으로 닫지 마십시오. 수동 폐쇄는 사고 길이의 실제 기간을 왜곡합니다.
  • 신뢰성 엔지니어링 기술을 향상시킵니다.
  • 모든 이해 관계자에게 AQM KPI를 보고합니다.
5분 미만의 KPI 비율

인시던트 기간이 5분 미만인 인시던트의 비율입니다. 이것은 인시던트 플래핑의 지표가 될 수 있습니다.

목표: 짧은 기간 동안 사고의 비율을 최소화합니다.

모범 사례:

  • 조건이 예상 동작에서 합법적인 이탈을 감지하는지 확인합니다.
  • 서비스 수준 관리를 이해합니다.
  • 조건이 비즈니스 영향 또는 임박한 비즈니스 영향과 상관관계가 있는 합법적인 편차를 감지하는지 확인합니다.

인시던트가 받는 관심의 양으로 인시던트의 가치를 측정해야 합니다. 이러한 맥락에서 참여는 사건이 확인되었는지 여부로 측정됩니다.

개별 경보가 수신하는 참여의 양은 경보의 가치를 직접적으로 측정한 것입니다. 더 많은 참여는 귀중한 경고를 의미합니다. 참여가 적거나 0이라는 것은 수정하거나 비활성화해야 하는 성가신 경고를 의미합니다.

사고 인식의 순간을 측정하는 것과 해결 활동이 시작되는 순간을 인식하는 것 사이에는 상당한 차이가 있습니다. New Relic 경고와의 통합을 사용하는 경우 사건이 외부 사건 관리 도구로 전송될 때가 아니라 해결 활동이 시작될 때 New Relic으로 전송되는 "승인" 이벤트가 트리거되는지 확인하십시오. 표준 사고 관리 프로세스에 대한 자세한 내용은 " 사고 관리 프로세스: 효과적인 해결을 위한 5단계, OnPage Corporation에서 2020년 8월 31일 게시. -- ITIL4 참조"를 참조하십시오.

KPI 인정 비율

확인된 사고는 관련되어 있고 확인된 속성이 true로 설정된 사고의 비율을 식별합니다. 일반적으로 현재 주와 이전 주를 비교해야 합니다.

목표: 사고 참여 비율을 높입니다.

모범 사례:

  • 인시던트 경고를 확인하는 것이 적절한 시기에 대해 DevOps 팀을 교육합니다.
  • 사용을 유도하기 위해 경고 확인을 게임화합니다.
  • 대규모 승인 연습을 권장하지 않습니다.
평균 조사 시간(MTTI) KPI

평균 조사 시간은 사건을 분류하는 데 걸리는 평균 시간을 나타냅니다. 일반적으로 현재 주와 이전 주를 비교해야 합니다.

목표: 평균 조사 시간을 줄입니다.

모범 사례:

  • 경보에 대한 사고 대응자의 신뢰를 구축하기 위해 노력하십시오.
  • 중요한 경고가 확인되었는지 확인합니다.
  • 경보에 신속하게 대응하도록 대응 팀을 장려합니다.

시작하기 전에 이에 상응하는 경험이 없는 경우 NRU(New Relic University) 개요 과정 을 완료하십시오.

또한 다음 사항에 대한 기본적인 이해가 있어야 합니다.

  • New Relic 경고 정책 및 조건 구성
  • New Relic 사건 알림 채널 웹훅 구성
  • NRQL(쿼리 언어)
  • 알림 권장사항
  • New Relic APM 및 인프라 모니터링
  • 비정상 동작과 정상 동작을 구분하기 위해 데이터의 기준을 설정하는 방법

지속적인 개선 프로세스와 마찬가지로 AQM의 첫 번째 단계는 KPI의 현재 상태를 설정하는 것입니다. 이렇게 하려면 다음 작업을 수행하십시오.

인시던트 평균트루범위 지표 이벤트 웹훅 설치 및 구성

웹훅은 수명 주기(열기, 승인, 닫기)를 진행하면서 각 인시던트에 대해 New Relic 이벤트를 생성합니다. AQM 프로세스가 정확하고 가치 있는 결과를 생성하도록 하려면 이 웹훅을 모든 경고 정책에 알림 채널로 추가해야 합니다.

AQM 프로세스에는 위반 데이터가 아닌 사건이 필요합니다. 이것이 위반 데이터만 제공하는 기본 NrAiIncident 이벤트를 사용하지 않는 이유입니다. 대신 이 웹훅을 사용하여 필요한 사건 데이터를 New Relic에 보냅니다.

웹훅을 사용하려면 다음을 수행하십시오.

이 예는 여러 하위 계정이 있는 New Relic 계정에 대한 각 경고 정책에 할당된 웹훅 알림 채널을 보여줍니다.

AQM 대시보드는 AQM 프로세스를 주도하는 기본 자산입니다. 다음을 수행하여 이전에 수행한 인시던트 이벤트 웹훅 설치 및 구성 단계에서 식별한 기본 프로덕션 계정에 AQM 대시보드를 설치해야 합니다.

대시보드 가져오기에 대한 자세한 내용은 대시보드 소개 를 참조하십시오.

초기 AQM 오리엔테이션 및 활성화 수행

이 단계에서 사고 관리 팀과 기타 이해 관계자는 AQM 프로세스의 목표와 참여 범위를 알게 됩니다.

이 작업의 가장 중요한 부분은 사고 경고를 확인하는 중요성에 대해 팀을 교육하는 것입니다. 일반적으로 다음 지침을 따르도록 지시하십시오.

  • 경보를 보고 추가 조사 조치를 취하기로 결정한 경우 경보를 확인하십시오.
  • 일반적으로 다른 작업을 수행하지 않고 경고를 평균트루범위 지표 닫는 경우 경고를 확인하지 마십시오.
  • 사고 경보가 항상 켜져 있으면 닫거나 확인하지 마십시오. 자세한 내용은 두 번째 활성화 세션 을 참조하십시오.

첫 번째 세션 템플릿 프레젠테이션 을 사용하여 이 자료를 이해 관계자에게 전달할 수 있습니다.

전체 프로세스를 진행하려면 최소 2주의 데이터가 필요합니다. 이 기간 동안 주기적으로 다음 항목을 확인해야 합니다.

  • 사고 경보 이벤트 데이터가 누적되고 있는지 확인합니다.평균트루범위 지표
  • 웹훅이 모든 경고 정책에 연결되어 있는지 확인합니다.
  • 사고 대응자가 경보 승인 지침을 따르고 있는지 확인합니다.

이 단계에서 사고 관리 팀과 기타 이해 관계자에게 초기 AQM 데이터와 계속해서 진행 중인 개선 프로세스를 소개합니다.

이 프로세스는 네 가지 활동으로 구성됩니다.

  1. AQM 대시보드 및 KPI 추세 검토: 여기에서 귀하와 이해 관계자는 AQM KPI를 보고 주별 추세를 식별합니다. 팀은 KPI가 개선되지 않는 영역을 식별하고 개선을 주도하는 전략을 개발해야 합니다.
  2. 성과, 도전 과제 및 기회 식별: 여기에서 귀하와 이해 관계자는 경보 품질의 현재 상태를 비즈니스 영향에 매핑하여 개선으로 인해 비즈니스 결과가 개선된 영역과 문제가 비즈니스 결과에 영향을 미치는 영역을 식별합니다.
  3. 사고 정책 검토: AQM 대시보드를 사용하여 귀하와 이해 관계자는 가장 시끄러운 사고 정책을 식별합니다. 식별된 정책은 아래 4단계에 자세히 설명된 대로 평가되어야 합니다.
  4. 경고 정책 권장 사항: 이 단계에서 귀하와 이해 관계자는 다음 기준을 사용하여 가장 시끄러운 정책을 검토합니다.

경고가 비즈니스에 영향을 미칩니까?

정책이 제대로 구성되어 있습니까?

  • 수정해야 할 리소스에 대해 알려주고 있습니까?
  • 정책이 필요한가? 비즈니스 영향이 있습니까?
  • 임계값이 올바르게 설정되어 있습니까?

기술 권장 사항: 여기에서 귀하와 이해 관계자는 다음을 포함한 모든 기술적 권장 사항을 검토합니다.

  • 엔지니어링이 검토할 애플리케이션/시스템 문제가 있습니까?
  • 고쳐야 할 잘못 구성된 정책이 있습니까?
  • 계측 공백이 있습니까?

두 번째 세션 템플릿 프레젠테이션 을 사용하여 AQM 프로세스의 이 부분을 구성할 수 있습니다.

이것은 누적된 AQM 데이터를 주기적으로 검토하고 정책을 경고하기 위해 필요에 따라 조정하는 지속적인 개선 프로세스의 진행 단계입니다. 경고 볼륨이 수용 가능한 수준이 될 때까지 일주일에 한 번 이 단계를 수행해야 합니다. 그러면 덜 자주 수행할 수 있습니다.

이 단계에서 다음을 수행해야 합니다.

  • 매주 KPI를 고위 경영진에게 보고하여 이해 관계자 팀이 작업의 우선 순위를 적절하게 지정하고 약속된 비즈니스 결과를 향한 진행 상황에 도달하고 있음을 보여줍니다.
  • 몇 개월에서 몇 년 동안 주간 KPI를 기록하고 유지하여 기준선을 설정하고 개선 속도를 보여줍니다.

이것은 지속적인 개선 과정이라는 점을 명심해야 합니다. AQM 목표를 달성하고 있는지 확인하기 위해 장기간에 걸쳐 KPI를 계속 수집하고 평가할 것입니다.

AQM 프로세스가 설정되면 안정성과 안정성이 동일하게 유지되거나 개선되는 동안 경고 볼륨이 크게 감소하는 것을 볼 수 있습니다. 또한 경고가 명확하고 모호하지 않은 비즈니스 영향을 미치는지 확인해야 합니다. AQM KPI는 이러한 개선 사항에 대한 정량화 가능한 증거를 제공합니다.

AQM의 목표를 달성하기 위한 경로에 확실히 도달했다면 서비스 수준 관리 또는 안정성 엔지니어링과 같은 가동 시간, 성능 및 안정성 가치 흐름 내에서 다른 사용 사례로 이동하는 것을 고려하십시오. 고객 경험 과 같은 다른 관찰 가능성 성숙도 가치 흐름으로 이동할 수도 있습니다.

다음은 각 KPI에 대한 설명과 New Relic 플랫폼에서 추출할 샘플 NRQL 쿼리입니다. 이러한 KPI는 GitHub의 관찰 가능성 성숙도 리소스 센터에서 다운로드할 수 있는 AQM 대시보드에도 포함되어 있습니다.


0 개 댓글

답장을 남겨주세요