[Practical Statistics] 데이터 분석에서 평균을 대체할 만 한 다른 값.

대푯값 (Typical Value)

데이터를 살펴보는 가장 기초적인 단계는 "대푯값" 을 구하는 것이다.

이 대푯값이 대부분의 값이 어디 쯤에 '위치'하는지 (중심경향성)을 나타내기 때문에

기본적인 특성을 파악하는데 도움을 준다.

데이터를 요약하려면 평균을 계산하는 것이 가장 편하고 직관적이지만,

데이터의 중간을 대표하는 가장 좋은 방법은 아니다.

1. 절사평균

정해진 개수의 극단값(extreme value)을 제외한 나머지 값들의 평균

평균은 극단치에 영향을 크게 받는 단점이 있다.

예를 들어 우리나라 가을 기온의 자료 [12, 17, 14, 17, 18, 11] 가 있다고 하자.

이 자료의 평균은 14.8이다.

특정 날, 측정 오류 데이터인 115가 추가된다면 해당 자료의 평균은 29.1이 된다.

결과적으로 우리나라 가을의 평균 기온이 14.8에서 29.1이 되게 된다.

이러한 문제점을 해결하기 위한 값이 절사평균이다.

절사평균은 값들을 크기 순으로 정렬한 후, 양 끝에서 일정 개수의 값들을 삭제하여 남은 값들을 가지고 구한 평균을 의미한다.

이때 양 끝 값 제거 비율은 연구자의 리서치를 통해 정할 수 있다. ( 즉, 니 맘이다 ㅎㅎ )

절사평균은 공정성을 위해 국제 대회에서 주로 쓰인다.

예를 들어 국제 다이빙 대회에서는 5명의 심판이 매긴 점수 중에서 가장 높은 점수와 낮은 점수를 제외한,

나머지 3명의 점수를 평균한 값으로 최종 성적을 매긴다.

혹시 한 심판이 자국의 선수 등에게 유리한 심사를 하더라도, 이 심판이 전체 성적에 영향을 주기는 어렵다.

2. 가중평균

가중치를 곱한 값의 총합을 가중치의 총합으로 나눈 값

🫧 가중평균을 사용하게 된 이유

1. 측정치 보완

예를 들어 여러 개의 센서에서 가져온 데이터의 평균을 구한다고 할 때, 한 센서의 측정 정확도가 떨어진다면 그 센서에서 나온 데이터에는 낮은 가중치를 부여할 수 있다.

2. 데이터 비대칭성 보완

예를 들어 데이터 그룹에 대해 정확히 같은 비율의 데이터를 수집하기 어려운 경우, 데이터가 부족한 소수 그룹에 대해 더 높은 가중치를 적용할 수 있다.

3. 중간값

데이터에서 가장 가운데 위치한 값 (50번째 백분위 수)

모든 관측치를 다 사용하는 평균과 달리, 중간값은 정렬된 데이터의 가운데에 위치한 값들만으로 결정된다.

이런 점에서 중간값이 불리할 것처럼 보이지만, 많은 경우에 데이터에 매우 민감한 평균보다는 중간값이 위치 추정에 유리하다.

예를 들어 시애틀에서 레이크 워싱턴 주변 동네의 기준이 되는 가계소득을 알아본다고 하자.

메디나와 윈더미어를 서로 비교한다고 하면,

메디나에 빌게이츠가 살고 있기 때문에 평균은 매우 다르게 나올 것이다.

만약 중간값을 사용한다면 빌 게이츠 자산의 영향없이 중간치는 매우 비슷하게 나올 것이다.

4. 가중 중간값

데이터를 정렬한 후, 가중치 값을 위에서부터 더한 총합의 중간이 위치하는 값

가중평균을 사용하는 이유와 마찬가지로, 가중 중간값을 사용할 수 있다.

가중 중간값은 단순히 가운데 위치한 값이 아닌,

어떤 위치를 기준으로 상위 절반의 가중치의 합이 하위 절반의 가중치의 합과 동일한 위치의 값이 된다.

중간값과 마찬가지로 가중 중간값 역시 특잇값에 로버스트하다.

** 로버스트하다 : 극단 값들에 민감하지 않다.

🫧 [추가] 데이터 종류를 제대로 알고 있어야하는 이유

✔️ 데이터를 분석하고 예측을 모델링 할 때, 데이터 시각화 / 해석 / 통계 모델 결정 등에 데이터 종류가 중요한 역할을 한다.

✔️ 소프트웨어는 변수의 종류에 따라 해당 변수에 관련된 계산을 어떤식으로 수행할 지 결정한다.

따라서 계산 성능을 향상시키기 위해서는 데이터의 종류를 제대로 파악하고 적절한 type을 부여해야한다.

해당 내용은

책 " Practical Statistics for Data Scientists " 을 읽고

정리한 내용입니다.

저작자표시 (새창열림)

내 일기장,