중심과 퍼진 정도
- 히스토그램에서 자료를 요약할 때 중심(평균, 중앙값)과 중심 주위로 퍼진 정도(표준편차, 사분위수 범위)를 주로 사용
평균
- 평균(mean)은 관측치의 총합을 관측치의 개수로 나누어 구한다.
- x1, x2, .. xn 등 n 개의 관측치가 주어져 있을 때 표본의 평균은 (평균 수식)
- 평균이 중요하지만 전부는 아님. 아래 세 그림은 평균이 같지만 퍼진 정도가 다름
중앙값 (median)
- 절반 이상의 숫자들이 이 값보다 크거나 같고 동시에 절반 이상의 숫자들이 이 값보다 작거나 같은 수
- 하스토그램은 중앙값에서 그 면적이 양분됨
- 중앙값 n이 홀수이면 (n+1)/2 번째로 크거나 작은 숫자임
- 중앙값은 n이 짝수이면 n/2 번째 숫자와 (n+1)/2 번째 숫자의 평균으로 정의
- median voter theorem (결국 중앙값에 위치한 사람의 성향을 대표할 수밖에 없다!)
- 선호의 비대칭분포 이용하여 후보자의 location choice 문제 설명.
- 다수결에 의한 투표는 중앙값 투표자(median voter)가 선호하는 결과를 선택하게 됨
- 이는 중앙값이 LAD (least absolute deviation)의 해로 얻어진다는 것과 수학적으로 같은 내용임
- 유권자의 선호를 일차원 실직선 상에서 표현할 수 있을 때 성립함
- 유권자의 선호가 다차원적이면 성립하지 않음
- sum(|yi - m|) 이를 최소화하는 m을 선택한다면, 투표를 받을 수 있다! - 데이터의 중앙값이 됨
평균과 중앙값의 관계
- 히스토그램이 대칭이면 평균 = 중앙값
- 숫자열의 변화에 따른 평균의 변화 ( 1,2,2,3 || 1,2,2,5 || 1,2,2,7 )
- 극단적인 값이 변화함에 따라 중앙값은 robust 하지만, 평균은 극단값의 영향을 많이 받는다!
최빈치 (mode)
- 가장 많이 관측되는 값
- 히스토그램은 최빈치에서 그 높이가 제일 높음
히스토그램의 세 가지 꼬리 유형 (left/right-skewed distribution , normal distribution)
- 평균은 극단적인 값의 영향을 받음
- 중앙값은 극단적인 값의 영향을 받지 않음
- 극단적인 값이 존재하는 경우 평균보다 중앙값이 중심을 더 잘 나타냄
- GDP 2만 달러 약 2천만 원 / 4인 8천만 원 = 평균
출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / - 제5강 평균과 중앙값
'통계학' 카테고리의 다른 글
05. 회귀분석 (0) | 2025.03.14 |
---|---|
04. 상관관계와 회귀직선 (0) | 2025.03.12 |
03. 정규분포로의 근사 (백분위수, 사분위수) (0) | 2025.03.10 |
02. 표준편차와 자유도 (1) | 2025.03.09 |