infinity-epoch

07. 중회귀분석 (결정계수)

infinity-epoch — Mon, 17 Mar 2025 23:37:51 +0900

기울기와 절편

절편은 x가 0일 때 y 값을 의미하며 기울기는 x가 1만큼 증가할 때 y가 증가하는 정도를 의미한다.

직선을 구하는 방법

최소자승법

최소자승직선 : 모든 직선 중에서 x를 통해 y를 추정할 때 발생하는 추정오차들의 "제곱의 합"으로 측정한 전반적 크기를 가장 작게 만들어주는 직선
- 산포도상의 각가의 점으로부터 하나의 직선까지의 수직거리를 정의
- 수직거리의 "제곱 합"이 최소화 되는 직선을 회귀직선으로 선택
- 수직거리의 제곱합을 최소화하는 것이나 RMS로 측정한 수직거리의 전반적 크기를 최소화하는 것이나 수학적으로 동일한 최적화 문제임
- 즉, 최소자승법(method of least square)은 모든 직선 가운데 수직거리의 전반적 크기를 최소화 해주는 직선을 구하는 방법임

$\underset{a,b}{min}\sum_{n}^{i=1}[Y_{i}-(a+bX_i)]^{2}$

$\begin{matrix}
(X_i, Y_i) & i=1,...,n \\
\end{matrix}$

$\Rightarrow a=\overline{Y}-b\overline{X}$

$b=r \cdot \frac{SD_Y}{SD_X}$

예) 빅맥지수

(환율) = -57.31 + 1.81 (빅맥지수)

빅맥지수와 환율의 수준이 같지 않다.
Absolute PPP 성립한다고 보기 어렵다.

ln(환율) = 0.29 + 1.01 x ln(빅맥지수)

빅맥지수가 1% 변화할 때 환율도 대체로 1% 남짓 (1.01%) 변화하는 것으로 판단됨
Relative PPP가 성립하지 않는다고 볼 통계적 근거가 없음

자산가격결정모형(CAPM)

CAPM : 수익률에 대한 단일요인 모형 (Single factor model of return)
시계열 회귀분석 방정식

$$ r_{it} = \alpha_i + \beta_ir_{mt}+\epsilon_{it} $$

$i$ = individual asset (특정 자산)

$t$ = time period (시기)

$m$ = market (시장)

$r$ = 수익률

$ r_{mt} $ = 시장 수익률

$\epsilon_{it}$ = 기타 외부 요인

Fama & French (1992) : '기업규모' 및 '장부가치/시장가치 비율' 등 두 요인을 추가하여 수익률의 종목간 변동을 추가로 설명

예) CAPM $\beta$의 추정

종목별로 월별 주가수익률 데이터를 이용하여 개별주식의 수익률을 시장포트폴리오(KOSPI)의 수익률에 대해 회귀분석한 결과
데이터 : 월별 주가 자료 (1992.2 - 2001.12)

기업명	$beta$	t-value
Samsung Electronics	1.24	6.39
SK Telecom	0.95	3.71
KT	1.09	5.97
KEPCO	0.71	4.79
POSCO	1.00	8.12

수치의 의미를 보면,

1보다 크다 = 시장 수익률이 한 단위 움직였을 때, 개별적인 주가는 더 많이 움직인다. ex. 삼성전자

1보다 낮다 = 시장 수익률보다 덜 움직인다. ex. KEPCO

직사각형의 둘레길이와 널이의 산포도 (회귀직선이 모두 통하는 것은 아님! 직선의 관계!)

넓이와 둘레길이간 상관계수 = 0.98 : 이는 넓이와 높이라는 제3의 요인들 영향
넓이와 둘레길이간 관계는 선형 관계가 아니라 비선형 관계임

중회귀 분석

둘 이상의 설명 변수(x)로 독립 변수(y)를 설명하는 회귀분석
종종 제 3의 변수가 두 변수 x와 y 각각에 영향을 미쳐, 관심의 대상인 두 변수 상호간의 순수한 관계를 왜곡시키게 됨. 제3의 변수를 통제할 필요성 대두
- 1) 실험 (experiment) - 현실에서는 불가능 그래서 관측된 관계를 이용!
- 2) 통계적 통제 1 : 자료를 제 3의 변수값에 따라 분류, 집단 별로 따로따로 분석
- 3) 통계적 통제 2 : 중회귀분석

예) 남녀 노동자간 임금격차

남녀 간에 임금격차가 존재하는지 보기 위하여 다음의 단순회귀분석 모형을 추정하려고 한다.

(임금) = a + b(남성 더미변수) + (오차)

여기서 남성 더미변수는 남성에게 1을, 여성에게는 0의 값을 부여하는 질적변수이다.
일반적으로 더미변수는 하나의 질적인 설명변수가 종속변수에 미치는 영향을 파악하고자할 때 이용한다.
남녀 간의 임금격차는 남녀간 교육수준의 차이 등이 통제되지 않는 한 성차별의 증거로 보기 어렵다.
교육수준을 설명변수로 추가, 단순회귀분석 모형을 중회귀분석 모형으로 확장하는 것이 필요!

(임금) = a + b(남성 더미변수) + c(교육연수) + (오차)

예) 기술진보 반영한 물가지수 작성법

예) 컴퓨터 기술진보를 감안한 상태에서 지난 10년간의 컴퓨터 가격지수 작성

지난 10년간 판매된 데스크탑 컴퓨터에 대해 CPU, 메모리 등 각종 스펙(x), 판매연도 (첫 해를 기준으로 $d_2, ..., d_{10}$ 등 총 9개의 연도더미변수들), 판매가격(y) 정보수집
log(y)를 상수항 $x, d_2, ... ,d_{10}$에 중회귀분석하여 $d_2, ... ,d_{10}$의 계수 추정치인 $b_2, .. ,b_{10}$ 얻음
첫 해의 가격지수를 100으로 두면, 둘째 연도, ... , 10번째 연도의 가격지수는 각각 $100*exp(b_2), ... 100*exp(b_{10})$ 등으로 추정됨.

\[
\ln P_{it} = \alpha + {X_{it}}' \beta + \gamma_1 D_{1t} + \cdots + \gamma_{10} D_{10t} + \varepsilon_{it}
\]
\[
\text{where} \quad D_{jt} =
\begin{cases}
1 & \text{if } t = j \\
0 & \text{otherwise}
\end{cases}, \quad j = 1, \dots, 10
\]
\[
D_1, \dots, D_{10} : \text{ time dummies}
\]

${X_{it}}'\beta$ : 여러 개의 스펙이 다 들어가 있는 것 (CPU, 화면 크기 등)
$P_{it}$ : t년도에 판 i 라는 컴퓨터의 가격
$\gamma_1D_{it}$ : 각 더미변수 (11년동안의 데이터이고 기준년도 빼고 10개)

컴퓨터 스펙이 컴퓨터 가격에 미치는 영향을 통제한 상태에서, 기준 년도 대비 $\gamma_1$ 퍼센트(p항 로그취해졌기 때문) 만큼 달랐다.를 의미하는 수식

통계적인 통제를 하지 않는다면, 예나 지금이나 좋은 컴퓨터는 약 150~200 정도 비슷하게 한다. 즉, 시대에 흐름을 타지 않는다는 해석이 나올 수 있기에 주의해야한다!

같은 컴퓨터가 년도별로 가격이 어떻게 변했나 = 물가지수의 의미!

$lnP_{ij}-lnP_{i0} = \gamma_j$

$\Rightarrow P_{ij} = P_{i0}e^{r_j}$

$j = 1,2, \cdots, 10$

원년도를 100으로 본다고 하면 j 년도의 물가지수 = $100e^{r_j}$

같은 컴퓨터는 시간이 지날수록 가격이 하랄할테니, $\gamma_1$ 은 음수, $\gamma_2$는 더 작은 음수, .. 점점 줄어드는 그래프가 나올 것 (우하향)

이러한 변수 통제를 하지 않으면 심슨의 역설(simpson's paradox)가 발생하게 된다

총 변동의 분해

\[
y_i - \bar{y} = \left[ (a + bx_i) - \bar{y} \right] + \left[ y_i - (a + bx_i) \right]
\]
\[
T = Regression (설명이 되는 부분) + Error (설명되지 않는 부분)
\]

각 항을 제곱하면 아래와 같다!

$\sum(y_i-\overline{y})^2 = \sum [(a+bx_i)-\overline{y}]^2+\sum [y_i-(a+bx_i)]^2$

SST = SSR + SSE

SST [총제곱합 (total sum of squares)] : y의 평균 주위로의 총변동

SSR [회귀제곱합 (regression sum of squares)] : 회귀직선에 의해 설명되는 변동분

SSE [잔차제곱합 (residual sum of squares) 또는 오차제곱합 (error sum of squares)] : 회귀직선에 의해 설명되지 않는 변동분

결정계수 ($R^2$)

결정계수 = 총변동에서 차지하는 설명되는 변동분의 비율

$R^2 = \frac{SSR}{SST} = 1-\frac{SSE}{SST}$

$(0\leq R^2\leq1)$

결정계수의 값이 1에 가까울수록 회귀직선의 설명력은 높다
단순회귀분석의 경우 결정계수인 $R^2$ 값은 두 변수간 상관관계인 r의 제곱과 같게된다. (단순회귀분석의 경우에는 $R^2$ = r 제곱)

조정된 결정계수 (adjusted $R^2$)

설명계수를 추가하면 추가할수록 $R^2$는 언제나 증가함
- $R^2=1-SSE/SST$인데 $SST$는 고정된 반면 $SSE$ 는 설명변수 추가될수록 감소
이 문제를 해결하기 위해 아래의 "조정된 결정계수"를 정의함

$\overline{R}^2=1-\frac{SSE/(n-k-1)}{SST/(n-1)}$

(n= 표본크기, k=설명변수의 개수)

$SSE$와 $SST$가 각각의 자유도로 나누어진 형태로 등장
$SST$의 자유도=(n-1): 표준편차 구할 때의 자유도와 동일
$SSE$의 자유도=(n-k-1): n개 자료 이용 총 (k+1)개의 계수 추정한 결과
조정된 결정계수는 설명변수가 추가된다고 해서 반드시 늘지는 않음

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / 제12강 회귀직선

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / 제13강 중회귀분석의 응용

06. 회귀직선의 오차 RMSE

infinity-epoch — Fri, 14 Mar 2025 22:42:10 +0900

RMSE (Root Mean Square Error)

잔차(residual) 제곱의 합을 표본크기 - 2로 나누어 제곱근을 씌운 값

회귀직선의 RMSE와 y의 표준편차

일반적으로 회귀직선의 RMSE는 y의 표준편차보다 작다. 이는 수평선보다 회귀직선이 산포도상의 점들에 보다 가까이 위치하기 때문이다.

수평선 = y의 SD만을 구한다면 이는 y값만 사용하는 것이기에 수평선과 동일. y축에 평행이동시켜서 수치를 잰 것과 동일

$RMSE\approx \sqrt{1-r^2}*SD_y$

상관계수자체가 0인 경우, 1인 경우 = 모든 잔차가 0이기에 RMSE를 적용해도 0임

r 값이 크면 클수록 설명이 많이 되기 때문에, 설명이 안되는 것을 의미하는 RMSE는 줄어든다!

점을 regression function으로 일반화했고 이것이 대표값이다

이를 y의 대표값인 것처럼

regression function의 각각의 점들은 해당 집단의 y값을 대표하는 것이다

x가 주어지면 세로 수직선을 결정한다.

각각 모두 다른 집단들이다.

x, y 각 집단마다 결정되는 중심은 regression line의 높이고

집단마다 따로 적용되는 중심과의 거리는 RMSE이다.

중심은 집단마다 함수를 따라 변화하도록 허용하였는데

이 중심으로부터 떨어진 거리는 같은 값을 쓰고 있다! 이를 모든 집단에 같이 쓰는것이 가능한 이유는 등분산성의 가정으로 가능한 것

등분산성(homoskedestic)

회귀직선을 중심으로 점들이 위 아래로 퍼진 정도가 세로띠 별로 같음

1차원에서 2차원으로 시야는 확장했으나, 본질을 새로 도입한 것은 없다!

차원	1차원	2차원
자료의 퍼짐 정도를 보자	1차원 scatter plot	2차원 scatter plot
수치로 자료를 요약하자 (중심)	$\overline{y}$	regression function
데이터의 분산 (variation)	$SD$	$RMSE$
중심과 분산으로 모든것을 파악할 수 있는가?	분포의 모양이 정규분포를 따른다면 그렇다.	세로띠별로 모든 세로띠에서(구간) 다 정규분포면 그렇다. 정규분포의 퍼진 정도가 다 같으면 그렇다 (등분산성)

중간 고사 30점 맞은 학생의 기말고사 점수를 95% 범위 안에서 말해달라.

30 점의 regression line 점수가 대표값으로 예측됩니다.

다만, 다른 요인으로 기말고사 점수가 영향을 받을 수 있으므로 RMSE의 2배를 위아래로 잡아줘야 95% 정도 확실할 수 있습니다.

(RMSE 앞서 편차와 동일한 본질이므로, 2배 위아래라는 것은 이전에 배웠던 68-95 법칙에 의한 것!

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / 제11강 회귀직선의 오차

05. 회귀분석

infinity-epoch — Fri, 14 Mar 2025 22:13:05 +0900

가장 간단한 관계가 직선이다

그렇게 상관계수와 상관관계를 배웠다

직선의 관계에 방향(기울기 양수,음수)이 있고, 강도(절대값 1에 가까울수록)가 있다

상관관계와 관련된 회귀직선을 공부하자!

regression line, regression equation

회귀분석

회귀분석(regression analysis)는 집단별 평균을 분석하는 통계적 방법
집단을 구분하는 분류지표가 한 개인지, 둘 또는 그 이상인지에따라 단순회귀분석과 중회귀분석으로 나누어짐

류근관. (2013). 통계학, 제3판 서울:법문사

상관계수 = 0.67 : 키가 평균보다 $1SD_y$ 만큼 큰 사람들은 몸무게가 평균보다 대략 0.67$SD_y$ 만큼 더 나감
표준편차선 : 두 변수(여기서는 키와 몸무게)의 표준화된 변수 값이 같은 점들을 이은 직선
그렇다면 왜 회귀직선은 표준편차선보다 더 완만한가? 그 이유는 상관계수가 1이 아니기 때문!
y의 x에 대한 회귀직선은 각각의 x에 대응하는 y의 평균값을 추정

류근관. (2013). 통계학, 제3판 서울:법문사

x 값이 x 평균값에서 $1SD_x$증가할 때 y값은 y평균값에서 $r x \times SD_y$
r이 1이면 표준편차선이 되는 것!
회귀직선은 평균의 그래프를 하나의 직선으로 근사 시킨 것
평균의 그래프가 비선형이면 회귀직선으로의 선형 근사는 부적절

회귀분석 방법

x의 표준편차가 한 단위 증가할 때, y는 y의 표준편차의 상관계수 배만큼 증가한다.
x가 분류지표일 때, y를 x에 대하여 회귀분석 한다는 것은! x의 담긴 정보를 이용할 때 y 를 얼마나 직선으로 설명할 수 있는가

예: 경제학부 10학번 학생 100명을 대상으로 조사한 결과

경제원론 평균 = 3.0 표준편차($SD_x$) = 0.70

경제통계학 평균 = 3.0 표준편차($SD_y$) = 0.60

상관계수 = 0.5

문제 ) 경제원론 학점이 3.70인 지희의 경제통계학 학점은?

1. 경제원론 점수가 평균보다 (3.7-3)/0.7 = 1$SD_x$ 높으므로

2. 경제통계학 학점은 평균보다 $rSD_y$. 즉, 0.5 * 0.60 = 0.30 만큼 높을 것으로 예측

3. 따라서 경제통계학 학점의 예측치는 3.0 + 0.3 = 3.3 (B+) 이다.

평범으로의 회귀 (regression to mediocrity)

상관계수가 1이 아니기 때문에 회귀직선이 SD선보다 누워있다. 중간고사와 기말고사 사이에는 다른 요인이 있을 수 있다

($x$) 중간고사 성적의 평균	129.3
표준편차 ($SD_x$)	30.8
($y$) 기말고사 성적의 평균	112.4
표준편차($SD_y$)	40.0
상관계수	0.64

중간고사에서 평균보다 높은 160점 받은 학생들의 기말소가 평균 점수는 138점으로 표준단위로 볼 때 하락했음
반면 중간고사에서 평균보다 낮은 110점 받은 학생들의 기말고사 평균 점수는 96.1점으로 표준단위로 볼 때 상승했음

회귀효과

회귀오류(regression fallacy)는 회귀효과를 무언가 중요한 효과로 착각하는 것
- 회귀효과의 배경
- (관찰된 점수) = (실제 실력) + (롹률오차)
- 예: 실제 실력은 평균 120, 표준편차 15의 정규분포를 따라 분포한다고 가정하자.
  - 또 관측치에 든 확률오차는 각각 0.5의 확률로 $\pm5$라고 가정하자.
  - 실제 실력이 135인 사람의 관찰된 점수는 각각 1/2의 확률로 130 또는 140
  - 실제 실력이 145인 사람의 관찰된 점수는 각각 1/2의 확률로 140 또는 150
  - 관찰된 점수로 140점 받은 사람의 경우 실제 실력은 135인데 확률오차가 +5인 경우가 실제 실력은 145인데 확률오차가 -5인 경우보다 더 가능성 높음 (평균이 120임을 참고!)
  - 따라서 첫 번째 시험 점수가 평균보다 높으면, 아마도 실제 실력은 관찰된 점수보다 낮을 가능성이 큼

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / 제10강 회귀분석

04. 상관관계와 회귀직선

infinity-epoch — Wed, 12 Mar 2025 22:38:50 +0900

결합분포 (joint distrbution)

이제까지는 한 번에 하나의 변수만을 다루는 방법에 대해 살펴보았다
이제부터는 두 변수 사이의 상호관계를 분석하기 위한 방법을 살펴본다
남녀간의 관계처럼 많은 경우 둘 간의 관계가 중요하다
- 예: 교육과 임금
- 예: 통화증가율과 물가상승률
- 예: 학급 규모와 학생 성적
결합분포 : 두 변수 간의 관계 전모를 보여줌

산포도 (scatter plot)

두 변수 사이의 관계를 살펴보기 위해 산포도를 이용한다.
설명변수는 x로 표기하고 가로축에 표시
피설명변수는 y로 표기하고 세로축에 표시

산포도 예시

산포도의 요약

가로로 보면 대략 95%의 점들이 x 평균점을 기준으로 $ \pm 2SD_{x}$ 이내에 위치함
세로로 보면 대략 95%의 점들이 y 평균점을 기준으로 $ \pm 2SD_{y}$ 이내에 위치함
x의 평균과 표준편차, y의 평균과 표준편차는 x 와 y의 분포를 따로따로 요약

류근관. (2013). 통계학, 제3판 서울: 법문사. P.102

상관계수의 필요성

가로든 세로든 평균과 표준편차가 동일해도 두 변수의 관계는 상이

위의 산포도 좌측 3개씩 6개를 보면 가로든 세로든 중심과 퍼진 정도가 동일하지만 좌측으로 갈수록 더 강한 선형관계를 보임
두 변수간 선형관계의 방향과 강도가 얼마나 되는지 측정할 필요성 대두
상관계수는 두 변수가 선형관계의 방향과 강도 측정

두 변수 사이의 관계를 보는 3가지 키워드 : 선형 관계 , 방향 (+/-로 확인 가능) , 강도 (절대값이 1에 가까울수록 선형이다)

이변량 자료의 요약 통계량

x의 평균과 표준편차
y의 평균과 표준편차
x와 y간 상관계수

상관계수의 범위, 부호

범위 : $-1\leq r \leq 1$
상관계수 = 1 또는 -1 아니면 완전상관 (perfect correlation)
- 모든 점들이 정확히 하나의 선 위에 위치
양의 상관관계이면 점의 분포가 우상향
음의 상관관계이면 점의 분포가 우하향
두 변수의 표준편차가 모두 0이면 상관계수를 정의할 수 없음
두 변수 중 어느 한 변수만의 표준편차가 0이면 상관계수는 0

상관계수 구하는 절차 1

$r=\frac{\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\sum_{n}^{i=1}(x_{i}-\overline{x})^2} \sqrt{\sum_{n}^{i=1}(y_{i}-\overline{y})^2}}$

1) 각 변수를 평균으로부터의 편차로 바꾼다.

2) 두 편차를 서로 곱한 뒤 합친다.

3) 각 편차를 제곱하여 합치고, 다시 제곱근을 취한다. 두 제곱근을 곱한다.

4) 위 2)에서 얻은 값을 위 3)에서 얻은 값으로 나눈다.

상관계수 구하는 절차 2

(변형된 공식)

$
r = \frac{\sum_{i=1}^{n} \frac{(x_i - \bar{x})(y_i - \bar{y})}{n-1}}
{\sqrt{\sum_{i=1}^{n} \frac{(x_i - \bar{x})^2}{n-1} \sum_{i=1}^{n} \frac{(y_i - \bar{y})^2}{n-1}}}
$

1) 각 변수를 평균으로부터의 편차로 변환한다.

2) 두 편차를 서로 곱하여 합친 뒤 자유도 $n-1$ 로 나누어 공분산을 구한다.

3) 두 표준편차를 곱한다.

4) 위 2)에서 구한 값을 위 3)에서 구한 값으로 나눈다.

분모 : x와 y 각각의 표준편차의 곱
분자 : "공분산 (covariance)"

공분산 (Covariance)

X 편차와 Y 편차들의 곱의 대략적인 평균이다
산포도를 다시 생각해보자.
x와 y의 상관계수가 + 일 때, 공분산도 + 겠다!
상관계수의 부호는 공분산의 부호가 반영이 될것이다.
분모는 무조건 + 이기 때문

그렇다면 왜 공분산이 아니라 상관계수로 보는가?

상관계수를 단위와 관계 없이 독립적으로 정의하기 위함!
키와 몸무게의 상관관계를 구한다면, 공분산으로만 얘기하면 키를 m, cm 등등 어떻게 재느냐에 따라 값이 달라진다.
공분산의 단위의 의미를 없애기 위하여 상관계수를 활용한다.
-1 ~ 1의 구간을 갖기에 단위에 상관없이 판단이 가능하다

상관계수의 해석

상관계수의 의미
- '상관계수 = 0.8'은 산포도 상에서 80%의 점들이 하나의 선 주위에 빽빽하게 밀집해 있다는 것을 의미하지 않는다.
- '상관계수 = 0.8'은 상관계수가 0.4일 때보다 선형관계의 강도가 강하기는 하지만 정확히 두 배로 강하다는 것을 의미하지도 않는다.
산포도상에서 표준편차를 변화시킬 때의 시각적 효과

상관계수가 유용하지 않은 경우

이탈값 (outlier)이 존재하는 경우
두 변수가 관계가 비선형인 경우
- 상관계수가 0이 나왔다고 하여, 관계가 없음을 의미하지 않는다
- 선형 관계가 아닐 뿐 다른 관계는 있을 수 있다!

변수 변환

적절한 변수변환을 통하여 비선형 관계를 선형관계로 근사시킴
- 예) (x, y)간 존재하는 원래의 비선형 관계가 (x, ln(Y))간 선형관계로 바뀐 경우

위처럼 곱으로 늘어나는 변수를 통계분석할 때는 보통 로그 변환을 통해 선형성을 만든다.
왜 로그변환을 취하여 선형성을 만드는지는 뒤로 좀 더 공부하다보면 알게 될것이다!!
선형성을 만드는건 중요!

linear spline equation

$ln(y)=12.78-0.0012x-0.0019(x-900)^+$

(1) knots : 1개, x = 900 (매듭이 1개이고 위치가 x=900인 곳에 있다.
(2) $x$, $(x-900)^+ = (음수면 0, 양수면 수식을 따른다)

중회귀 분석 (multiple regression analysis)

설명변수가 여러 개 있는 회귀분석

상관관계가 실제의 관계를 과장하는 경우

비율이나 평균의 자료로부터 구한 상관관계는 종종 실제의 관계를 과장
지역이나 국가 등 집단의 자료로부터 구한 상관계수는 개개인에게 적용되는 선형관계를 과장할 가능성이 있음

상관계수가 곧바로 인과관계는 아니다

자유무역과 경제성장
- 많은 연구에서 자유무역과 경제성장 간에는 양의 상관관계가 존재하는 것으로 나타난다. 과연 자유무역이 경제 성장의 원동력이라고 말할 수 있을까?
- 후진국 : 낙후된 지역, 잘못된 거시정책 (제3의 혼동요인 존재)
자본유입과 경제성장
- 중국 내 12개 성을 대상으로 조사한 결과 해외자본을 많이 유치한 성일수록 경제성장률이 높았다. 이 결과로부터 해외자본이 경제성장을 촉진시켰다고 말할 수 있을까?
- 해외투자자 : 성장잠재력이 큰 성에 투자할 것임 (역인과 관계 가능성)

출처: 류근관의 통계 특강 / 서울대학교 경제통계학 / 제8강 상관관계

출처: 류근관의 통계 특강 / 서울대학교 경제통계학 / 제9강 상관관계와와 회귀직선

03. 정규분포로의 근사 (백분위수, 사분위수)

infinity-epoch — Mon, 10 Mar 2025 23:12:59 +0900

단위 변환

상수를 더하거나 곱하는 변환
예: 섭씨 온도(y) = 5/9(화씨온도(x)-32). 즉 y=160/9+(5/9)x
표준화(standardization): 평균을 빼주고 표준편차로 나누어 주는 변환
확률변수가 $X \sim N(\mu ,\sigma ^{2})$ (= normal distribution)일 때
$Z=\frac{X-\mu }{\sigma } \sim N(0,1) $ = 표준정규분포

알 수 있는 사실

분포의 전반적인 모습은 단위 변환을 통해 바뀌지 않는다.
평균을 뺏기 때문에, 새로운 평균은 0이 된다.
표준 편차로 나눴기 때문에 새로운 편차는 1이 될 수밖에 없다 .

수능 표준 점수 예시

사회탐구 과목당 50점 (2과목)
과학탐구 과목당 50점 (2과목)
언어 100점
수리 100점
외국어 100점
사회탐구, 과학탐구 과목당 표준점수
- (표준점수) = 50+10$z$
언어, 수리, 외국어 표준점수
- (표준점수) = 2(50+10$z$)

정규분포곡선

하나의 이상적인 히스토그램. 하나의 수학적 모형. 개념상 모집단의 분포.
정규분포의 확률밀도함수 (probability density function)

$ f(x) = \frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2 \sigma^{2}}} $, $- \infty < x <+\infty$, $e=2.71828\cdots $

$\mu$ 를 모평균, $\sigma$ 를 모표준편차라고 부름.
모집단 : 모평균과 모표준편차
표본 : 표본평균과 표본표준편차

정규분포의 확률밀도함수 (빨간색 = 표준정규분포)

표준정규분포 (standard normal distribution)

평균이 0이고 표준편차가 1인 정규분포 : $Z\sim N(0,1)$

$f(x) = \frac{1}{\sqrt{2\pi }}e^{-\frac{1}{2}z^{2}}, -\infty <z<\infty $

정규분포곡선의 68-95-99.7 규칙 (참고 : 2025.03.09 - [통계학] - 5강 평균과 중앙값)

표준단위로 -1부터 1까지 영역의 넓이 : 약 68%
표준단위로 -2부터 2까지 영역의 넓이 : 약 95%
표준단위로 -3부터 3까지 영역의 넓이 : 약 99.7%

1 standard deviation(표준편차) 과 같은표현을 쓸 필요가 없다

평균은 0이 되었고, 표준편차는 1이 되었기 때문이다

정규분포곡선의 모양

평균을 중심으로 좌우 대칭 (symmetric)
종 모양 (bell-shaped)
봉우리가 하나 (single-peaked)

표준 정규분포 곡선 아래의 영역 찾기 (참고 : 표준정규분포표 )

전북특별자치도교육청 - 표준정규분포표

Q1. 정규 근사

한 은행이 특정 영업일에 지급준비금 부족을 겪을 가능성은?

(매일 영업이 끝난 뒤 이 은행에 남아있는 잔고는 평균이 1조원이고 표준편차가 0.2조원인 정규분포에 의해 잘 근사된다고 가정. 지급준비금은 0.7조원 이상이어야 한다고 가정.)

정답 : 6.68%

백분위수

백분위수(percentile)는 하나의 히스토그램을 100개의 균등한 영역으로 나누는 99개의 경계점 값들.
제 p 백분위수는 그 값보다 작은 값이 p%, 큰 값이 (100-p)%가 되는 경계값.
많은 히스토그램은 정규분포곡선과 다름. (평균과 표준편차만으로는 부족)
- 예시로 소득분포가 있음
- 이런 경우에 percentile로 많이 표현함
- 제 1 십분위수, 제 9 십분위수
- 10개로 나눴을 때
  - 제 1 십분위수에 해당하는 소득 = 하위 10%에 해당하는 사람의 소득
  - 제 9 십분위수에 해당하는 소득 = 상위 10%에 해당하는 사람의 소득
  - 두 값을 비교 계산했 때 6배 차이가 나면 "소득의 불평등을 보여준다"와 같이 해석도 가능
이러한 히스토그램을 요약할 때는 백분위수 개념이 유용.

가구소득그래프

사분위수

백분위수 가운데 25번째, 50번째, 75번째 백분위수를 특별히 제1사분위수(first quartile), 제2사분위수(second quartile), 제3사분위수(third quartile)라 부름.
50번째 백분위수는 제2사분위수이면서 중앙값(median)임.
사분위수 범위 (interquartile range)

(사분위수 범위) = (제3사분위수) - (제1사분위수)

다섯 숫자 요약 (five number summary) : 최소값, 제1사분위수, 제2사분위수, 제3사분위수, 최대값
- *(최소값, 최대값) 쌍 대신 (제5백분위수, 제95백분위수) 쌍 또는 (제1백분위수, 제99백분위수) 쌍을 사용하기도 함.

상자 그림 (box plot)

box plot 그리는 방법 (Q1 = 제 1사분위수 , Q3 = 제 3사분위수)

Q2. 백분위수 찾기

2009년도 1학기 통계학 중간고사에서 상위 5%에 해당하는 학생의 점수를 추정하라. 단 평균점수는 28.93 점이고 표준편차는 8.52점이다.

정답

z=1.65일 때 [0,1.65] 구간의 면적이 45%이므로, 상위 5% 학생의 z 값은 1.65이다.

이 학생은 평균보다 1.65 * 8.52 = 14.06 점 높을 것으로 추정된다.

즉, 이 학생은 27.93 + 14.06 = 41.99점을 받았을 것으로 추정된다.

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / - 제7강 정규분포로의 근사

02. 표준편차와 자유도

infinity-epoch — Sun, 9 Mar 2025 19:00:28 +0900

제곱근-평균-제곱 (Root Mean Square)

계산은 표현의 역순 (제곱 후 평균, 최종적으로 제곱근)

제곱(S) : 모든 수를 제곱하여 부호를 없앤다.
평균(M) : 제곱된 값들의 평균을 구한다.
제곱근(R) : 제곱-평균된 값에 제곱근을 취한다

$RMS = \sqrt{숫자들의 제곱의 평균}$

표준편차 : $S_{y}$ / $SD_{y}$

표준편차의 계산

표준편차(SD)는 "평균으로부터의 편차들"의 RMS와 "대략" 비슷
표본 분산 및 표본 표준편차는 아래와 같다.
$S = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}$

-1과 관련된 개념이 자유도(degrees of freedom : 주어진 조건 하에서 자유롭게 변화할 수 있는 개수)

자유도의 정의

자유도는 합쳐진 값들 중에서 실질적으로 독립인 값들의 개수
표준편차 계산하는 경우의 자유도는 "자료의 개수 - 1"
표준편차 계산의 대상이 되는 편차들의 합은 0이 됨. 편차들의 합이 0이 된다는 하나의 제약 조건이 자유도를 1만큼 감소시킨 것임

<자유도의 추가적인 배경 설명>

편차 = 평균으로부터의 편차!
대표값이 평균
개개인의 관측치가 평균으로부터 얼마나 떨어져 있는가
편차를 다 더하면 0이 됨.
9개의 편차를 알면 10번째를 알 수 있기에, 자유로운 것은 9개다. 그래서 관측치의 개수 -1을 하자.

값이 1개인 경우, 평균은 그 값 자체이며, 편차는 0이 됨
편차는 불확실성을 보고 싶어서 보는데, 이의 평균을 위하여 RMS를 계산 = 0.
투자를 한다는 가정 하에 이렇게 보게 되면, 위험도가 없고 무조건 수익이 나는구나! 이는 착각이 된다.

이를 표준편차로 보게 되면, n-1을 하기 때문에 0/0 = 부정형이 되어 성립하지 않는다.
즉, 위험을 모른다. 알 수 없다가 답이 된다.

표준편차의 의미

표준편차는 관측치들이 평균으로부터 얼마나 떨어져 있는지 알려줌
68-95 법칙
- 관측치들의 약 68% 정도가 평균으로부터 1 표준편차 ($1\sigma $) 이내로 떨어져 있다.
- 관측치들의 약 95% 정도가 평균으로부터 2 표준편차 ($2\sigma $) 이내로 떨어져 있다.
- 전제조건
  1. 히스토그램의 모양이 봉우리가 하나
  2. 히스토그램이 좌우 대칭
  3. 양쪽으로 갈수록 감소하는 종모양

https://ko.wikipedia.org/wiki/68-95-99.7_%EA%B7%9C%EC%B9%99

즉, 분포의 전반적인 모습, 중심, 개별 관측치와의 거리만 알면 근사하게 특정 수치의 위치를 알 수 있다.

= 숫자 몇 개만으로 전체의 그림을 요약하여 볼 수 있는 힘이 있다

측정 오차 (measurement error)

관측치와 실제 값의 차이
측정오차가 존재하면, (관측치) = (실제 값) + (측정오차)
측정오차의 대략적인 크기는 관측치들의 표준편차(SD)를 통해 알 수 있음
표준편차(SD)의 크기는 한 번의 관측에서 측정오차가 어느 정도 될지 알려 줌

편의 (bias)

방향성을 갖는 하나의 세계적인 오차
측정오차와 함께 편의가 있으면, (관측치) = (실제 값) + (편의) + (측정오차)

이탈값 (outlier)

극단적인 관측치

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / 제6강 표준편차와 자유도

01. 평균과 중앙값

infinity-epoch — Sun, 9 Mar 2025 18:05:22 +0900

중심과 퍼진 정도

- 히스토그램에서 자료를 요약할 때 중심(평균, 중앙값)과 중심 주위로 퍼진 정도(표준편차, 사분위수 범위)를 주로 사용

평균

평균(mean)은 관측치의 총합을 관측치의 개수로 나누어 구한다.
x1, x2, .. xn 등 n 개의 관측치가 주어져 있을 때 표본의 평균은 (평균 수식)
평균이 중요하지만 전부는 아님. 아래 세 그림은 평균이 같지만 퍼진 정도가 다름

중앙값 (median)

절반 이상의 숫자들이 이 값보다 크거나 같고 동시에 절반 이상의 숫자들이 이 값보다 작거나 같은 수
하스토그램은 중앙값에서 그 면적이 양분됨
중앙값 n이 홀수이면 (n+1)/2 번째로 크거나 작은 숫자임
중앙값은 n이 짝수이면 n/2 번째 숫자와 (n+1)/2 번째 숫자의 평균으로 정의
median voter theorem (결국 중앙값에 위치한 사람의 성향을 대표할 수밖에 없다!)
- 선호의 비대칭분포 이용하여 후보자의 location choice 문제 설명.
- 다수결에 의한 투표는 중앙값 투표자(median voter)가 선호하는 결과를 선택하게 됨
- 이는 중앙값이 LAD (least absolute deviation)의 해로 얻어진다는 것과 수학적으로 같은 내용임
- 유권자의 선호를 일차원 실직선 상에서 표현할 수 있을 때 성립함
- 유권자의 선호가 다차원적이면 성립하지 않음
- sum(|yi - m|) 이를 최소화하는 m을 선택한다면, 투표를 받을 수 있다! - 데이터의 중앙값이 됨

평균과 중앙값의 관계

히스토그램이 대칭이면 평균 = 중앙값
숫자열의 변화에 따른 평균의 변화 ( 1,2,2,3 || 1,2,2,5 || 1,2,2,7 )
- 극단적인 값이 변화함에 따라 중앙값은 robust 하지만, 평균은 극단값의 영향을 많이 받는다!

최빈치 (mode)

가장 많이 관측되는 값
히스토그램은 최빈치에서 그 높이가 제일 높음

히스토그램의 세 가지 꼬리 유형 (left/right-skewed distribution , normal distribution)

평균은 극단적인 값의 영향을 받음
중앙값은 극단적인 값의 영향을 받지 않음
극단적인 값이 존재하는 경우 평균보다 중앙값이 중심을 더 잘 나타냄
GDP 2만 달러 약 2천만 원 / 4인 8천만 원 = 평균

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / - 제5강 평균과 중앙값