07. 중회귀분석 (결정계수)

2025. 3. 17. 23:37·통계학

기울기와 절편

  • 절편은 x가 0일 때 y 값을 의미하며 기울기는 x가 1만큼 증가할 때 y가 증가하는 정도를 의미한다.

 

직선을 구하는 방법

최소자승법

  • 최소자승직선 : 모든 직선 중에서 x를 통해 y를 추정할 때 발생하는 추정오차들의 "제곱의 합"으로 측정한 전반적 크기를 가장 작게 만들어주는 직선
    • 산포도상의 각가의 점으로부터 하나의 직선까지의 수직거리를 정의
    • 수직거리의 "제곱 합"이 최소화 되는 직선을 회귀직선으로 선택
    • 수직거리의 제곱합을 최소화하는 것이나 RMS로 측정한 수직거리의 전반적 크기를 최소화하는 것이나 수학적으로 동일한 최적화 문제임
    • 즉, 최소자승법(method of least square)은 모든 직선 가운데 수직거리의 전반적 크기를 최소화 해주는 직선을 구하는 방법임

$\underset{a,b}{min}\sum_{n}^{i=1}[Y_{i}-(a+bX_i)]^{2}$

$\begin{matrix}
(X_i, Y_i) & i=1,...,n \\
\end{matrix}$

$\Rightarrow a=\overline{Y}-b\overline{X}$

$b=r \cdot \frac{SD_Y}{SD_X}$

 

 

 

예) 빅맥지수

(환율) = -57.31 + 1.81 (빅맥지수)

  • 빅맥지수와 환율의 수준이 같지 않다.
  • Absolute PPP 성립한다고 보기 어렵다.

ln(환율) = 0.29 + 1.01 x ln(빅맥지수)

  • 빅맥지수가 1% 변화할 때 환율도 대체로 1% 남짓 (1.01%) 변화하는 것으로 판단됨
  • Relative PPP가 성립하지 않는다고 볼 통계적 근거가 없음

 

자산가격결정모형(CAPM)

  • CAPM : 수익률에 대한 단일요인 모형 (Single factor model of return)
  • 시계열 회귀분석 방정식

$$ r_{it} = \alpha_i + \beta_ir_{mt}+\epsilon_{it} $$

$i$ = individual asset (특정 자산)

$t$ = time period (시기)

$m$ = market (시장)

$r$ = 수익률

$ r_{mt} $ = 시장 수익률

$\epsilon_{it}$ = 기타 외부 요인

  • Fama & French (1992) : '기업규모' 및 '장부가치/시장가치 비율' 등 두 요인을 추가하여 수익률의 종목간 변동을 추가로 설명

예) CAPM $\beta$의 추정

  • 종목별로 월별 주가수익률 데이터를 이용하여 개별주식의 수익률을 시장포트폴리오(KOSPI)의 수익률에 대해 회귀분석한 결과
  • 데이터 : 월별 주가 자료 (1992.2 - 2001.12)
기업명 $beta$ t-value
Samsung Electronics 1.24 6.39
SK Telecom 0.95 3.71
KT 1.09 5.97
KEPCO 0.71 4.79
POSCO 1.00 8.12

 

수치의 의미를 보면,

1보다 크다  = 시장 수익률이 한 단위 움직였을 때, 개별적인 주가는 더 많이 움직인다. ex. 삼성전자

1보다 낮다 = 시장 수익률보다 덜 움직인다. ex. KEPCO

 

직사각형의 둘레길이와 널이의 산포도 (회귀직선이 모두 통하는 것은 아님! 직선의 관계!)

  • 넓이와 둘레길이간 상관계수 = 0.98 : 이는 넓이와 높이라는 제3의 요인들 영향
  • 넓이와 둘레길이간 관계는 선형 관계가 아니라 비선형 관계임

 

중회귀 분석

  • 둘 이상의 설명 변수(x)로 독립 변수(y)를 설명하는 회귀분석
  • 종종 제 3의 변수가 두 변수 x와 y 각각에 영향을 미쳐, 관심의 대상인 두 변수 상호간의 순수한 관계를 왜곡시키게 됨. 제3의 변수를 통제할 필요성 대두
    • 1) 실험 (experiment) - 현실에서는 불가능 그래서 관측된 관계를 이용!
    • 2) 통계적 통제 1 : 자료를 제 3의 변수값에 따라 분류, 집단 별로 따로따로 분석
    • 3) 통계적 통제 2 : 중회귀분석

 

예) 남녀 노동자간 임금격차

  • 남녀 간에 임금격차가 존재하는지 보기 위하여 다음의 단순회귀분석 모형을 추정하려고 한다.

(임금) = a + b(남성 더미변수) + (오차)

  • 여기서 남성 더미변수는 남성에게 1을, 여성에게는 0의 값을 부여하는 질적변수이다.
  • 일반적으로 더미변수는 하나의 질적인 설명변수가 종속변수에 미치는 영향을 파악하고자할 때 이용한다.
  • 남녀 간의 임금격차는 남녀간 교육수준의 차이 등이 통제되지 않는 한 성차별의 증거로 보기 어렵다.
  • 교육수준을 설명변수로 추가, 단순회귀분석 모형을 중회귀분석 모형으로 확장하는 것이 필요!

(임금) =  a + b(남성 더미변수) + c(교육연수) + (오차)

 

 

예) 기술진보 반영한 물가지수 작성법

예) 컴퓨터 기술진보를 감안한 상태에서 지난 10년간의 컴퓨터 가격지수 작성

  • 지난 10년간 판매된 데스크탑 컴퓨터에 대해 CPU, 메모리 등 각종 스펙(x), 판매연도 (첫 해를 기준으로 $d_2, ..., d_{10}$ 등 총 9개의 연도더미변수들), 판매가격(y) 정보수집
  • log(y)를 상수항 $x, d_2, ... ,d_{10}$에 중회귀분석하여 $d_2, ... ,d_{10}$의 계수 추정치인 $b_2, .. ,b_{10}$ 얻음
  • 첫 해의 가격지수를 100으로 두면, 둘째 연도, ... , 10번째 연도의 가격지수는 각각 $100*exp(b_2), ... 100*exp(b_{10})$ 등으로 추정됨.

 

\[
\ln P_{it} = \alpha + {X_{it}}' \beta + \gamma_1 D_{1t} + \cdots + \gamma_{10} D_{10t} + \varepsilon_{it}
\]
\[
\text{where} \quad D_{jt} =
\begin{cases} 
1 & \text{if } t = j \\
0 & \text{otherwise}
\end{cases}, \quad j = 1, \dots, 10
\]
\[
D_1, \dots, D_{10} : \text{ time dummies}
\]

 

 

  • ${X_{it}}'\beta$ : 여러 개의 스펙이 다 들어가 있는 것 (CPU, 화면 크기 등)
  • $P_{it}$ : t년도에 판 i 라는 컴퓨터의 가격
  • $\gamma_1D_{it}$ : 각 더미변수 (11년동안의 데이터이고 기준년도 빼고 10개)

컴퓨터 스펙이 컴퓨터 가격에 미치는 영향을 통제한 상태에서, 기준 년도 대비 $\gamma_1$ 퍼센트(p항 로그취해졌기 때문) 만큼 달랐다.를 의미하는 수식

통계적인 통제를 하지 않는다면, 예나 지금이나 좋은 컴퓨터는 약 150~200 정도 비슷하게 한다. 즉, 시대에 흐름을 타지 않는다는 해석이 나올 수 있기에 주의해야한다!

같은 컴퓨터가 년도별로 가격이 어떻게 변했나 = 물가지수의 의미!

 

$lnP_{ij}-lnP_{i0} = \gamma_j$

$\Rightarrow P_{ij} = P_{i0}e^{r_j}$

$j = 1,2, \cdots, 10$

 

원년도를 100으로 본다고 하면 j 년도의 물가지수 = $100e^{r_j}$

같은 컴퓨터는 시간이 지날수록 가격이 하랄할테니, $\gamma_1$ 은 음수, $\gamma_2$는 더 작은 음수, .. 점점 줄어드는 그래프가 나올 것 (우하향)

 

이러한 변수 통제를 하지 않으면 심슨의 역설(simpson's paradox)가 발생하게 된다

 

 

총 변동의 분해

\[
y_i - \bar{y} = \left[ (a + bx_i) - \bar{y} \right] + \left[ y_i - (a + bx_i) \right]
\]
\[
T = Regression (설명이 되는 부분) + Error (설명되지 않는 부분)
\]

각 항을 제곱하면 아래와 같다!

 

$\sum(y_i-\overline{y})^2 = \sum [(a+bx_i)-\overline{y}]^2+\sum [y_i-(a+bx_i)]^2$

SST = SSR + SSE

 

SST [총제곱합 (total sum of squares)] : y의 평균 주위로의 총변동

SSR [회귀제곱합 (regression sum of squares)] : 회귀직선에 의해 설명되는 변동분

SSE [잔차제곱합 (residual sum of squares) 또는 오차제곱합 (error sum of squares)] : 회귀직선에 의해 설명되지 않는 변동분

 

결정계수 ($R^2$)

결정계수 = 총변동에서 차지하는 설명되는 변동분의 비율

$R^2 = \frac{SSR}{SST} = 1-\frac{SSE}{SST}$

$(0\leq R^2\leq1)$

  • 결정계수의 값이 1에 가까울수록 회귀직선의 설명력은 높다
  • 단순회귀분석의 경우 결정계수인 $R^2$ 값은 두 변수간 상관관계인 r의 제곱과 같게된다. (단순회귀분석의 경우에는 $R^2$ = r 제곱)

조정된 결정계수 (adjusted $R^2$)

  • 설명계수를 추가하면 추가할수록 $R^2$는 언제나 증가함
    • $R^2=1-SSE/SST$인데 $SST$는 고정된 반면 $SSE$ 는 설명변수 추가될수록 감소
  • 이 문제를 해결하기 위해 아래의 "조정된 결정계수"를 정의함

$\overline{R}^2=1-\frac{SSE/(n-k-1)}{SST/(n-1)}$

(n= 표본크기, k=설명변수의 개수)

  • $SSE$와 $SST$가 각각의 자유도로 나누어진 형태로 등장
  • $SST$의 자유도=(n-1): 표준편차 구할 때의 자유도와 동일
  • $SSE$의 자유도=(n-k-1): n개 자료 이용 총 (k+1)개의 계수 추정한 결과
  • 조정된 결정계수는 설명변수가 추가된다고 해서 반드시 늘지는 않음

 

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / 제12강 회귀직선

출처 : 류근관의 통계 특강 / 서울대학교 경제통계학 / 제13강 중회귀분석의 응용

 

'통계학' 카테고리의 다른 글

06. 회귀직선의 오차 RMSE  (0) 2025.03.14
05. 회귀분석  (0) 2025.03.14
04. 상관관계와 회귀직선  (0) 2025.03.12
03. 정규분포로의 근사 (백분위수, 사분위수)  (0) 2025.03.10
'통계학' 카테고리의 다른 글
  • 06. 회귀직선의 오차 RMSE
  • 05. 회귀분석
  • 04. 상관관계와 회귀직선
  • 03. 정규분포로의 근사 (백분위수, 사분위수)
infinity-epoch
infinity-epoch
과거에 했던 공부와 앞으로 공부할 내용을 정리해보고자 블로그를 시작하게 되었습니다 일주일에 3개정도는 포스팅하는게 목표입니다 :-)
  • infinity-epoch
    infinity-epoch
    infinity-epoch
  • 전체
    오늘
    어제
    • 분류 전체보기 (7)
      • 통계학 (7)
      • Backend (0)
      • AI (0)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
    • 관리 페이지
    • 글쓰기
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    변수 변환
    homoskedestic
    백분위수
    산포도
    회귀오류
    normal distribution
    요인 통제
    Percentile
    확률밀도함수
    최빈치
    사분위수
    회귀효과
    등분산성
    density function
    r square
    로그변환
    statiscits
    Probability density function
    degrees of freedom
    중회귀분석
    결합분포
    회귀직선
    simpson's paradox
    rmse
    joint distribution
    root mean square error
    median
    IQR
    변동의 분해
    오차
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
infinity-epoch
07. 중회귀분석 (결정계수)
상단으로

티스토리툴바