<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0">
  <channel>
    <title>infinity-epoch</title>
    <link>https://infinity-epoch.tistory.com/</link>
    <description>과거에 했던 공부와 앞으로 공부할 내용을 정리해보고자 블로그를 시작하게 되었습니다
일주일에 3개정도는 포스팅하는게 목표입니다 :-)</description>
    <language>ko</language>
    <pubDate>Tue, 26 May 2026 20:19:51 +0900</pubDate>
    <generator>TISTORY</generator>
    <ttl>100</ttl>
    <managingEditor>infinity-epoch</managingEditor>
    <image>
      <title>infinity-epoch</title>
      <url>https://tistory1.daumcdn.net/tistory/7752528/attach/8da7f06389714fb6afbdcefd084d0f14</url>
      <link>https://infinity-epoch.tistory.com</link>
    </image>
    <item>
      <title>07. 중회귀분석 (결정계수)</title>
      <link>https://infinity-epoch.tistory.com/entry/07-%EC%A4%91%ED%9A%8C%EA%B7%80%EB%B6%84%EC%84%9D-%EA%B2%B0%EC%A0%95%EA%B3%84%EC%88%98</link>
      <description>&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;기울기와 절편&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;절편은 x가 0일 때 y 값을 의미하며 기울기는 x가 1만큼 증가할 때 y가 증가하는 정도를 의미한다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;직선을 구하는 방법&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;최소자승법&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;최소자승직선 : 모든 직선 중에서 x를 통해 y를 추정할 때 발생하는 &lt;u&gt;추정오차들의 &quot;제곱의 합&quot;&lt;/u&gt;으로 측정한 전반적 크기를 가장 작게 만들어주는 직선
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;산포도상의 각가의 점으로부터 하나의 직선까지의 수직거리를 정의&lt;/li&gt;
&lt;li&gt;수직거리의 &quot;제곱 합&quot;이 최소화 되는 직선을 회귀직선으로 선택&lt;/li&gt;
&lt;li&gt;수직거리의 제곱합을 최소화하는 것이나 RMS로 측정한 수직거리의 전반적 크기를 최소화하는 것이나 수학적으로 동일한 최적화 문제임&lt;/li&gt;
&lt;li&gt;즉, 최소자승법(method of least square)은 모든 직선 가운데 수직거리의 전반적 크기를 최소화 해주는 직선을 구하는 방법임&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$\underset{a,b}{min}\sum_{n}^{i=1}[Y_{i}-(a+bX_i)]^{2}$&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$\begin{matrix}&lt;br /&gt;(X_i,&amp;nbsp;Y_i)&amp;nbsp;&amp;amp;&amp;nbsp;i=1,...,n&amp;nbsp;\\&lt;br /&gt;\end{matrix}$&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$\Rightarrow&amp;nbsp;a=\overline{Y}-b\overline{X}$&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$b=r&amp;nbsp;\cdot&amp;nbsp;\frac{SD_Y}{SD_X}$&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;예) 빅맥지수&lt;/b&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;(환율) = -57.31 + 1.81 (빅맥지수)&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;빅맥지수와 환율의 수준이 같지 않다.&lt;/li&gt;
&lt;li&gt;Absolute PPP 성립한다고 보기 어렵다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;ln(환율) = 0.29 + 1.01 x ln(빅맥지수)&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;빅맥지수가 1% 변화할 때 환율도 대체로 1% 남짓 (1.01%) 변화하는 것으로 판단됨&lt;/li&gt;
&lt;li&gt;Relative PPP가 성립하지 않는다고 볼 통계적 근거가 없음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;자산가격결정모형(CAPM)&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;CAPM : 수익률에 대한 단일요인 모형 (Single factor model of return)&lt;/li&gt;
&lt;li&gt;시계열 회귀분석 방정식&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$$ r_{it} = \alpha_i + \beta_ir_{mt}+\epsilon_{it} $$&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$i$ = individual asset (특정 자산)&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$t$ = time period (시기)&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$m$ = market (시장)&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$r$ = 수익률&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$ r_{mt} $ = 시장 수익률&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$\epsilon_{it}$ = 기타 외부 요인&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;Fama &amp;amp; French (1992) : '기업규모' 및 '장부가치/시장가치 비율' 등 두 요인을 추가하여 수익률의 종목간 변동을 추가로 설명&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;예) CAPM $\beta$의 추정&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;종목별로 월별 주가수익률 데이터를 이용하여 개별주식의 수익률을 시장포트폴리오(KOSPI)의 수익률에 대해 회귀분석한 결과&lt;/li&gt;
&lt;li&gt;데이터 : 월별 주가 자료 (1992.2 - 2001.12)&lt;/li&gt;
&lt;/ul&gt;
&lt;table style=&quot;border-collapse: collapse; width: 83.9535%; height: 203px;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style14&quot;&gt;
&lt;tbody&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 33.3333%; height: 19px; text-align: center;&quot;&gt;기업명&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 19px; text-align: center;&quot;&gt;$beta$&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 19px; text-align: center;&quot;&gt;t-value&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 18px;&quot;&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;Samsung Electronics&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;1.24&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;6.39&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 18px;&quot;&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;SK Telecom&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;0.95&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;3.71&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 18px;&quot;&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;KT&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;1.09&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;5.97&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 18px;&quot;&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;KEPCO&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;0.71&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;4.79&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 18px;&quot;&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;POSCO&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;1.00&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px; text-align: center;&quot;&gt;8.12&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;수치의 의미를 보면,&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;1보다 크다&amp;nbsp; = 시장 수익률이 한 단위 움직였을 때, 개별적인 주가는 더 많이 움직인다. ex. 삼성전자&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;1보다 낮다 = 시장 수익률보다 덜 움직인다. ex. KEPCO&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;직사각형의 둘레길이와 널이의 산포도 (회귀직선이 모두 통하는 것은 아님! 직선의 관계!)&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;넓이와 둘레길이간 상관계수 = 0.98 : 이는 넓이와 높이라는 &lt;span style=&quot;color: #006dd7;&quot;&gt;&lt;u&gt;제3의 요인들&lt;/u&gt;&lt;/span&gt; 영향&lt;/li&gt;
&lt;li&gt;넓이와 둘레길이간 관계는 선형 관계가 아니라 비선형 관계임&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;중회귀 분석&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;둘 이상의 설명 변수(x)로 독립 변수(y)를 설명하는 회귀분석&lt;/li&gt;
&lt;li&gt;종종 제 3의 변수가 두 변수 x와 y 각각에 영향을 미쳐, 관심의 대상인 두 변수 상호간의 순수한 관계를 왜곡시키게 됨. 제3의 변수를 통제할 필요성 대두
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;1) 실험 (experiment) - 현실에서는 불가능 그래서 &lt;u&gt;관측된 관계를 이용!&lt;/u&gt;&lt;/li&gt;
&lt;li&gt;2) 통계적 통제 1 : 자료를 제 3의 변수값에 따라 분류, 집단 별로 따로따로 분석&lt;/li&gt;
&lt;li&gt;3) 통계적 통제 2 : 중회귀분석&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;예) 남녀 노동자간 임금격차&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;남녀 간에 임금격차가 존재하는지 보기 위하여 다음의 단순회귀분석 모형을 추정하려고 한다.&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;(임금) = a + b(남성 더미변수) + (오차)&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;여기서 남성 더미변수는 남성에게 1을, 여성에게는 0의 값을 부여하는 질적변수이다.&lt;/li&gt;
&lt;li&gt;일반적으로 더미변수는 하나의 질적인 설명변수가 종속변수에 미치는 영향을 파악하고자할 때 이용한다.&lt;/li&gt;
&lt;li&gt;남녀 간의 임금격차는 &lt;u&gt;남녀간 교육수준의 차이&lt;/u&gt; 등이 통제되지 않는 한 성차별의 증거로 보기 어렵다.&lt;/li&gt;
&lt;li&gt;교육수준을 설명변수로 추가, 단순회귀분석 모형을 중회귀분석 모형으로 확장하는 것이 필요!&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;(임금) =&amp;nbsp; a + b(남성 더미변수) + c(교육연수) + (오차)&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;b&gt;예) 기술진보 반영한 물가지수 작성법&lt;/b&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;예) 컴퓨터 기술진보를 감안한 상태에서 지난 10년간의 컴퓨터 가격지수 작성&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;지난 10년간 판매된 데스크탑 컴퓨터에 대해 CPU, 메모리 등 각종 스펙(x), 판매연도 (첫 해를 기준으로 $d_2, ..., d_{10}$ 등 총 9개의 연도더미변수들), 판매가격(y) 정보수집&lt;/li&gt;
&lt;li&gt;log(y)를 상수항 $x, d_2, ... ,d_{10}$에 중회귀분석하여 $d_2, ... ,d_{10}$의 계수 추정치인 $b_2, .. ,b_{10}$ 얻음&lt;/li&gt;
&lt;li&gt;첫 해의 가격지수를 100으로 두면, 둘째 연도, ... , 10번째 연도의 가격지수는 각각 $100*exp(b_2), ... 100*exp(b_{10})$ 등으로 추정됨.&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;\[&lt;br /&gt;\ln P_{it} = \alpha + {X_{it}}' \beta + \gamma_1 D_{1t} + \cdots + \gamma_{10} D_{10t} + \varepsilon_{it}&lt;br /&gt;\]&lt;br /&gt;\[&lt;br /&gt;\text{where}&amp;nbsp;\quad&amp;nbsp;D_{jt}&amp;nbsp;=&lt;br /&gt;\begin{cases}&amp;nbsp;&lt;br /&gt;1&amp;nbsp;&amp;amp;&amp;nbsp;\text{if&amp;nbsp;}&amp;nbsp;t&amp;nbsp;=&amp;nbsp;j&amp;nbsp;\\&lt;br /&gt;0&amp;nbsp;&amp;amp;&amp;nbsp;\text{otherwise}&lt;br /&gt;\end{cases},&amp;nbsp;\quad&amp;nbsp;j&amp;nbsp;=&amp;nbsp;1,&amp;nbsp;\dots,&amp;nbsp;10&lt;br /&gt;\]&lt;br /&gt;\[&lt;br /&gt;D_1, \dots, D_{10} : \text{ time dummies}&lt;br /&gt;\]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;${X_{it}}'\beta$ : 여러 개의 스펙이 다 들어가 있는 것 (CPU, 화면 크기 등)&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;$P_{it}$ : t년도에 판 i 라는 컴퓨터의 가격&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;$\gamma_1D_{it}$ : 각 더미변수 (11년동안의 데이터이고 기준년도 빼고 10개)&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;컴퓨터 스펙이 컴퓨터 가격에 미치는 영향을 통제한 상태에서, 기준 년도 대비 $\gamma_1$ 퍼센트(p항 로그취해졌기 때문) 만큼 달랐다.를 의미하는 수식&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;통계적인 통제를 하지 않는다면, 예나 지금이나 좋은 컴퓨터는 약 150~200 정도 비슷하게 한다. 즉, 시대에 흐름을 타지 않는다는 해석이 나올 수 있기에 주의해야한다!&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;같은 컴퓨터가 년도별로 가격이 어떻게 변했나 = 물가지수의 의미!&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$lnP_{ij}-lnP_{i0} = \gamma_j$&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$\Rightarrow P_{ij} = P_{i0}e^{r_j}$&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$j = 1,2, \cdots, 10$&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;원년도를 100으로 본다고 하면 j 년도의 물가지수 = $100e^{r_j}$&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;같은 컴퓨터는 시간이 지날수록 가격이 하랄할테니, $\gamma_1$ 은 음수, $\gamma_2$는 더 작은 음수, .. 점점 줄어드는 그래프가 나올 것 (우하향)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이러한 변수 통제를 하지 않으면 &lt;b&gt;&lt;u&gt;심슨의 역설(simpson's paradox)&lt;/u&gt;&lt;/b&gt;가 발생하게 된다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;총 변동의 분해&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;\[&lt;br /&gt;y_i&amp;nbsp;-&amp;nbsp;\bar{y}&amp;nbsp;=&amp;nbsp;\left[&amp;nbsp;(a&amp;nbsp;+&amp;nbsp;bx_i)&amp;nbsp;-&amp;nbsp;\bar{y}&amp;nbsp;\right]&amp;nbsp;+&amp;nbsp;\left[&amp;nbsp;y_i&amp;nbsp;-&amp;nbsp;(a&amp;nbsp;+&amp;nbsp;bx_i)&amp;nbsp;\right]&lt;br /&gt;\]&lt;br /&gt;\[&lt;br /&gt;T = Regression (설명이 되는 부분) + Error (설명되지 않는 부분)&lt;br /&gt;\]&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;각 항을 제곱하면 아래와 같다!&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$\sum(y_i-\overline{y})^2&amp;nbsp;=&amp;nbsp;\sum&amp;nbsp;[(a+bx_i)-\overline{y}]^2+\sum&amp;nbsp;[y_i-(a+bx_i)]^2$&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;SST&lt;/b&gt; = &lt;span style=&quot;color: #006dd7;&quot;&gt;&lt;b&gt;SSR&lt;/b&gt;&lt;/span&gt; + &lt;span style=&quot;color: #ee2323;&quot;&gt;&lt;b&gt;SSE&lt;/b&gt;&lt;/span&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #000000;&quot;&gt;&lt;b&gt;SST&lt;/b&gt;&lt;/span&gt; [총제곱합 (total sum of squares)] : y의 평균 주위로의 총변동&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #006dd7;&quot;&gt;&lt;b&gt;SSR&lt;/b&gt;&lt;/span&gt; [회귀제곱합 (regression sum of squares)] : 회귀직선에 의해 설명되는 변동분&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;&lt;span style=&quot;color: #ee2323;&quot;&gt;SSE&lt;/span&gt;&lt;/b&gt; [잔차제곱합 (residual sum of squares) 또는 오차제곱합 (error sum of squares)] : 회귀직선에 의해 설명되지 않는 변동분&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;결정계수 ($R^2$)&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;결정계수 = 총변동에서 차지하는 설명되는 변동분의 비율&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$R^2&amp;nbsp;=&amp;nbsp;\frac{SSR}{SST}&amp;nbsp;=&amp;nbsp;1-\frac{SSE}{SST}$&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$(0\leq&amp;nbsp;R^2\leq1)$&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;결정계수의 값이 1에 가까울수록 회귀직선의 설명력은 높다&lt;/li&gt;
&lt;li&gt;단순회귀분석의 경우 결정계수인 $R^2$ 값은 두 변수간 상관관계인 r의 제곱과 같게된다. (단순회귀분석의 경우에는 $R^2$ = r 제곱)&lt;/li&gt;
&lt;/ul&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;조정된 결정계수 (adjusted $R^2$)&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;설명계수를 추가하면 추가할수록 $R^2$는 언제나 증가함
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;$R^2=1-SSE/SST$인데 $SST$는 고정된 반면 $SSE$ 는 설명변수 추가될수록 감소&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;이 문제를 해결하기 위해 아래의 &quot;&lt;u&gt;조정된 결정계수&lt;/u&gt;&quot;를 정의함&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$\overline{R}^2=1-\frac{SSE/(n-k-1)}{SST/(n-1)}$&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;(n= 표본크기, k=설명변수의 개수)&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;$SSE$와 $SST$가 각각의 자유도로 나누어진 형태로 등장&lt;/li&gt;
&lt;li&gt;$SST$의 자유도=(n-1): 표준편차 구할 때의 자유도와 동일&lt;/li&gt;
&lt;li&gt;$SSE$의 자유도=(n-k-1): n개 자료 이용 총 (k+1)개의 계수 추정한 결과&lt;/li&gt;
&lt;li&gt;조정된 결정계수는 설명변수가 추가된다고 해서 반드시 늘지는 않음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;출처 :&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;a href=&quot;https://youtu.be/BDmT_fLB4cc?si=FuLjvqU6H0Obxt5c&quot;&gt;류근관의 통계 특강 / 서울대학교 경제통계학 / 제12강 회귀직선&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;출처 : &lt;a href=&quot;https://youtu.be/Tu-6VWf64DA?si=knq0G8fUHVQ1o6TK&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;류근관의 통계 특강 / 서울대학교 경제통계학 / 제13강 중회귀분석의 응용&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>통계학</category>
      <category>r square</category>
      <category>simpson's paradox</category>
      <category>결정계수</category>
      <category>기울기</category>
      <category>변동의 분해</category>
      <category>요인 통제</category>
      <category>절편</category>
      <category>중회귀분석</category>
      <category>최소자승법</category>
      <category>회귀직선</category>
      <author>infinity-epoch</author>
      <guid isPermaLink="true">https://infinity-epoch.tistory.com/7</guid>
      <comments>https://infinity-epoch.tistory.com/entry/07-%EC%A4%91%ED%9A%8C%EA%B7%80%EB%B6%84%EC%84%9D-%EA%B2%B0%EC%A0%95%EA%B3%84%EC%88%98#entry7comment</comments>
      <pubDate>Mon, 17 Mar 2025 23:37:51 +0900</pubDate>
    </item>
    <item>
      <title>06. 회귀직선의 오차 RMSE</title>
      <link>https://infinity-epoch.tistory.com/entry/06-%ED%9A%8C%EA%B7%80%EC%A7%81%EC%84%A0%EC%9D%98-%EC%98%A4%EC%B0%A8-RMSE</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;RMSE (Root Mean Square Error)&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;잔차(residual) 제곱의 합을 표본크기 - 2로 나누어 제곱근을 씌운 값&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;회귀직선의 RMSE와 y의 표준편차&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;일반적으로 회귀직선의 RMSE는 y의 표준편차보다 작다. 이는 수평선보다 회귀직선이 산포도상의 점들에 보다 가까이 위치하기 때문이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;수평선 = y의 SD만을 구한다면 이는 y값만 사용하는 것이기에 수평선과 동일. y축에 평행이동시켜서 수치를 잰 것과 동일&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$RMSE\approx&amp;nbsp;\sqrt{1-r^2}*SD_y$&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;상관계수자체가 0인 경우, 1인 경우 = 모든 잔차가 0이기에 RMSE를 적용해도 0임&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&lt;u&gt;r 값이 크면 클수록 설명이 많이 되기 때문에, 설명이 안되는 것을 의미하는 RMSE는 줄어든다!&lt;/u&gt;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;점을 regression function으로 일반화했고 이것이 대표값이다&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;이를 y의 대표값인 것처럼&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;regression function의 각각의 점들은 해당 집단의 y값을 대표하는 것이다&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;x가 주어지면 세로 수직선을 결정한다.&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;각각 모두 다른 집단들이다.&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;x, y 각 집단마다 결정되는 중심은 regression line의 높이고&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;집단마다 따로 적용되는 중심과의 거리는 RMSE이다.&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;중심은 집단마다 함수를 따라 변화하도록 허용하였는데&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;이 중심으로부터 떨어진 거리는 같은 값을 쓰고 있다! 이를 모든 집단에 같이 쓰는것이 가능한 이유는 &lt;u&gt;등분산성의 가정&lt;/u&gt;으로 가능한 것&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;text-align: left;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;등분산성(homoskedestic)&lt;/b&gt;&lt;/h4&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;회귀직선을 중심으로 점들이 위 아래로 퍼진 정도가 세로띠 별로 같음&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;1차원에서 2차원으로 시야는 확장했으나, 본질을 새로 도입한 것은 없다!&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 100%; height: 56px;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style15&quot;&gt;
&lt;tbody&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 33.3333%; height: 19px;&quot;&gt;차원&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 19px;&quot;&gt;1차원&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 19px;&quot;&gt;2차원&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 19px;&quot;&gt;
&lt;td style=&quot;width: 33.3333%; height: 19px;&quot;&gt;자료의 퍼짐 정도를 보자&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 19px;&quot;&gt;1차원 scatter plot&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 19px;&quot;&gt;2차원 scatter plot&lt;/td&gt;
&lt;/tr&gt;
&lt;tr style=&quot;height: 18px;&quot;&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px;&quot;&gt;수치로 자료를 요약하자 (중심)&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px;&quot;&gt;$\overline{y}$&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%; height: 18px;&quot;&gt;regression function&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 33.3333%;&quot;&gt;데이터의 분산 (variation)&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%;&quot;&gt;$SD$&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%;&quot;&gt;$RMSE$&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 33.3333%;&quot;&gt;중심과 분산으로 모든것을 파악할 수 있는가?&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%;&quot;&gt;분포의 모양이 정규분포를 따른다면 그렇다.&lt;/td&gt;
&lt;td style=&quot;width: 33.3333%;&quot;&gt;세로띠별로 모든 세로띠에서(구간) 다 정규분포면 그렇다.&lt;br /&gt;정규분포의 퍼진 정도가 다 같으면 그렇다 (등분산성)&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;중간 고사 30점 맞은 학생의 기말고사 점수를 95% 범위 안에서 말해달라.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;30 점의 regression line 점수가 대표값으로 예측됩니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;다만, 다른 요인으로 기말고사 점수가 영향을 받을 수 있으므로 RMSE의 2배를 위아래로 잡아줘야 95% 정도 확실할 수 있습니다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(RMSE 앞서 편차와 동일한 본질이므로, 2배 위아래라는 것은 이전에 배웠던&amp;nbsp;&lt;a href=&quot;https://infinity-epoch.tistory.com/entry/02-%ED%91%9C%EC%A4%80%ED%8E%B8%EC%B0%A8%EC%99%80-%EC%9E%90%EC%9C%A0%EB%8F%84?category=1150762&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;68-95 법칙&lt;/a&gt;에 의한 것!&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;출처 : &lt;a href=&quot;https://youtu.be/-0o8KDiEuko?si=M-QeuM9ArgqhSmup&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;류근관의 통계 특강 / 서울대학교 경제통계학 / 제11강 회귀직선의 오차&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>통계학</category>
      <category>homoskedestic</category>
      <category>Residual</category>
      <category>rmse</category>
      <category>root mean square error</category>
      <category>등분산성</category>
      <category>오차</category>
      <category>잔차</category>
      <author>infinity-epoch</author>
      <guid isPermaLink="true">https://infinity-epoch.tistory.com/6</guid>
      <comments>https://infinity-epoch.tistory.com/entry/06-%ED%9A%8C%EA%B7%80%EC%A7%81%EC%84%A0%EC%9D%98-%EC%98%A4%EC%B0%A8-RMSE#entry6comment</comments>
      <pubDate>Fri, 14 Mar 2025 22:42:10 +0900</pubDate>
    </item>
    <item>
      <title>05. 회귀분석</title>
      <link>https://infinity-epoch.tistory.com/entry/05-%ED%9A%8C%EA%B7%80%EB%B6%84%EC%84%9D</link>
      <description>&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;가장 간단한 관계가 직선이다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;그렇게 상관계수와 상관관계를 배웠다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;직선의 관계에 방향(기울기 양수,음수)이 있고, 강도(절대값 1에 가까울수록)가 있다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;상관관계와 관련된 회귀직선을 공부하자!&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;regression line, regression equation&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;회귀분석&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;회귀분석(regression analysis)는 &lt;u&gt;집단별 평균을 분석하는 통계적 방법&lt;/u&gt;&lt;/li&gt;
&lt;li&gt;집단을 구분하는 분류지표가 한 개인지, 둘 또는 그 이상인지에따라 단순회귀분석과 중회귀분석으로 나누어짐&lt;/li&gt;
&lt;/ul&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1064&quot; data-origin-height=&quot;524&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/b7IMAK/btsMMagUF2a/WpyyguP5lXZ4onQTLPITdk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/b7IMAK/btsMMagUF2a/WpyyguP5lXZ4onQTLPITdk/img.png&quot; data-alt=&quot;류근관. (2013). 통계학, 제3판 서울:법문사&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/b7IMAK/btsMMagUF2a/WpyyguP5lXZ4onQTLPITdk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fb7IMAK%2FbtsMMagUF2a%2FWpyyguP5lXZ4onQTLPITdk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;669&quot; height=&quot;329&quot; data-origin-width=&quot;1064&quot; data-origin-height=&quot;524&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;류근관. (2013). 통계학, 제3판 서울:법문사&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;상관계수 = 0.67 : 키가 평균보다 $1SD_y$ 만큼 큰 사람들은 몸무게가 평균보다 대략 0.67$SD_y$ 만큼 더 나감&lt;/li&gt;
&lt;li&gt;표준편차선 : 두 변수(여기서는 키와 몸무게)의 표준화된 변수 값이 같은 점들을 이은 직선&lt;/li&gt;
&lt;li&gt;그렇다면 왜 회귀직선은 표준편차선보다 더 완만한가? 그 이유는 상관계수가 1이 아니기 때문!&lt;/li&gt;
&lt;li&gt;y의 x에 대한 회귀직선은 각각의 x에 대응하는 y의 평균값을 추정&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;600&quot; data-origin-height=&quot;384&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/c6OMEy/btsMKV6fi2a/koAirSO4cd1KnJUCBmm9sk/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/c6OMEy/btsMKV6fi2a/koAirSO4cd1KnJUCBmm9sk/img.png&quot; data-alt=&quot;류근관. (2013). 통계학, 제3판 서울:법문사&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/c6OMEy/btsMKV6fi2a/koAirSO4cd1KnJUCBmm9sk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fc6OMEy%2FbtsMKV6fi2a%2FkoAirSO4cd1KnJUCBmm9sk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;438&quot; height=&quot;280&quot; data-origin-width=&quot;600&quot; data-origin-height=&quot;384&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;류근관. (2013). 통계학, 제3판 서울:법문사&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;x 값이 x 평균값에서 $1SD_x$증가할 때 y값은 y평균값에서 $r x \times SD_y$&lt;/li&gt;
&lt;li&gt;r이 1이면 표준편차선이 되는 것!&lt;/li&gt;
&lt;li&gt;&amp;nbsp;회귀직선은 평균의 그래프를 하나의 직선으로 근사 시킨 것&lt;/li&gt;
&lt;li&gt;&lt;u&gt;평균의 그래프가 비선형이면 회귀직선으로의 선형 근사는 부적절&lt;/u&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;회귀분석 방법&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;x의 표준편차가 한 단위 증가할 때, y는 y의 표준편차의 상관계수 배만큼 증가한다.&lt;/li&gt;
&lt;li&gt;&lt;b&gt;&lt;span style=&quot;background-color: #fcfcfc; color: #666666; text-align: left;&quot;&gt;x가 분류지표일 때, y를 x에 대하여 회귀분석 한다는 것은! &lt;u&gt;x의 담긴 정보를 이용할 때 y 를 얼마나 직선으로 설명할 수 있는가&lt;/u&gt;&lt;/span&gt;&lt;/b&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;예: 경제학부 10학번 학생 100명을 대상으로 조사한 결과&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;경제원론 평균 = 3.0 표준편차($SD_x$) = 0.70&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;경제통계학 평균 = 3.0 표준편차($SD_y$) = 0.60&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;상관계수 = 0.5&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;문제 ) 경제원론 학점이 3.70인 지희의 경제통계학 학점은?&lt;/p&gt;
&lt;div data-ke-type=&quot;moreLess&quot; data-text-more=&quot;더보기&quot; data-text-less=&quot;닫기&quot;&gt;&lt;a class=&quot;btn-toggle-moreless&quot;&gt;더보기&lt;/a&gt;
&lt;div class=&quot;moreless-content&quot;&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;1. 경제원론 점수가 평균보다 (3.7-3)/0.7&amp;nbsp; = 1$SD_x$ 높으므로&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;2. 경제통계학 학점은 평균보다 $rSD_y$. 즉, 0.5 * 0.60 = 0.30 만큼 높을 것으로 예측&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;3. 따라서 경제통계학 학점의 예측치는 3.0 + 0.3 = 3.3 (B+) 이다.&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;평범으로의 회귀 (regression to mediocrity)&lt;/b&gt;&lt;/h4&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;924&quot; data-origin-height=&quot;568&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/I4OcN/btsMM6LA1J5/DKwI8YKBSiinkdNLsAS6W1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/I4OcN/btsMM6LA1J5/DKwI8YKBSiinkdNLsAS6W1/img.png&quot; data-alt=&quot;상관계수가 1이 아니기 때문에 회귀직선이 SD선보다 누워있다. 중간고사와 기말고사 사이에는 다른 요인이 있을 수 있다&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/I4OcN/btsMM6LA1J5/DKwI8YKBSiinkdNLsAS6W1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FI4OcN%2FbtsMM6LA1J5%2FDKwI8YKBSiinkdNLsAS6W1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;634&quot; height=&quot;390&quot; data-origin-width=&quot;924&quot; data-origin-height=&quot;568&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;상관계수가 1이 아니기 때문에 회귀직선이 SD선보다 누워있다. 중간고사와 기말고사 사이에는 다른 요인이 있을 수 있다&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;table style=&quot;border-collapse: collapse; width: 51.9767%; height: 151px;&quot; border=&quot;1&quot; data-ke-align=&quot;alignLeft&quot; data-ke-style=&quot;style6&quot;&gt;
&lt;tbody&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%; text-align: left;&quot;&gt;($x$) 중간고사 성적의 평균&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;129.3&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;표준편차 ($SD_x$)&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;30.8&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;($y$) 기말고사 성적의 평균&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;112.4&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;표준편차($SD_y$)&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;40.0&lt;/td&gt;
&lt;/tr&gt;
&lt;tr&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;상관계수&lt;/td&gt;
&lt;td style=&quot;width: 50%;&quot;&gt;0.64&lt;/td&gt;
&lt;/tr&gt;
&lt;/tbody&gt;
&lt;/table&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;중간고사에서 평균보다 높은 160점 받은 학생들의 기말소가 평균 점수는 138점으로 표준단위로 볼 때 하락했음&lt;/li&gt;
&lt;li&gt;반면 중간고사에서 평균보다 낮은 110점 받은 학생들의 기말고사 평균 점수는 96.1점으로 표준단위로 볼 때 상승했음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;회귀효과&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;&lt;u&gt;회귀오류(regression fallacy)&lt;/u&gt;는 회귀효과를 무언가 중요한 효과로 착각하는 것
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;회귀효과의 배경&lt;/li&gt;
&lt;li&gt;(관찰된 점수) = (실제 실력) + (롹률오차)&lt;/li&gt;
&lt;li&gt;예: 실제 실력은 평균 120, 표준편차 15의 정규분포를 따라 분포한다고 가정하자.
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;또 관측치에 든 확률오차는 각각 0.5의 확률로 $\pm5$라고 가정하자.&lt;/li&gt;
&lt;li&gt;실제 실력이 135인 사람의 관찰된 점수는 각각 1/2의 확률로 130 또는 140&lt;/li&gt;
&lt;li&gt;실제 실력이 145인 사람의 관찰된 점수는 각각 1/2의 확률로 140 또는 150&lt;/li&gt;
&lt;li&gt;관찰된 점수로 140점 받은 사람의 경우 실제 실력은 135인데 확률오차가 +5인 경우가 실제 실력은 145인데 확률오차가 -5인 경우보다 더 가능성 높음 &lt;u&gt;&lt;i&gt;(평균이 120임을 참고!)&lt;/i&gt;&lt;/u&gt;&lt;/li&gt;
&lt;li&gt;따라서 첫 번째 시험 점수가 평균보다 높으면, 아마도 실제 실력은 관찰된 점수보다 낮을 가능성이 큼&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;출처 : &lt;a href=&quot;https://youtu.be/3hoSh4mo8dM?si=GxYJxgkfb_b2H6Gj&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;류근관의 통계 특강 / 서울대학교 경제통계학 / 제10강 회귀분석&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>통계학</category>
      <category>regression</category>
      <category>회귀분석</category>
      <category>회귀오류</category>
      <category>회귀직선</category>
      <category>회귀효과</category>
      <author>infinity-epoch</author>
      <guid isPermaLink="true">https://infinity-epoch.tistory.com/5</guid>
      <comments>https://infinity-epoch.tistory.com/entry/05-%ED%9A%8C%EA%B7%80%EB%B6%84%EC%84%9D#entry5comment</comments>
      <pubDate>Fri, 14 Mar 2025 22:13:05 +0900</pubDate>
    </item>
    <item>
      <title>04. 상관관계와 회귀직선</title>
      <link>https://infinity-epoch.tistory.com/entry/04-%EC%83%81%EA%B4%80%EA%B4%80%EA%B3%84</link>
      <description>&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;결합분포 (joint distrbution)&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;이제까지는 한 번에 하나의 변수만을 다루는 방법에 대해 살펴보았다&lt;/li&gt;
&lt;li&gt;이제부터는 두 변수 사이의 상호관계를 분석하기 위한 방법을 살펴본다&lt;/li&gt;
&lt;li&gt;남녀간의 관계처럼 많은 경우 둘 간의 관계가 중요하다
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;예: 교육과 임금&lt;/li&gt;
&lt;li&gt;예: 통화증가율과 물가상승률&lt;/li&gt;
&lt;li&gt;예: 학급 규모와 학생 성적&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;결합분포 : &lt;u&gt;두 변수 간의 관계 전모를 보여줌&lt;/u&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;산포도 (scatter plot)&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;두 변수 사이의 관계를 살펴보기 위해 산포도를 이용한다.&lt;/li&gt;
&lt;li&gt;설명변수는 x로 표기하고 가로축에 표시&lt;/li&gt;
&lt;li&gt;피설명변수는 y로 표기하고 세로축에 표시&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;401&quot; data-origin-height=&quot;400&quot;&gt;&lt;a href=&quot;https://en.wikipedia.org/wiki/Scatter_plot&quot; target=&quot;_blank&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/MVSew/btsMHUl6nAb/AVzqcpAsVqA1odfA1fDfg1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FMVSew%2FbtsMHUl6nAb%2FAVzqcpAsVqA1odfA1fDfg1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;401&quot; height=&quot;400&quot; data-origin-width=&quot;401&quot; data-origin-height=&quot;400&quot;/&gt;&lt;/a&gt;&lt;figcaption&gt;산포도 예시&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;산포도의 요약&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;가로로 보면 대략 95%의 점들이 x 평균점을 기준으로 $ \pm 2SD_{x}$ 이내에 위치함&lt;/li&gt;
&lt;li&gt;세로로 보면 대략 95%의 점들이 y 평균점을 기준으로 $ \pm 2SD_{y}$ 이내에 위치함&lt;/li&gt;
&lt;li&gt;x의 평균과 표준편차, y의 평균과 표준편차는 x 와 y의 분포를 따로따로 요약&lt;/li&gt;
&lt;/ul&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1184&quot; data-origin-height=&quot;386&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bOVsbC/btsMIDRpqyV/h8RMO6ab2VQKK5AGt4ELU0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bOVsbC/btsMIDRpqyV/h8RMO6ab2VQKK5AGt4ELU0/img.png&quot; data-alt=&quot;류근관. (2013). 통계학, 제3판 서울: 법문사. P.102&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bOVsbC/btsMIDRpqyV/h8RMO6ab2VQKK5AGt4ELU0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbOVsbC%2FbtsMIDRpqyV%2Fh8RMO6ab2VQKK5AGt4ELU0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1184&quot; height=&quot;386&quot; data-origin-width=&quot;1184&quot; data-origin-height=&quot;386&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;류근관. (2013). 통계학, 제3판 서울: 법문사. P.102&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;상관계수의 필요성&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;가로든 세로든 평균과 표준편차가 동일해도 두 변수의 관계는 상이&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;781&quot;&gt;&lt;a href=&quot;https://wikidocs.net/253020&quot; target=&quot;_blank&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/K0kg9/btsMIqR9Vbr/cj1yRO67d3KLJlk87pCns1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FK0kg9%2FbtsMIqR9Vbr%2Fcj1yRO67d3KLJlk87pCns1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1280&quot; height=&quot;781&quot; data-origin-width=&quot;1280&quot; data-origin-height=&quot;781&quot;/&gt;&lt;/a&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;위의&amp;nbsp; 산포도 좌측 3개씩 6개를 보면 가로든 세로든 중심과 퍼진 정도가 동일하지만 좌측으로 갈수록 더 강한 선형관계를 보임&lt;/li&gt;
&lt;li&gt;두 변수간 선형관계의 방향과 강도가 얼마나 되는지 측정할 필요성 대두&lt;/li&gt;
&lt;li&gt;상관계수는 두 변수가 선형관계의 방향과 강도 측정&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;두 변수 사이의 관계를 보는 3가지 키워드 : 선형 관계 , 방향 (+/-로 확인 가능) , 강도 (절대값이 1에 가까울수록 선형이다)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;이변량 자료의 요약 통계량&lt;/b&gt;&lt;/h4&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li&gt;x의 평균과 표준편차&lt;/li&gt;
&lt;li&gt;y의 평균과 표준편차&lt;/li&gt;
&lt;li&gt;x와 y간 상관계수&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;상관계수의 범위, 부호&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;범위 :&amp;nbsp; $-1\leq&amp;nbsp;r&amp;nbsp;\leq&amp;nbsp;1$&lt;/li&gt;
&lt;li&gt;상관계수 = 1 또는 -1 아니면 완전상관 (perfect correlation)
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;모든 점들이 정확히 하나의 선 위에 위치&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;양의 상관관계이면 점의 분포가 우상향&lt;/li&gt;
&lt;li&gt;음의 상관관계이면 점의 분포가 우하향&lt;/li&gt;
&lt;li&gt;두 변수의 표준편차가 모두 0이면 상관계수를 정의할 수 없음&lt;/li&gt;
&lt;li&gt;두 변수 중 어느 한 변수만의 표준편차가 0이면 상관계수는 0&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;상관계수 구하는 절차 1&lt;/b&gt;&lt;/h4&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size18&quot;&gt;$r=\frac{\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})}{\sqrt{\sum_{n}^{i=1}(x_{i}-\overline{x})^2} \sqrt{\sum_{n}^{i=1}(y_{i}-\overline{y})^2}}$&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;1) 각 변수를 평균으로부터의 편차로 바꾼다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;2) 두 편차를 서로 곱한 뒤 합친다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;3) 각 편차를 제곱하여 합치고, 다시 제곱근을 취한다. 두 제곱근을 곱한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;4) 위 2)에서 얻은 값을 위 3)에서 얻은 값으로 나눈다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;상관계수 구하는 절차 2&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(변형된 공식)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size18&quot;&gt;$&lt;br /&gt;r&amp;nbsp;=&amp;nbsp;\frac{\sum_{i=1}^{n}&amp;nbsp;\frac{(x_i&amp;nbsp;-&amp;nbsp;\bar{x})(y_i&amp;nbsp;-&amp;nbsp;\bar{y})}{n-1}}&lt;br /&gt;{\sqrt{\sum_{i=1}^{n} \frac{(x_i - \bar{x})^2}{n-1} \sum_{i=1}^{n} \frac{(y_i - \bar{y})^2}{n-1}}}&lt;br /&gt;$&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;1) 각 변수를 평균으로부터의 편차로 변환한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;2) 두 편차를 서로 곱하여 합친 뒤 자유도 $n-1$ 로 나누어 공분산을 구한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;3) 두 표준편차를 곱한다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;4) 위 2)에서 구한 값을 위 3)에서 구한 값으로 나눈다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;pre id=&quot;code_1741785266689&quot; class=&quot;bash&quot; data-ke-language=&quot;bash&quot; data-ke-type=&quot;codeblock&quot;&gt;&lt;code&gt;분모 : x와 y 각각의 표준편차의 곱
분자 : &quot;공분산 (covariance)&quot;&lt;/code&gt;&lt;/pre&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;공분산 (Covariance)&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;X 편차와 Y 편차들의 곱의 대략적인 평균이다&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;산포도를 다시 생각해보자.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;x와 y의 상관계수가 + 일 때, 공분산도 + 겠다!&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;u style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;상관계수의 부호는 공분산의 부호가 반영이 될것이다.&lt;/u&gt;&lt;/li&gt;
&lt;li&gt;분모는 무조건 + 이기 때문&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;그렇다면 왜 공분산이 아니라 상관계수로 보는가?&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;상관계수를 단위와 관계 없이 독립적으로 정의하기 위함!&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;키와 몸무게의 상관관계를 구한다면, 공분산으로만 얘기하면 키를 m, cm 등등 어떻게 재느냐에 따라 값이 달라진다.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;공분산의 단위의 의미를 없애기 위하여 상관계수를 활용한다.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;-1 ~ 1의 구간을 갖기에 단위에 상관없이 판단이 가능하다&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;상관계수의 해석&lt;/span&gt;&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;상관계수의 의미
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;'상관계수 = 0.8'은 산포도 상에서 80%의 점들이 하나의 선 주위에 빽빽하게 밀집해 있다는 것을 의미하지 않는다.&lt;/li&gt;
&lt;li&gt;'상관계수 = 0.8'은 상관계수가 0.4일 때보다 선형관계의 강도가 강하기는 하지만 정확히 두 배로 강하다는 것을 의미하지도 않는다.&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;산포도상에서 표준편차를 변화시킬 때의 시각적 효과&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;916&quot; data-origin-height=&quot;292&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/ekbe1b/btsMJb72nzP/mH4AsbZq69k3nNtOU3vOg0/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/ekbe1b/btsMJb72nzP/mH4AsbZq69k3nNtOU3vOg0/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/ekbe1b/btsMJb72nzP/mH4AsbZq69k3nNtOU3vOg0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fekbe1b%2FbtsMJb72nzP%2FmH4AsbZq69k3nNtOU3vOg0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;712&quot; height=&quot;227&quot; data-origin-width=&quot;916&quot; data-origin-height=&quot;292&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;상관계수가 유용하지 않은 경우&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;이탈값 (outlier)이 존재하는 경우&lt;/li&gt;
&lt;li&gt;두 변수가 관계가 비선형인 경우
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;상관계수가 0이 나왔다고 하여, 관계가 없음을 의미하지 않는다&lt;/li&gt;
&lt;li&gt;선형 관계가 아닐 뿐 다른 관계는 있을 수 있다!&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;변수 변환&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;적절한 변수변환을 통하여 비선형 관계를 선형관계로 근사시킴
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;예) (x, y)간 존재하는 원래의 비선형 관계가 (x, ln(Y))간 선형관계로 바뀐 경우&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;914&quot; data-origin-height=&quot;456&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/YbeR6/btsMHSoi5u2/R5DULQvAwEmsoLvkO2pvd1/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/YbeR6/btsMHSoi5u2/R5DULQvAwEmsoLvkO2pvd1/img.png&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/YbeR6/btsMHSoi5u2/R5DULQvAwEmsoLvkO2pvd1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FYbeR6%2FbtsMHSoi5u2%2FR5DULQvAwEmsoLvkO2pvd1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;629&quot; height=&quot;314&quot; data-origin-width=&quot;914&quot; data-origin-height=&quot;456&quot;/&gt;&lt;/span&gt;&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;위처럼 곱으로 늘어나는 변수를 통계분석할 때는 보통 로그 변환을 통해 선형성을 만든다.&lt;/li&gt;
&lt;li&gt;왜 로그변환을 취하여 선형성을 만드는지는 뒤로 좀 더 공부하다보면 알게 될것이다!!&lt;/li&gt;
&lt;li&gt;선형성을 만드는건 중요!&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;linear spline equation&lt;/b&gt;&lt;/h4&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$ln(y)=12.78-0.0012x-0.0019(x-900)^+$&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;(1) knots : 1개, x = 900 (매듭이 1개이고 위치가 x=900인 곳에 있다.&lt;/li&gt;
&lt;li&gt;(2) $x$, $(x-900)^+ = (음수면 0, 양수면 수식을 따른다)&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;중회귀 분석 (multiple regression analysis)&lt;/b&gt;&lt;/h4&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;설명변수가 여러 개 있는 회귀분석&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;상관관계가 실제의 관계를 과장하는 경우&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;비율이나 평균의 자료로부터 구한 상관관계는 종종 실제의 관계를 과장&lt;/li&gt;
&lt;li&gt;지역이나 국가 등 집단의 자료로부터 구한 상관계수는 개개인에게 적용되는 선형관계를 과장할 가능성이 있음&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;color: #333333; text-align: start;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 style=&quot;color: #000000; text-align: start;&quot; data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;상관계수가 곧바로 인과관계는 아니다&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;자유무역과 경제성장
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;많은 연구에서 자유무역과 경제성장 간에는 양의 상관관계가 존재하는 것으로 나타난다. 과연 자유무역이 경제 성장의 원동력이라고 말할 수 있을까?&lt;/li&gt;
&lt;li&gt;후진국 : 낙후된 지역, 잘못된 거시정책 (제3의 혼동요인 존재)&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;자본유입과 경제성장
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;중국 내 12개 성을 대상으로 조사한 결과 해외자본을 많이 유치한 성일수록 경제성장률이 높았다. 이 결과로부터 해외자본이 경제성장을 촉진시켰다고 말할 수 있을까?&lt;/li&gt;
&lt;li&gt;해외투자자 : 성장잠재력이 큰 성에 투자할 것임 (역인과 관계 가능성)&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;출처: &lt;a href=&quot;https://youtu.be/k0l2JIurFt0?si=A4h7fn1Rklz_FLdx&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;류근관의 통계 특강 / 서울대학교 경제통계학 / 제8강 상관관계&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;span style=&quot;color: #333333; text-align: start;&quot;&gt;출처:&lt;span&gt;&amp;nbsp;&lt;/span&gt;&lt;/span&gt;&lt;a href=&quot;https://youtu.be/3Y7uOL5q4WA?si=oUWNzQQltClQUx_Z&quot;&gt;류근관의 통계 특강 / 서울대학교 경제통계학 / 제9강 상관관계와와 회귀직선&lt;/a&gt;&lt;/p&gt;</description>
      <category>통계학</category>
      <category>covariance</category>
      <category>joint distribution</category>
      <category>결합분포</category>
      <category>공분산</category>
      <category>로그변환</category>
      <category>변수 변환</category>
      <category>산포도</category>
      <category>상관계수</category>
      <author>infinity-epoch</author>
      <guid isPermaLink="true">https://infinity-epoch.tistory.com/4</guid>
      <comments>https://infinity-epoch.tistory.com/entry/04-%EC%83%81%EA%B4%80%EA%B4%80%EA%B3%84#entry4comment</comments>
      <pubDate>Wed, 12 Mar 2025 22:38:50 +0900</pubDate>
    </item>
    <item>
      <title>03. 정규분포로의 근사 (백분위수, 사분위수)</title>
      <link>https://infinity-epoch.tistory.com/entry/03-%EC%A0%95%EA%B7%9C%EB%B6%84%ED%8F%AC%EB%A1%9C%EC%9D%98-%EA%B7%BC%EC%82%AC-%EB%B0%B1%EB%B6%84%EC%9C%84%EC%88%98-%EC%82%AC%EB%B6%84%EC%9C%84%EC%88%98</link>
      <description>&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;단위 변환&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;상수를 더하거나 곱하는 변환&lt;/li&gt;
&lt;li&gt;예: 섭씨 온도(y) = 5/9(화씨온도(x)-32). 즉 y=160/9+(5/9)x&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;background-color: #f6e199;&quot;&gt;&lt;u&gt;표준화(standardization)&lt;/u&gt;&lt;/span&gt;: 평균을 빼주고 표준편차로 나누어 주는 변환&lt;/li&gt;
&lt;li&gt;확률변수가 $X \sim N(\mu ,\sigma ^{2})$ (= normal distribution)일 때&lt;/li&gt;
&lt;li&gt;$Z=\frac{X-\mu }{\sigma } \sim N(0,1) $ = &lt;span style=&quot;background-color: #f6e199;&quot;&gt;&lt;u&gt;표준정규분포&lt;/u&gt;&lt;/span&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;u&gt;알 수 있는 사실 &lt;/u&gt;&lt;/p&gt;
&lt;ol style=&quot;list-style-type: decimal;&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li&gt;분포의 전반적인 모습은 단위 변환을 통해 바뀌지 않는다.&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;평균을 뺏기 때문에, 새로운 평균은 0이 된다.&lt;/span&gt;&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;표준 편차로 나눴기 때문에 새로운 편차는 1이 될 수밖에 없다 .&lt;/span&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;u&gt;&lt;span style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;수능 표준 점수 예시&lt;/span&gt;&lt;/u&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;사회탐구 과목당 50점 (2과목)&lt;/li&gt;
&lt;li&gt;과학탐구 과목당 50점 (2과목)&lt;/li&gt;
&lt;li&gt;언어 100점&lt;/li&gt;
&lt;li&gt;수리 100점&lt;/li&gt;
&lt;li&gt;외국어 100점&lt;br /&gt;&lt;br /&gt;&lt;/li&gt;
&lt;li&gt;사회탐구, 과학탐구 과목당 표준점수&amp;nbsp;
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;(표준점수) = 50+10$z$&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;언어, 수리, 외국어 표준점수
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;(표준점수) = 2(50+10$z$)&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;&lt;span style=&quot;font-family: -apple-system, BlinkMacSystemFont, 'Helvetica Neue', 'Apple SD Gothic Neo', Arial, sans-serif; letter-spacing: 0px;&quot;&gt;정규분포곡선&lt;/span&gt;&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;하나의 이상적인 히스토그램. 하나의 수학적 모형. 개념상 모집단의 분포.&lt;/li&gt;
&lt;li&gt;&lt;span style=&quot;background-color: #f6e199;&quot;&gt;&lt;u&gt;정규분포의 확률밀도함수&lt;/u&gt;&lt;/span&gt; (probability density function)&amp;nbsp;&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$ f(x) = \frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2 \sigma^{2}}} $, $- \infty &amp;lt; x &amp;lt;+\infty$,&amp;nbsp; $e=2.71828\cdots $&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;$\mu$ 를 모평균, $\sigma$ 를 모표준편차라고 부름.&lt;/li&gt;
&lt;li&gt;모집단 : 모평균과 모표준편차&lt;/li&gt;
&lt;li&gt;표본 : 표본평균과 표본표준편차&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;540&quot; data-origin-height=&quot;345&quot;&gt;&lt;a href=&quot;https://ko.wikipedia.org/wiki/%EC%A0%95%EA%B7%9C_%EB%B6%84%ED%8F%AC&quot; target=&quot;_blank&quot; title=&quot;정규분포&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/qKB0H/btsMEOTT0rs/rkRJ0eF8Eb7G5CDWgdmczK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FqKB0H%2FbtsMEOTT0rs%2FrkRJ0eF8Eb7G5CDWgdmczK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;540&quot; height=&quot;345&quot; data-origin-width=&quot;540&quot; data-origin-height=&quot;345&quot;/&gt;&lt;/a&gt;&lt;figcaption&gt;정규분포의 확률밀도함수 (빨간색 = 표준정규분포)&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;표준정규분포 (standard normal distribution)&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;평균이 0이고 표준편차가 1인 정규분포 : $Z\sim N(0,1)$&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$f(x)&amp;nbsp;=&amp;nbsp;\frac{1}{\sqrt{2\pi&amp;nbsp;}}e^{-\frac{1}{2}z^{2}},&amp;nbsp;-\infty&amp;nbsp;&amp;lt;z&amp;lt;\infty&amp;nbsp;$&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;정규분포곡선의 68-95-99.7 규칙 (참고 : &lt;a style=&quot;background-color: #e6f5ff; color: #0070d1; text-align: start;&quot; href=&quot;https://infinity-epoch.com/entry/5%EA%B0%95-%ED%8F%89%EA%B7%A0%EA%B3%BC-%EC%A4%91%EC%95%99%EA%B0%92&quot;&gt;2025.03.09 - [통계학] - 5강 평균과 중앙값&lt;/a&gt;)&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;표준단위로 -1부터 1까지 영역의 넓이 : 약 68%&amp;nbsp;&lt;/li&gt;
&lt;li&gt;표준단위로 -2부터 2까지 영역의 넓이 : 약 95%&lt;/li&gt;
&lt;li&gt;표준단위로 -3부터 3까지 영역의 넓이 : 약 99.7%&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;1 standard deviation(표준편차) 과 같은표현을 쓸 필요가 없다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;평균은 0이 되었고, 표준편차는 1이 되었기 때문이다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;정규분포곡선의 모양&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;평균을 중심으로 좌우 대칭 (symmetric)&lt;/li&gt;
&lt;li&gt;종 모양 (bell-shaped)&lt;/li&gt;
&lt;li&gt;봉우리가 하나 (single-peaked)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;표준 정규분포 곡선 아래의 영역 찾기 (참고 : &lt;a href=&quot;https://ko.wikipedia.org/wiki/%ED%91%9C%EC%A4%80%EC%A0%95%EA%B7%9C%EB%B6%84%ED%8F%AC%ED%91%9C&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;표준정규분포표&lt;/a&gt;&amp;nbsp;)&lt;/p&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;1158&quot; data-origin-height=&quot;1404&quot;&gt;&lt;a href=&quot;https://www.jbe.go.kr/board/download.do?boardId=BBS_0000191&amp;amp;command=update&amp;amp;startPage=1&amp;amp;dataSid=340453&amp;amp;fileSid=284419&quot; target=&quot;_blank&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/nXKZ8/btsMF5AhzPD/xmKVvHqQ1WMjOzKN6uqXt1/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FnXKZ8%2FbtsMF5AhzPD%2FxmKVvHqQ1WMjOzKN6uqXt1%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;1158&quot; height=&quot;1404&quot; data-origin-width=&quot;1158&quot; data-origin-height=&quot;1404&quot;/&gt;&lt;/a&gt;&lt;figcaption&gt;전북특별자치도교육청 - 표준정규분포표&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #006dd7;&quot;&gt;&lt;b&gt;Q1. 정규 근사&lt;/b&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;한 은행이 특정 영업일에 지급준비금 부족을 겪을 가능성은?&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;(매일 영업이 끝난 뒤 이 은행에 남아있는 잔고는 평균이 1조원이고 표준편차가 0.2조원인 정규분포에 의해 잘 근사된다고 가정. 지급준비금은 0.7조원 이상이어야 한다고 가정.)&lt;/p&gt;
&lt;div data-ke-type=&quot;moreLess&quot; data-text-more=&quot;더보기&quot; data-text-less=&quot;닫기&quot;&gt;&lt;a class=&quot;btn-toggle-moreless&quot;&gt;더보기&lt;/a&gt;
&lt;div class=&quot;moreless-content&quot;&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;정답 : 6.68%&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&amp;nbsp;&lt;/h4&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;백분위수&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;백분위수(percentile)는 하나의 히스토그램을 100개의 균등한 영역으로 나누는 99개의 경계점 값들.&lt;/li&gt;
&lt;li&gt;제 p 백분위수는 그 값보다 작은 값이 p%, 큰 값이 (100-p)%가 되는 경계값.&lt;/li&gt;
&lt;li&gt;많은 히스토그램은 정규분포곡선과 다름. (평균과 표준편차만으로는 부족)
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;예시로 소득분포가 있음&lt;/li&gt;
&lt;li&gt;이런 경우에 percentile로 많이 표현함&lt;/li&gt;
&lt;li&gt;제 1 십분위수, 제 9 십분위수&lt;/li&gt;
&lt;li&gt;10개로 나눴을 때
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;제 1 십분위수에 해당하는 소득 = 하위 10%에 해당하는 사람의 소득&lt;/li&gt;
&lt;li&gt;제 9 십분위수에 해당하는 소득 = 상위 10%에 해당하는 사람의 소득&lt;/li&gt;
&lt;li&gt;두 값을 비교 계산했 때 6배 차이가 나면 &quot;소득의 불평등을 보여준다&quot;와 같이 해석도 가능&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;li&gt;이러한 히스토그램을 요약할 때는 백분위수 개념이 유용.&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;420&quot;&gt;&lt;a href=&quot;https://kostat.go.kr/menu.es?mid=b80202000000&quot; target=&quot;_blank&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/zz1Fj/btsMHl3umdf/e966Nuyd7k6uSpUv5HjXGk/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2Fzz1Fj%2FbtsMHl3umdf%2Fe966Nuyd7k6uSpUv5HjXGk%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;900&quot; height=&quot;420&quot; data-origin-width=&quot;900&quot; data-origin-height=&quot;420&quot;/&gt;&lt;/a&gt;&lt;figcaption&gt;가구소득그래프&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;사분위수&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;백분위수 가운데 25번째, 50번째, 75번째 백분위수를 특별히 제1사분위수(first quartile), 제2사분위수(second quartile), 제3사분위수(third quartile)라 부름.&lt;/li&gt;
&lt;li&gt;&lt;u&gt;50번째 백분위수는 제2사분위수이면서 중앙값(median)임.&lt;/u&gt;&lt;/li&gt;
&lt;li&gt;사분위수 범위 (interquartile range)&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size18&quot;&gt;(사분위수 범위) = (제3사분위수) - (제1사분위수)&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;다섯 숫자 요약 (&lt;u&gt;five number summary&lt;/u&gt;) : &lt;span style=&quot;background-color: #ffc1c8;&quot;&gt;최소값&lt;/span&gt;, &lt;span style=&quot;background-color: #99cefa;&quot;&gt;제1사분위수&lt;/span&gt;, &lt;span style=&quot;background-color: #99cefa;&quot;&gt;제2사분위수&lt;/span&gt;, &lt;span style=&quot;background-color: #99cefa;&quot;&gt;제3사분위수&lt;/span&gt;, &lt;span style=&quot;background-color: #ffc1c8;&quot;&gt;최대값&lt;/span&gt;
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;*(최소값, 최대값) 쌍 대신 (제5백분위수, 제95백분위수) 쌍 또는 (제1백분위수, 제99백분위수) 쌍을 사용하기도 함.&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;상자 그림 (box plot)&lt;/b&gt;&lt;/h4&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;750&quot; data-origin-height=&quot;640&quot;&gt;&lt;a href=&quot;https://byjus.com/maths/box-plot/&quot; target=&quot;_blank&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/eAMr6v/btsMEXDfhc1/pF7XZSGiQyedrptJNW2sd0/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FeAMr6v%2FbtsMEXDfhc1%2FpF7XZSGiQyedrptJNW2sd0%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;750&quot; height=&quot;640&quot; data-origin-width=&quot;750&quot; data-origin-height=&quot;640&quot;/&gt;&lt;/a&gt;&lt;figcaption&gt;box plot 그리는 방법 (Q1 = 제 1사분위수 , Q3 = 제 3사분위수)&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;span style=&quot;color: #006dd7;&quot;&gt;&lt;b&gt;Q2. 백분위수 찾기&lt;/b&gt;&lt;/span&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;2009년도 1학기 통계학 중간고사에서 상위 5%에 해당하는 학생의 점수를 추정하라. 단 평균점수는 28.93 점이고 표준편차는 8.52점이다.&lt;/p&gt;
&lt;div data-ke-type=&quot;moreLess&quot; data-text-more=&quot;더보기&quot; data-text-less=&quot;닫기&quot;&gt;&lt;a class=&quot;btn-toggle-moreless&quot;&gt;더보기&lt;/a&gt;
&lt;div class=&quot;moreless-content&quot;&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;u&gt;정답&lt;/u&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;z=1.65일 때 [0,1.65] 구간의 면적이 45%이므로, 상위 5% 학생의 z 값은 1.65이다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;이 학생은 평균보다 1.65 * 8.52 = 14.06 점 높을 것으로 추정된다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;즉, 이 학생은 27.93 + 14.06 = 41.99점을 받았을 것으로 추정된다.&lt;/p&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;출처 :&lt;a href=&quot;https://youtu.be/3zXC_Xv8OqM?si=TM7T3_6gllUq-wvz&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;&lt;span&gt; 류근관의 통계 특강 / 서울대학교 경제통계학 / - 제7강 정규분포로의 근사&lt;/span&gt;&lt;/a&gt;&lt;/p&gt;</description>
      <category>통계학</category>
      <category>density function</category>
      <category>IQR</category>
      <category>normal distribution</category>
      <category>Percentile</category>
      <category>Probability density function</category>
      <category>백분위수</category>
      <category>사분위수</category>
      <category>정규분포</category>
      <category>표준정규분포</category>
      <category>확률밀도함수</category>
      <author>infinity-epoch</author>
      <guid isPermaLink="true">https://infinity-epoch.tistory.com/3</guid>
      <comments>https://infinity-epoch.tistory.com/entry/03-%EC%A0%95%EA%B7%9C%EB%B6%84%ED%8F%AC%EB%A1%9C%EC%9D%98-%EA%B7%BC%EC%82%AC-%EB%B0%B1%EB%B6%84%EC%9C%84%EC%88%98-%EC%82%AC%EB%B6%84%EC%9C%84%EC%88%98#entry3comment</comments>
      <pubDate>Mon, 10 Mar 2025 23:12:59 +0900</pubDate>
    </item>
    <item>
      <title>02. 표준편차와 자유도</title>
      <link>https://infinity-epoch.tistory.com/entry/02-%ED%91%9C%EC%A4%80%ED%8E%B8%EC%B0%A8%EC%99%80-%EC%9E%90%EC%9C%A0%EB%8F%84</link>
      <description>&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;제곱근-평균-제곱 (Root Mean Square)&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;계산은 표현의 역순 (제곱 후 평균, 최종적으로 제곱근)&lt;/p&gt;
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;제곱(S) : 모든 수를 제곱하여 부호를 없앤다.&lt;/li&gt;
&lt;li&gt;평균(M) : 제곱된 값들의 평균을 구한다.&lt;/li&gt;
&lt;li&gt;제곱근(R) : 제곱-평균된 값에 제곱근을 취한다&lt;/li&gt;
&lt;/ul&gt;
&lt;p style=&quot;text-align: center;&quot; data-ke-size=&quot;size16&quot;&gt;$RMS = \sqrt{숫자들의 제곱의&amp;nbsp; 평균}$&lt;/p&gt;
&lt;p style=&quot;text-align: left;&quot; data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;표준편차 : $S_{y}$ / $SD_{y}$&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;표준편차의 계산&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;표준편차(SD)는 &quot;평균으로부터의 편차들&quot;의 RMS와 &quot;대략&quot; 비슷&lt;/li&gt;
&lt;li&gt;표본 분산 및 표본 표준편차는 아래와 같다.&lt;/li&gt;
&lt;li&gt;$S = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}$&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;-1과 관련된 개념이 &lt;u&gt;자유도&lt;/u&gt;(degrees of freedom : 주어진 조건 하에서 자유롭게 변화할 수 있는 개수)&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;자유도의 정의&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;자유도는 합쳐진 값들 중에서 실질적으로 독립인 값들의 개수&lt;/li&gt;
&lt;li&gt;표준편차 계산하는 경우의 자유도는 &quot;자료의 개수 - 1&quot;&lt;/li&gt;
&lt;li&gt;표준편차 계산의 대상이 되는 편차들의 합은 0이 됨. 편차들의 합이 0이 된다는 하나의 제약 조건이 자유도를 1만큼 감소시킨 것임&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size18&quot;&gt;&lt;i&gt;&lt;u&gt;&amp;lt;자유도의 추가적인 배경 설명&amp;gt;&lt;/u&gt;&lt;/i&gt;&lt;/p&gt;
&lt;div data-ke-type=&quot;moreLess&quot; data-text-more=&quot;더보기&quot; data-text-less=&quot;닫기&quot;&gt;&lt;a class=&quot;btn-toggle-moreless&quot;&gt;더보기&lt;/a&gt;
&lt;div class=&quot;moreless-content&quot;&gt;
&lt;blockquote data-ke-style=&quot;style3&quot;&gt;편차 = 평균으로부터의 편차!&lt;br /&gt;대표값이 평균&lt;br /&gt;개개인의 관측치가 평균으로부터 얼마나 떨어져 있는가&lt;br /&gt;편차를 다 더하면 0이 됨.&lt;br /&gt;9개의 편차를 알면 10번째를 알 수 있기에, 자유로운 것은 9개다. 그래서&amp;nbsp; 관측치의 개수 -1을 하자.&lt;br /&gt;&lt;br /&gt;값이 1개인 경우, 평균은 그 값 자체이며, 편차는 0이 됨&lt;br /&gt;편차는 불확실성을 보고 싶어서 보는데, 이의 평균을 위하여 RMS를 계산 = 0.&lt;br /&gt;투자를 한다는 가정 하에 이렇게 보게 되면, 위험도가 없고 무조건 수익이 나는구나! 이는 착각이 된다.&lt;br /&gt;&lt;br /&gt;이를 표준편차로 보게 되면, n-1을 하기 때문에 0/0 = 부정형이 되어 성립하지 않는다.&lt;br /&gt;즉, 위험을 모른다. 알 수 없다가 답이 된다.&lt;/blockquote&gt;
&lt;/div&gt;
&lt;/div&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;표준편차의 의미&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;표준편차는 관측치들이 평균으로부터 얼마나 떨어져 있는지 알려줌&lt;/li&gt;
&lt;li&gt;68-95 법칙
&lt;ul style=&quot;list-style-type: circle;&quot; data-ke-list-type=&quot;circle&quot;&gt;
&lt;li&gt;관측치들의 약 68% 정도가 평균으로부터 1 표준편차 ($1\sigma&amp;nbsp;$) 이내로 떨어져 있다.&lt;/li&gt;
&lt;li&gt;관측치들의 약 95% 정도가 평균으로부터 2 표준편차 ($2\sigma $) 이내로 떨어져 있다.&lt;/li&gt;
&lt;li&gt;전제조건
&lt;ol style=&quot;list-style-type: decimal;&quot; data-ke-list-type=&quot;decimal&quot;&gt;
&lt;li&gt;히스토그램의 모양이 봉우리가 하나&lt;/li&gt;
&lt;li&gt;히스토그램이 좌우 대칭&lt;/li&gt;
&lt;li&gt;양쪽으로 갈수록 감소하는 종모양&lt;/li&gt;
&lt;/ol&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;figure class=&quot;imageblock alignCenter&quot; data-ke-mobileStyle=&quot;widthOrigin&quot; data-origin-width=&quot;640&quot; data-origin-height=&quot;320&quot;&gt;&lt;span data-url=&quot;https://blog.kakaocdn.net/dn/bOm84l/btsMF3BCr9Z/2ADtcVl9jcc9JZIhIEHmAK/img.png&quot; data-phocus=&quot;https://blog.kakaocdn.net/dn/bOm84l/btsMF3BCr9Z/2ADtcVl9jcc9JZIhIEHmAK/img.png&quot; data-alt=&quot;https://ko.wikipedia.org/wiki/68-95-99.7_%EA%B7%9C%EC%B9%99&quot;&gt;&lt;img src=&quot;https://blog.kakaocdn.net/dn/bOm84l/btsMF3BCr9Z/2ADtcVl9jcc9JZIhIEHmAK/img.png&quot; srcset=&quot;https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&amp;fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FbOm84l%2FbtsMF3BCr9Z%2F2ADtcVl9jcc9JZIhIEHmAK%2Fimg.png&quot; onerror=&quot;this.onerror=null; this.src='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png'; this.srcset='//t1.daumcdn.net/tistory_admin/static/images/no-image-v1.png';&quot; loading=&quot;lazy&quot; width=&quot;640&quot; height=&quot;320&quot; data-origin-width=&quot;640&quot; data-origin-height=&quot;320&quot;/&gt;&lt;/span&gt;&lt;figcaption&gt;https://ko.wikipedia.org/wiki/68-95-99.7_%EA%B7%9C%EC%B9%99&lt;/figcaption&gt;
&lt;/figure&gt;
&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;즉, &lt;u&gt;분포의 전반적인 모습&lt;/u&gt;, &lt;u&gt;중심&lt;/u&gt;, &lt;u&gt;개별 관측치와의 거리&lt;/u&gt;만 알면 근사하게 특정 수치의 위치를 알 수 있다.&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;= 숫자 몇 개만으로 전체의 그림을 요약하여 볼 수 있는 힘이 있다&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;측정 오차 (measurement error)&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;관측치와 실제 값의 차이&lt;/li&gt;
&lt;li&gt;측정오차가 존재하면, (관측치) = (실제 값) + (측정오차)&lt;/li&gt;
&lt;li&gt;측정오차의 대략적인 크기는 관측치들의 표준편차(SD)를 통해 알 수 있음&lt;/li&gt;
&lt;li&gt;표준편차(SD)의 크기는 한 번의 관측에서 측정오차가 어느 정도 될지 알려 줌&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;편의 (bias)&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;방향성을 갖는 하나의 세계적인 오차&lt;/li&gt;
&lt;li&gt;측정오차와 함께 편의가 있으면, (관측치) = (실제 값) + (편의) + (측정오차)&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;이탈값 (outlier)&lt;/b&gt;&lt;/h4&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;극단적인 관측치&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;출처 : &lt;a href=&quot;https://youtu.be/PclluPQ9uJU?si=JMLUh23EDT_pjoOM&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;류근관의 통계 특강 / 서울대학교 경제통계학 / 제6강 표준편차와 자유도&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>통계학</category>
      <category>Bias</category>
      <category>degrees of freedom</category>
      <category>Outlire</category>
      <category>RMS</category>
      <category>SD</category>
      <category>standard deviation</category>
      <category>오차</category>
      <category>이상치</category>
      <category>자유도</category>
      <category>표준편차</category>
      <author>infinity-epoch</author>
      <guid isPermaLink="true">https://infinity-epoch.tistory.com/2</guid>
      <comments>https://infinity-epoch.tistory.com/entry/02-%ED%91%9C%EC%A4%80%ED%8E%B8%EC%B0%A8%EC%99%80-%EC%9E%90%EC%9C%A0%EB%8F%84#entry2comment</comments>
      <pubDate>Sun, 9 Mar 2025 19:00:28 +0900</pubDate>
    </item>
    <item>
      <title>01. 평균과 중앙값</title>
      <link>https://infinity-epoch.tistory.com/entry/01-%ED%8F%89%EA%B7%A0%EA%B3%BC-%EC%A4%91%EC%95%99%EA%B0%92</link>
      <description>&lt;h4 data-ke-size=&quot;size20&quot;&gt;&lt;b&gt;중심과 퍼진 정도&lt;/b&gt;&lt;/h4&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;- 히스토그램에서 자료를 요약할 때 &lt;u&gt;중심(평균, 중앙값)&lt;/u&gt;과 중심 주위로 &lt;u&gt;퍼진 정도(표준편차, 사분위수 범위)&lt;/u&gt;를 주로 사용&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;평균&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;평균(mean)은 관측치의 총합을 관측치의 개수로 나누어 구한다.&lt;/li&gt;
&lt;li&gt;x1, x2, .. xn 등 n 개의 관측치가 주어져 있을 때 표본의 평균은&amp;nbsp; (평균 수식)&lt;/li&gt;
&lt;li&gt;평균이 중요하지만 전부는 아님. 아래 세 그림은 평균이 같지만 퍼진 정도가 다름&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;중앙값 (median)&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;절반 이상의 숫자들이 이 값보다 크거나 같고 동시에 절반 이상의 숫자들이 이 값보다 작거나 같은 수&lt;/li&gt;
&lt;li&gt;하스토그램은 중앙값에서 그 면적이 양분됨&lt;/li&gt;
&lt;li&gt;중앙값 n이 홀수이면 (n+1)/2 번째로 크거나 작은 숫자임&lt;/li&gt;
&lt;li&gt;중앙값은 n이 짝수이면 n/2 번째 숫자와 (n+1)/2 번째 숫자의 평균으로 정의&lt;/li&gt;
&lt;li&gt;median voter theorem (&lt;u&gt;결국 중앙값에 위치한 사람의 성향을 대표할 수밖에 없다!&lt;/u&gt;)&lt;br /&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;선호의 비대칭분포 이용하여 후보자의 location choice 문제 설명.&lt;/li&gt;
&lt;li&gt;다수결에 의한 투표는 중앙값 투표자(median voter)가 선호하는 결과를 선택하게 됨&lt;/li&gt;
&lt;li&gt;이는 중앙값이 &lt;span style=&quot;background-color: #f6e199;&quot;&gt;LAD (least absolute deviation)&lt;/span&gt;의 해로 얻어진다는 것과 수학적으로 같은 내용임&lt;/li&gt;
&lt;li&gt;유권자의 선호를 일차원 실직선 상에서 표현할 수 있을 때 성립함&lt;/li&gt;
&lt;li&gt;유권자의 선호가 다차원적이면 성립하지 않음&lt;/li&gt;
&lt;li&gt;sum(|yi - m|) 이를 최소화하는 m을 선택한다면, 투표를 받을 수 있다! - 데이터의 중앙값이 됨&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;평균과 중앙값의 관계&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;히스토그램이 대칭이면 평균 = 중앙값&lt;/li&gt;
&lt;li&gt;숫자열의 변화에 따른 평균의 변화 ( 1,2,2,3 || 1,2,2,5 || 1,2,2,7 )
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;극단적인 값이 변화함에 따라 중앙값은 robust 하지만, 평균은 극단값의 영향을 많이 받는다!&lt;/li&gt;
&lt;/ul&gt;
&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;최빈치 (mode)&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;가장 많이 관측되는 값&amp;nbsp;&lt;/li&gt;
&lt;li&gt;히스토그램은 최빈치에서 그 높이가 제일 높음&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&lt;b&gt;히스토그램의 세 가지 꼬리 유형 (left/right-skewed distribution , normal distribution)&lt;/b&gt;&lt;/p&gt;
&lt;ul style=&quot;list-style-type: disc;&quot; data-ke-list-type=&quot;disc&quot;&gt;
&lt;li&gt;평균은 극단적인 값의 영향을 받음&lt;/li&gt;
&lt;li&gt;중앙값은 극단적인 값의 영향을 받지 않음&lt;/li&gt;
&lt;li&gt;극단적인 값이 존재하는 경우 평균보다 중앙값이 중심을 더 잘 나타냄&lt;/li&gt;
&lt;li&gt;GDP 2만 달러 약 2천만 원&amp;nbsp; / 4인 8천만 원 = 평균&lt;/li&gt;
&lt;/ul&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;출처 : &lt;a href=&quot;https://youtu.be/Ge4dlSw3t8A?si=I5EoTQT4-Y8nWVRD&quot; target=&quot;_blank&quot; rel=&quot;noopener&quot;&gt;류근관의 통계 특강 / 서울대학교 경제통계학 / - 제5강 평균과 중앙값&lt;/a&gt;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;
&lt;p data-ke-size=&quot;size16&quot;&gt;&amp;nbsp;&lt;/p&gt;</description>
      <category>통계학</category>
      <category>average</category>
      <category>mean</category>
      <category>median</category>
      <category>Mode</category>
      <category>statiscits</category>
      <category>중앙값</category>
      <category>최빈치</category>
      <category>통계</category>
      <category>통계학</category>
      <category>평균</category>
      <author>infinity-epoch</author>
      <guid isPermaLink="true">https://infinity-epoch.tistory.com/1</guid>
      <comments>https://infinity-epoch.tistory.com/entry/01-%ED%8F%89%EA%B7%A0%EA%B3%BC-%EC%A4%91%EC%95%99%EA%B0%92#entry1comment</comments>
      <pubDate>Sun, 9 Mar 2025 18:05:22 +0900</pubDate>
    </item>
  </channel>
</rss>