통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
1. 개요
2 Stage Least Squares2SLS / TSLS
가우스 마르코브 가정 중 '잔차가 독립변수/설명변수와 상관관계가 없을 것'이라는 가정이 무너질 때 사용할 수 있는 추정방법.
두 단계에 걸쳐 추정하는데, 첫번째 단계에서는 도구변수를 사용하여 문제가 되는 변수를 추정하고, 두번째 단계에서는 그 문제되는 변수를 첫번째 단계에서 추정한 값으로 대체해버린 다음 원래 식을 추정하는 것이다.
가정에는 가우스-마르코브 가정의 대다수가 그대로 적용된다.
- 모형이 정확하게 제시되어 있다(correctly specified.)
- 모든 변수의 오차 분산이 동일하다.[1]
- 오차항은 정규분포를 가진다.
- 이상치 (outlier)는 제거되어 있다.
- 각 관측이 서로 독립적이다 (independent of each other).
예를 들어 돈을 벌기 위해 노동 (a1)과 인적자본 (a2)을 투입해야 한다고 하자. 그러면 [math({\sf money} = a_0 + a_1 + a_2 + e)]의 식을 세워볼 수 있다. 그런데 노동력을 유지하기 위해서는 돈 (b1)을 들여서 밥을 먹이고 잠잘 곳을 제공해야 한다. 즉 [math({\sf labor} = b_0 + b_1 + e)]의 식이 성립한다는 것이다. 이럴 경우 원래 식을 이용해 money를 추정하면, 실질적으로 아래의 식을 추정하는게 되어 버린다.
[math({\sf money} = a_0 + a_1 + a_2 + e )]
[math( \quad \quad \quad= a_0 + a_1(b_0 + b_1 + e) + a_2 + e)]
[math( \quad \quad \quad= a_0 + a_1(b_0 + b_1(a_0 + a_1 + a_2 + e) + e) + a_2 + e)]
이럴 경우, 2SLS를 이용하여 문제점을 해결할 수 있다.
예를 들어 원래 식이 다음과 같다 하자.
[math(y = a_1 + a_2x_1 + a_3x_2 + e)]
그리고 [math(e)]와 [math(x_1)]사이에 상관관계가 존재한다. 그러면 가우스-마르코브 가정이 만족되지 않아, OLS는 더 이상 BLUE[2]가 아니다. 이를 이제 2SLS로 추정하면 다음과 같다.
- [math(\hat{x_1} = b_1 + b_2z_1 + b_3x_2 + e)]를 먼저 추정한다. 여기서 [math(z_1)]은 도구변수를 의미한다.
- 위에서 추정한 값을, 원래 식에 집어넣어 추정한다. 즉 다음 식을 추정한다. [math(y = a_1 + a_2\hat{x_1} + a_3x_2 + e)]
2SLS에 대해서는 로그임금과 교육수준에 있어서의 회귀분석 시의 내생성 문제, 그 문제를 형제자매의 수라는 도구변수로 2SLS를 하여 해결하는 고전적인 자료가 있다. 워낙 유명하다보니 인터넷에 관련 강의노트, 갱신된 데이터, 통계학 프로그램에서의 2SLS를 하는 방법에 대한 자료가 아주 많다. 풍부한 설명과 직접 데이터를 다루는 연습이 필요하면 구글에 'log wage, education, siblings, 2 stage least squares'를 쳐보자.
도구변수와 내생성이 발생한 변수의 선형관계가 클 수록 추정의 효율성이 커져 추정의 불확실성이 줄어든다. 이 때의 선형관계는 도구변수와 내생성이 발생한 변수 사이의 상관관계라고 봐도 좋고 내생성이 발생한 변수를 도구변수에 대해 단순회귀분석 했을 때의 결정계수 (R squared)라고 봐도 좋다. 단순회귀분석에서의 결정계수는 두 변수 간 상관관계의 제곱이기 때문이다.