정규 분포

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 (측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 · 독립항등분포
통계량		평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 · 자료 시각화		도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

1. 개요2. 설명

2.1. 정의

2.1.1. 정규 분포 곡선의 성질

2.2. 누적 분포 함수2.3. 그래프2.4. 중심 극한 정리

3. 표준 정규 분포

3.1. 표준화

4. 로그 정규 분포

4.1. 대수정규분포

5. 이용 사례

5.1. 성적표

5.1.1. 내신 전교등수 추정하기

6. 기타

6.1. 통계학에서의 중요성6.2. 짤방: 세상은 정규 분포

6.2.1. 세상은 정말로 정규분포인가?

7. 관련 문서

1. 개요

正規分布 / normal distribution

가우스(C. F. Gauss; 1777 ~ 1855)가 처음 정립했기 때문에 가우스 분포(Gaussian distribution)라고도 한다.

인간과 자연 세상에서 일어나는 수많은 일을 설명하는 핵심 개념이며, 통계학에서 사용하는 각종 확률 분포 중에서도 가장 중요하게 다루는 분포이다. 일명 통계학의 꽃.

2. 설명

2.1. 정의

물리학 실험용으로 무작위 표본추출을 통해 도출한 '확률 밀도 곡선'에 '극한을 적용해' 만든 것을 형태로 정립한 것. 그 그래프를 함수식으로 풀어쓰면

[math(\displaystyle N(x|\mu,\,\sigma^2)\equiv\frac1{\sigma\sqrt{2\pi}}\exp{\left[-\frac{(x-\mu)^2}{2\sigma^2}\right]})] [1]

이다. 이때, [math(\mu)]와 [math(\sigma^2)]는 각각 평균과 분산.[2]

또한, [math(N(x|\mu,\,\sigma^2))]는 확률 밀도 함수 중 하나이므로, [math(P(x\in\mathbb{R})=1)]임에 따라

[math(\displaystyle\int_{-\infty}^{\infty}N(x|\mu,\,\sigma^2)\,\mathrm{d}x=1)]

이 성립한다.

[증명]: ------
임의의 실수 [math(\mu)], [math(\sigma)]([math(\sigma > 0)])에 대하여 [math(\mathbb{R})]에서 정의된 함수

[math(\displaystyle N(x|\mu,\,\sigma^{2}) \equiv \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left[ -\frac{(x-\mu)^{2}}{2\sigma^{2}} \right]})]

의 구간 [math([-\infty,\;\infty])]에서의 정적분

[math(\displaystyle\int_{-\infty}^{\infty} \frac{1}{\sigma \sqrt{2\pi}}\exp{\left[-\frac{(x-\mu)^2}{2\sigma^2} \right]}\,\mathrm{d}x)]

에서 [math(x\equiv\sqrt2\sigma t)]로 치환하면

[math(\displaystyle\frac{1}{\sqrt{\pi}}\int_{-\infty}^{\infty} \exp{\left[ -\left( t-\frac{\mu}{\sqrt{2}\sigma} \right)^{2} \right]}\,\mathrm{d}t)]

로 나타낼 수 있다.

실수 전체에 대한 정적분에서의 피적분 변수의 평행이동은 적분값에 영향을 주지 않으므로, 간략화를 위해 [math(u \equiv t - \dfrac{\mu}{\sqrt{2} \sigma})]로 치환하면

[math(\displaystyle\frac{1}{\sqrt{\pi}}\int_{-\infty}^{\infty} \exp (-u^2)\,\mathrm{d}u)]

이는 가우스 적분에 계수가 붙은 형태로, 다음과 같이 계산할 수 있다.

[math(\displaystyle\frac1{\sqrt\pi}\int_{-\infty}^\infty \exp (-u^2)\,\mathrm{d}u=\frac1{\sqrt\pi}\cdot\sqrt\pi=1)]

따라서 정규분포 [math(N(x|\mu,\,\sigma^2))]를 나타내는 확률 밀도 함수는 [math(\mu)]와 [math(\sigma)]의 값에 관계없이

[math(\displaystyle\int_{-\infty}^\infty N(x|\mu,\,\sigma^2)\,\mathrm{d}x=1 )]

이 성립한다.

2.1.1. 정규 분포 곡선의 성질

기본적으로 [math(N(x|\mu,\,\sigma^{2}))]은 가우스 함수 [math(f(x)=e^{-x^{2}})]를 [math(x)]축 방향으로 평행 이동시킨 함수이므로 가우스 함수와 같이 종모양의 곡선이 나타나며, 좌우 극단으로 갈수록 급격하게 수치가 낮아지는 특징이 있다. 즉, 다음이 성립한다.
{{{#!wiki style="text-align: center"

[math(\displaystyle \lim_{x \to -\infty} N(x|\mu,\,\sigma^2)= \lim_{x \to \infty} N(x|\mu,\,\sigma^2)=0)] }}}

[math(x=\mu)]에 대하여 대칭이다. 즉, [math(\delta)]를 임의의 양수라 할 때, 다음이 성립한다.
{{{#!wiki style="text-align: center"

[math(\displaystyle N(\mu+\delta |\mu,\,\sigma^{2})=N(\mu-\delta|\mu,\,\sigma^{2}) )] }}}

변곡점은 2개, 곧 [math(x=\mu \pm \sigma)]에 존재하며, [math(\sigma)]의 값이 증가할수록 변곡점 사이의 폭은 증가한다.

2.2. 누적 분포 함수

정규 분포의 누적 분포 함수는 아래와 같이 정의된다.

[math(\displaystyle \Phi(x|\mu,\,\sigma^{2}) \equiv \int_{-\infty}^{x} N(t|\mu,\,\sigma^{2}) \,\mathrm{d}t )]

우선 이 적분을 하기 전에, 정규 분포 함수 곡선의 성질인 [math(x=\mu)]를 기준으로 곡선이 대칭이라는 점을 상기하면, 위 적분은 아래와 같이 분리할 수 있다.

[math(\displaystyle \Phi(x|\mu,\,\sigma^{2}) = \int_{-\infty}^{\mu} N(t|\mu,\,\sigma^{2}) \,\mathrm{d}t+ \int_{\mu}^{x} N(t|\mu,\,\sigma^{2}) \,\mathrm{d}t )]

적분 변수를 [math(u \equiv t-\mu)]로 바꾸면

[math(\displaystyle \Phi(x|\mu,\,\sigma^{2}) = \int_{-\infty}^{0} N(u|\mu,\,\sigma^{2}) \,\mathrm{d}u+ \int_{0}^{x-\mu} N(u|\mu,\,\sigma^{2}) \,\mathrm{d}u\quad\cdots(1) )]

[math((1))] 식의 우변의 제1항은

[math(\displaystyle \int_{-\infty}^{0} \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u )]

이고, 가우스 적분 문서의 결과를 사용하면, 위 적분의 값은 다음과 같다.

[math(\displaystyle \frac{1}{\sigma \sqrt{2 \pi}} \cdot \frac{1}{2}\sqrt{2 \pi \sigma^{2}}=\frac{1}{2} )]

[math((1))] 식의 우변의 제2항은

[math(\displaystyle \int_{0}^{x-\mu} \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u=\frac{1}{\sigma \sqrt{2 \pi}} \int_{0}^{x-\mu} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u )]

로 표현되고, [math(\dfrac{u}{\sqrt{2} \sigma} \equiv U)]의 변수를 치환하면

[math(\displaystyle \int_{0}^{x-\mu} \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u=\frac{1}{ \sqrt{ \pi}} \int_{0}^{ {{(x-\mu)}/{\sqrt{2} \sigma}} } e^{-U^{2} } \,\mathrm{d}U )]

오차함수(error function) 문서를 참고하면, 해당 적분 결과는

[math(\displaystyle \int_{0}^{x-\mu} \frac{1}{\sigma \sqrt{2 \pi}} \exp{\left( -\frac{u^{2}}{2 \sigma^{2}} \right)}\,\mathrm{d}u=\frac{1}{2} \mathrm{erf}\left( \frac{x-\mu}{\sqrt{2} \sigma} \right) )]

로 쓸 수 있으므로 다음과 같은 결론이 나온다.

[math(\displaystyle \Phi(x|\mu,\,\sigma^{2})=\frac{1}{2}\left[1+\mathrm{erf}\left( \frac{x-\mu}{\sqrt{2} \sigma} \right) \right] )]

2.3. 그래프

위 그래프는 정규 분포 곡선과 그 누적 분포 함수의 그래프를 나타낸 것이다. 적색은 정규 분포 곡선, 청색은 누적 분포 곡선을 나타낸다.

누적 분포 함수[3]가 [math(tanh x)]와 닮은 것과 비슷하게, 정규 분포 곡선[4]은 [math(mathrm{sech} , x)]와 개형이 비슷하다. 이 곡선은 [math(y)]축과 평행한 선을 중심으로 위로 볼록한 함수라 디랙 델타 함수의 주춧돌로 쓸 수 있는 함수이기도 하다.

2.4. 중심 극한 정리

자세한 내용은 중심 극한 정리 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[중심 극한 정리#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
의 [[중심 극한 정리#|]][[중심 극한 정리#|]] 부분을

참고하십시오.

3. 표준 정규 분포

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 (측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 · 독립항등분포
통계량		평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 · 자료 시각화		도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

{{{#!folding [ 표준 정규 분포표 펼치기 · 접기 ]

[5]

}}}

정규 분포 중에서도 평균이 0이고 표준 편차가 1인 것, 즉

[math(N(0,\,1)\sim\dfrac{1}{\sqrt{2 \pi}} \exp{\left[ -\dfrac{z^{2}}{2} \right]})]

을 표준 정규 분포(standard normal distribution)라고 하며 따로 분류한다. 특별히 변수를 [math(z)]로 쓰며, [math(z)]-분포라고 줄여 부르기도 한다. 모든 정규 분포는 이 표준정규 분포의 상수배를 평균만큼 이동시킨 형태이므로, 표준정규 분포의 확률만을 알면 모든 정규 분포의 확률을 알기 충분하다는 것. 정확히는 표준정규 분포를 표준 편차배 하고 평균을 더해주면 임의의 정규 분포를 만들 수 있다. 나아가 별도로

[math(\begin{aligned}\phi(z)&=\dfrac{1}{\sqrt{2 \pi}} \exp{\left[ -\dfrac{z^{2}}{2}\right]}\\ \Phi(z)&=\displaystyle\int_{-\infty}^z\phi(x)\;{\rm d}x\end{aligned})]

로 표기하여 쓰곤 한다. 즉, [math(\phi(z))]는 표준정규분포의 확률밀도함수, [math(\Phi(z))]는 표준정규분포의 누적분포함수를 말한다.

[math(z)]-분포로 하는 검정(test)을 [math(z)]-검정([math(z)]-test)이라고 한다. [math(z)]-검정은 [math(\sigma^{2})]을 알 때 [math(\mu)]를 구하는 것이고, [math(t)]-검정은 [math(\sigma^{2})]을 모를 때 [math(\mu)]를 구하는 것이다. [math(chi^{2})]-검정은 [math(\sigma^{2})]을 구하는 것이고, [math(F)]-검정은 [math(\sigma_{1}^{2}/\sigma_{2}^{2})]을 구할 때 사용한다.

3.1. 표준화

자세한 내용은 표준화 문서를 참고하자.

4. 로그 정규 분포

금융상품의 수익률이나 임금 등 여러 경제변수의 분포를 히스토그램으로 그려보니 왼쪽으로 쏠린 모양이 많이 나왔다. 이런 변수에 로그를 씌우면 그 변수는 흡사 정규분포와 비슷한 모습이 된다. 이 때문에 로그를 취했을 때 정규분포가 되는 확률변수에 대한 연구가 이뤄지게 됐다. 그 산물이 로그정규분포다.

[math(\ln{X}\sim N(\mu,\,\sigma^2))]일 때 [math(X)]가 로그 정규 분포를 따른다고 한다. 금융 상품의 가격은 일반적으로 이 로그 정규 분포를 따르는 것으로 알려져 있다. 또한 '적률생성함수가 존재하면 모든 적률이 존재한다'라는 명제의 역이 성립하지 않는 대표적인 반례이다. 즉, 이 분포는 모든 적률이 존재하지만 적률생성함수를 갖지 않는다.

4.1. 대수정규분포

로그정규분포는 일반적으로 비대칭형으로 대수정규분포를 보여주는 확률분포이다. 이러한 대수정규분포는 환경분야에서도 응용된다.

대표적인 대수정규분포의 예 - 로그정규분포

5. 이용 사례

정규 분포는 본래 자연과학의 도구로 출발하였다. 가우스가 정규 분포를 발견한 것은 소행성[6] 세레스를 찾기 위한 문제를 풀면서였다. 그는 세레스의 위치를 측정한 오차가 정규 분포를 따른다고 생각하였고, 이걸 활용해 그가 발명한 추정법이 최소제곱법(least square method)이다.[7]

지금은 정규 분포는 통계학의 어디에서나 튀어나오므로, 통계를 쓰는 어느 누구도 피해갈 수 없다. 자연과학의 실험 뿐만이 아니라 사회학, 심리학의 실험 통계에서도 정규 분포가 사용된다. 이는 특히 사회과학에서 대다수의 수포자와 문과출신 대학생들을 좌절시키는 데 일조하고 있다. 예로 빈부격차 수준과 같은 거시(巨視)적인 대상을 설명할 때 특히 중요하게 다뤄진다. 또 앞에서 말한 최소제곱법은 지금도 회귀분석(regression)이란 이름으로 통계학도들을 괴롭히고 있다. 분야를 막론하고 '시간에 따른 경향'을 생각하는 사람들은 누구나 이 골칫거리와 씨름해 봤을 것이다.

물론 학문을 하는 사람들이 아니더라도, 정규 분포를 해석할 줄 알면 정규 분포로 나타나는 많은 자료들을 이해하는 데 훨씬 유용하다. 보험사들이 보험료를 설정할 때 참고하는 '경험생명표'는 정규 분포 형태로 나타난다.

정규분포를 따르는 자료를 비율에 맞추어 평균이 0이고 분산이 1인 표준 정규 분포로 나타내는 것을 표준화(standardization)라고 한다. 정확히 말하자면 자료의 백분위 [math(p)]만을 뽑아내서, 그 백분위에 대응되는 정규 분포의 값을 [math(z)]값, 표준화된 값, 혹은 표준점수라 부르는 것이다. 이 표준화는 주로 시험에서 많이 활용된다. IQ등의 지능검사라든지, 대학 학점이라든지, 미국의 SAT, 성적표 등.

5.1. 성적표

보통 성적표의 9등급은 표준점수의 범위에 따라 매겨진다. 간단히 말하면

원점수가 전체 중 상위 몇%인지 → 백분위
백분위에 대응되는 평균 100, 표준편차 20의 정규 분포값 → 표준점수
표준점수의 범위(스테나인 점수) → 등급

으로 요약할 수 있다. 세부사항은 훨씬 복잡할 수 있다. 대학수학능력시험의 경우는 수능 등급제 항목에 기술된 것처럼 표준점수를 정수로 반올림하고 여기에서 다시 또 누적 비율을 따지는 과정이 들어간다. 하지만 학생들 석차를 매길 수 있는 내신의 경우는 백분위를 따지는 것이 훨씬 편하므로, 굳이 표준점수를 뽑아내지는 않는다.

5.1.1. 내신 전교등수 추정하기

중학교의 내신 성적표에는 등급만 표기되어 있을 뿐 석차는 교육정책에 의해 표기되어 있지 않다. 하지만 원점수의 전체평균과 표준편차가 알려져 있고, 원점수의 분포가 정규 분포와 비슷하다면,[8] 자신의 원점수를 이용해 표준점수, 전교등수, 백분위를 대략적으로 구할 수 있다.[9] 단, 성적 분포의 모양을 모르는 상태에서는 아래 서술할 방법으로 등수를 계산하는건 의미가 없다.[10][11]

계산은 간단하다. 만약 원점수의 분포가 정확한 정규 분포를 따른다면, 자신의 원점수를 표준화해 표준점수로 만들 수 있다. 이 표준점수로 전체 백분위를 구하고, 전체 백분위에 해당하는 전교등수를 계산하면 끝.

표준점수: [math( \displaystyle 20\times\frac{\small\textsf{(원점수)}-\small\textsf{(평균)}}{\small\textsf{(표준편차)}}+100 )]
백분위: [math( \displaystyle \frac{\small\textsf{(원점수)}-\small\textsf{(평균)}}{\small\textsf{(표준편차)}} )]의 값이

양수라면 정규 분포표로 그 값에 해당하는 확률을 구한 후 0.5에서 빼고 100을 곱한다.
음수라면 0.5에 그 값을 더하고 100을 곱한다.

전교 등수: [math( \displaystyle \frac{\small\textsf{(이수 전교생 수)}\times\small\textsf{(백분위)}}{100} )]

예를 들어 평균이 60점, 표준편차가 20점인 시험에서 90점을 득점한 학생이 있다고 치자. 이 학생의 표준점수는 [math( 20\times {(90-60)}/{20}+100 )]으로 130점이고, 이를 표준화하면 1.5이다. 1.5의 표준정규 분포의 값은 상단의 표에 따라 0.4332이므로 이 학생의 백분위는 0.5-0.4332니 약 0.067. 따라서 대략 상위 6.7%이므로(백분위는 93.3%) 이 학생의 성적은 2등급일 가능성이 크다.

아래는 백분위에 해당하는 등급을 나타낸 표이다.

백분위(상위)	등급
0% ~ 4%	1
4% ~ 11%	2
11% ~ 23%	3
23% ~ 40%	4
40% ~ 60%	5
60% ~ 77%	6
77% ~ 89%	7
89% ~ 96%	8
96% ~ 100%	9

주의해야 할 것은 이 과정은 엄연히 '추산'이라는 점이다. 연속량을 이산량으로 바꾸고, 숫자를 반올림하고, 정규 분포로 근사하는 과정에서 당연히 오차가 생길 수 있기 때문.

6. 기타

식스 시그마라는 용어도 여기에서 비롯한 것이다. 표준편차 6배 바깥의 범위([math( \mu\pm6\sigma )])는 0.0000002%, 즉 약 5억분의 1 정도의 극히 희귀한 확률이다.[12] 즉 부품 10억 개 중에서 단 2개만 6시그마를 벗어난다는 말로 사실상 불량률 제로를 추구하는 말이다. IQ로 치면 SD 15 기준 10 이하 또는 190 이상에 해당하는 지수가 바로 6시그마이다.
수학에 관심있는 사람들이 좋아하는 분포다. 공학에서도 아주 많이 쓰이고, 수학자들이 사랑하는 무리수인 자연로그의 밑과 원주율 외의 다른 무리수는 들어가지 않기 때문이다. 그리고 통계학을 처음 배울 때 가장 중요하게 배우는 모집단의 평균벡터와 그 다음으로 중요하게 배우는 모집단의 공분산행렬이 정해지면 구체적인 함수가 결정되는 분포다. 수리통계학적으로 볼 때 매력적인 분포일 수밖에 없는 것.
정수론에서도 간혹 사용되는 경우가 있다. 일정 자리수 이상의 자연수에 대하여 해당 자연수의 서로 다른 소인수의 개수를 분석하면, 그 서로 다른 소인수의 개수는 정규분포를 따른다는 정리인 에르되시-카츠 이론(Erdős–Kac theorem)이 대표적.[13]
중국에서는 이과만 정규분포를 배운다. 중국 교육과정상 정규분포는 선수2-3에서 배우는데 이 과목은 이과만 배우는 과목이기 때문이다.

6.1. 통계학에서의 중요성

정규 분포를 빼면 통계학이 존재할 수 없다고 보아도 무방하다. 통계학의 수많은 분포([math(chi^{2})]-분포, [math(t)]-분포, [math(F)]-분포 등)는 사실상 정규 분포의 수반성질들을 연구하기 위해 만들어진 분포이다.

한편으로는 통계적 분석이나 검정을 할 때 분포에 대한 가정이 필요한 경우, 설령 주어진 데이터가 정규 분포와는 전혀 다른 모양들의 집합이더라도, 정규 분포를 가정하고 계산할 수 있다. 모르는 분포라면 정규 분포로 가정하는 것이 가장 일반적일 정도. 얼핏 보면 엉터리인 듯한 이런 방법은 실제로는 매우 잘 맞아 떨어지는 편.

단순히 통계학의 응용분야라고 하기에는 너무 규모 커지고 연구성향이 달라진 계량경제학의 경우(물론 계량경제학자가 통계학 저널에 논문을 발표하거나 통계학자가 계량경제학 학술지에 논문을 투고하는 경우는 비일비재하다), 학부 수준에서 쓰는 정규 분포 외의 분포들은 대부분 회귀모형이나 시계열모형의 오차항이 정규 분포를 따른다고 가정할 때 도출한 통계량들의 분포로서 쓰인다. 다시 말해 정규 분포를 가정하지 않으면 [math(\chi^{2})]-분포, [math(t)]-분포, [math(F)]-분포를 쓸 수가 없다. 추정한 모수의 단일 가설 검정에서의 [math(t)]-분포나 복합 가설검정의 [math(F)]-분포, Chow-test 등을 떠올려보자.

더불어 통계학에서는 모르겠지만, 계량경제학은 실험을 통한 새로운 데이터의 추출이 불가능하다는 여건 때문에 이미 주어진 데이터가 정규 분포가 아닐 때 이를 정규 분포로 변환(transform)하는 방법에 대한 연구도 활발하다. 예컨데 임금분포를 히스토그램으로 그려보면 왜도(歪度, skewness)[14] 때문에 아무리 예쁘게 봐줘도 정규 분포로 볼 수 없는 분포가 나온다. 대신에 임금 값에 로그를 씌우면 놀랍게도 정규 분포에 보다 근사한 형태의 그래프가 나오는데, 이를 바탕으로 모형을 추정한 후 이 추정값을 지수로 하는 지수함수로 변형(exponential)하여 원래의 임금값을 추정하는 방법 등이 있다. 이렇게 단조변환(monotone transform) 후 추정, 그 후 다시 역변환(inverse transform)은 통계학과 학부 수준 회귀분석 1에서도 많이하는 방법이지만 계량경제학자들은 사회과학 데이터의 한계를 극복하기 위해 이러한 정규 분포화 기법의 개발에 좀 더 집중하는 측면이 있다. 물론 적절한 변형을 통해 추출한 정규 분포에 근사한 데이터에서 추정한 추정량이 일치성, 불편성, 효율성 등을 만족한다고 해서 이것을 역변환하여 도출한 추정량이 이러한 성질을 따른다는 보장은 없으므로 자신이 취한 변형(transform) 방법의 가정, 특징, 효과와 한계 등을 제대로 파악해야할 것이다. 물론 직접 이것을 연구하는 사람도 있겠으나 그 정도 되면 최소 통계학이나 계량경제학이나 경영학과 재무의 박사 과정은 가야할 것이다.

6.2. 짤방: 세상은 정규 분포

자기 주변은 온통 x인데, 실상은 그 x가 굉장히 소수일 수 있다는 것을 보여주는 짤방.

트위터의 누군가가 '주변 사람들이 구글만 쓰던데 네이버는 누가 쓰죠?' 라는 트윗^{(해당 트윗)}을 올린 것에서 유래한다.

통계 인원이 적으면 일반적인 통계치가 통계 인원 내에서 적어 보이고 극단적인 통계치가 해당 모집단 내에서 많아 보일 수가 있지만 결국 많으면 많아질수록 통계치에 근접해지는 것을 뜻한다. 결국 '소수자는 소수자일 뿐'이라는 것을 나타내는 것. 굉장히 많은 상황에 이 그래프를 보여줄 수 있다. 대표적으로 선거 투표 개표 결과가 자기 생각과 다르게 나왔을 때 "나랑 내 주변 사람들은 아무도 A후보를 안뽑았는데 어떻게 A후보가 당선될 수가 있죠?"라는 의문을 갖는 사람에게 보여줄 수 있다. 선거 투개표 결과는 출구 조사(표본조사)로도 얻을 수 없을 만큼 어마어마한 인원수에 대한 결과(즉, 전수조사)이고, 앞에서 말한 주위 사람들의 표본조사는 모집단에 대한 결과이므로 '모수', 즉 '모평균', '모분산' 등에 해당한다. 이런 결과는 당연히 정규분포 근사가 가능하므로 일반 사람의 생각은 그저 저 중에 하나, 실제 몇명의 가치로는 0에 가깝다.[15][16]

6.2.1. 세상은 정말로 정규분포인가?

일반적으로 사람의 키를 비롯한 유전적, 자연적 요소나 체질 등과 달리, 세상에는 오른쪽 꼬리 분포, 왼쪽 꼬리 분포 등 정규분포를 따르지 않는 것들 또한 존재한다.[17] 정규분포는 본질적으로 모집단의 균일한 분포도를 보장해주지 않으며[18] 오히려 그렇기 때문에 유용한 것이다.

모집단(리얼 월드)는 당연히 정규분포 형태로 편성되어있지 않다. 단지 그 모집단에서 표본을 추출하는 행위를 여러 번 반복할 경우 모집단이 어떤 모양을 하고있든지 관계없이 표본평균의 분포가 근사 정규분포를 따른다는 의미이다.[19][20] 따라서 이론적으로 통계적으로 편향되지 않은, 신뢰성있고 적절한 표본선출만 한다면 사회전체의 정규분포를 추출할 수 있게된다.[21] 모든 사회실험, 과학에서 모집단에서 특정한 표본을 뽑아 모집단의 성격을 탐구하는 방식이 사용될 수밖에 없으므로 모든 곳에 정규분포가 쓰이는 것이다.

한편 정규 분포는 물리적으로 볼 때 매우 "자연스러운" 분포라고 볼 수도 있다. 어느 이차원 확률변수 (X, Y)가 (i) 한 점을 중심으로 회전해도 같은 분포를 유지하고 (ii) X와 Y가 독립이라면, 확률변수 (X, Y)는 이변수 정규분포를 따른다는 것이 알려져 있다 (Herschel-Maxwell Theorem). 지면에 서서 공을 어느 점을 목표로 떨어뜨리는 경우를 상정한다면, 공이 지면에 닿는 점은 동서남북 방향에 무관하게 분포할 것이므로 성질 (i)이 자연스럽다. 또한 공의 남북 방향 위치는 동서 방향 위치와 독립적일 것이므로 성질 (ii)도 자연스럽다. 따라서 이 경우 공 위치의 분포는 정규 분포를 따르게 되는 것이다.

7. 관련 문서

수학 관련 정보
통계학
확률 분포
[math(t)]-분포
[math(F)]-분포
[math(chi^{2})]-분포
오차함수
가우스 적분
Microsoft Excel/함수 목록: 간단한 통계학 계산은 엑셀이나 Calc로 할 수 있다.

[1] 참고로 고등학교 교육과정에서는 지수함수 [math(\exp (x))]와 [math(f(\bullet|\bullet))] 형태의 표기를 사용하지 않고 평균을 [math(m)]으로 나타내기 때문에 정규분포 [math({\rm N}(m,\,\sigma^2))]의 확률밀도함수를 [math(f(x))]로 적고 함수식도 [math(\displaystyle f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-m)^2}{2\sigma^2}})]으로 표기한다.[2] mean(평균)과 standard deviation(표준편차)의 앞글자를 그리스 문자로 음차했다. 분산은 개별 기호가 없고, '표준편차의 제곱'처럼 표기한다.[3] 정확히는 오차함수 [math(\mathrm{erf}(x))][4] 정확히는 [math(\dfrac{1}{\sigma\sqrt{2\pi}} \exp{\left[ -\dfrac{1}{2}\left(\dfrac{x - \mu}{\sigma}\right)^2\right]})][5] 정규분포는 확률변수 [math(X)]의 값을 [math(x)]로 둘 때 직선 [math(x=x)]에 대하여 선대칭이므로 표준정규분포에서 [math(P(x≤0)=0.5)]이며, 따라서 표준정규분포의 양수 부분만을 생각해 위 표에서 0.5를 뺀 값으로 작성된 표를 사용하기도 한다. 이 경우에 범위는 [math(P(0≤x≤z))]가 된다.[6] 현재는 왜행성이지만, 당시에는 소행성으로 분류되었다.[7] 최소제곱법에 대해 자세한 것은 네이버캐스트의 이곳을 참고. 아쉽게도 이 글은 정규 분포와의 연관성을 전혀 언급하지 않고 있다.[8] 이와 같은 전제인 경우에만 전교등수를 정확히 추정할 수 있다. 예를 들어 시험이 아주 쉬워서 만점자가 수두룩했다거나, 매우 어려워서 잘하는 몇 명 빼고 다 죽을 쑨 경우라면, 혹은 해당 과목 이수생 수가 매우 적은 경우라면 이 추산은 거의 맞지 않을 것이다.[9] 만일 전체 평균과 등급컷 하나가 알려져 있다면 표준편차를 구할 수 있다. 그 다음 다른 등급컷까지 모두 계산할 수 있다.(마치 시내버스는 시간표를 주지 않고 전광판에 남은 시간만 표시하지만 첫차/막차 시각과 배차 간격으로 시간표를 알아내는 것처럼.)[10] 실제 성적 분포가 정규 분포와 비슷할 확률이 매우 낮다.[11] 대부분의 성적 분포는 정규분포보다는 로짓-정규분포(logit-normal distribution)를 따른다는 연구 결과가 있다.[12] 참고로 로또 1등 당첨 확률이 1/8,145,060인데 이 확률보다 약 60배 낮은 확률이다.[13] 정확하게는 자연수의 서로 다른 소인수의 개수 [math(\omega(n))]은 [math(\displaystyle \frac{\omega(n)-\log \log n}{\sqrt {\log \log n}})]라는 확률분포를 가지기 때문에 정규분포와는 조금 다른 양상을 보이나, 크게 구분하지는 않는다.[14] 확률분포의 성질 중 3차 적률로 판단할 수 있는 성질이다. 이를 구하려면 정의에 의해 [math(\displaystyle \mathrm{E} \left[ \left( \dfrac{X-\mu}{\sigma} \right)^3 \right] )]로 구하거나, 적률생성함수가 존재할 때 이것의 삼계도함수를 구하고 [math(t=0)]을 대입하면 된다.[15] 실제로 정규분포에서 특정 지점의 확률은 0이다.[16] 물론 엄밀히 말하면 정규분포 상 특정 사람의 주변인들의 '생각에 대한 표본'이 가장 많이 밀집한 것은 평균값일 것이고 이런 값들이 무작위적으로 충분히 모인다면 이론상 통계적으로 유의미한 가치를 낼 수도 있긴 하다. 물론 이렇게 되면 그냥 표본조사와 다를 바가 없어지긴 하지만.[17] 수능, 토익처럼 평균이 높아지기는 하지만 그래도 그에 맞춰서 수준이 오르지 않고 아예 포기하고 다른 길을 찾는 경우도 있어서 하위권의 편차는 더 커지고 높은 점수로 많은 사람들이 몰리는 부적편포로, 일반적으로 최빈값이 중앙값보다 높고, 평균이 중앙값보다 낮은 형태를 보인다. 반면, 사람의 몸무게와 같은 지표는 정적편포[22]를 따르는데, 이는 평균 체중의 1.5~2배를 넘어가는 고도비만자들은 상당수 있지만 이론적으로 평균 체중의 0.5~0.6배(BMI 12~14 정도)의 극심한 저체중은 사실상 매우 드물고 저체중이더라도 대부분 표준체중의 0.8~0.9배(BMI 16~18 내외)인 경우가 많기 때문에 비만 체중의 편차는 크고 이들이 평균치를 높이며 대부분은 평균 체중 이하(남자 70kg 이하, 여자 55kg 이하)에 몰려있다. 특히 여성들이 정적편포 체중분포를 더 심하게 보이는데, 여성들이 남성들보다 외모 관리를 하면서 정상체중임에도 다이어트를 해서 더 날씬해보이려는 경향이 많아서 통계적인 평균 체중이 50kg 중후반이 나오지만 실제 중앙값은 50kg 초반대, 최빈값은 40kg 후반대가 나온다. 그 외에도 경제 활동 인구들의 소득 분포와 기타 민감한 요소들[23]이나 남들이 거의 하지 않는 매니악한 요소들도 정적편포를 따른다.[18] 정규분포는 모집단을 분석하기 위한 도구에 지나치지 않기 때문이다. 관측함으로써 관측 대상이 변하는 건 특수한 경우를 제외하면 일반적이진 않다.[19] 직관적으로 이해하기 쉽게 설명하자면 사회의 평균과는 아득히 멀리 떨어진 사이코 집단에서도 사람 뽑아 나열하면 "평범한 사이코"와 "온건한 사이코" "극단적인 사이코"로 분류된다. 개중에 그 집단의 평균값인 평범한 사이코가 가장 많이 뽑힐 수밖에 없으니[24] 사이코 집단의 정규분포의 형태로 배분된다는 것이 정규분포의 유용성이다.[20] 세상의 모든 것들이 특정 규칙에 따라 정확하게 계량화, 수식화 될 수 없다는 단점이, 정규분포를 통해 나름의 규칙성이 만들어져 분류될 수 있다는 점에서 이것의 장점이 여실히 드러난다. 만일 정규분포를 통해 사회분석을 할 수 없는 경우, 양적 연구 방법을 비롯한 대부분의 사회 현상 연구 방법의 범위는 크게 줄어들 수밖에 없다.[21] 당연히 이론적이므로 다양한 한계가 발생할 수밖에 없고 이는 신뢰도라는 수치로 정량화된다.