확률 분포

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 (측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 · 독립항등분포
통계량		평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 (심슨의 역설) · 그레인저 인과관계 · 신뢰도와 타당도 · 오차 · 잔차 · 편향(확증 편향 · 선택 편향)
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 · 자료 시각화		도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

1. 개요2. 확률 분포의 종류

2.1. 이산 확률 분포

2.1.1. 이항분포(베르누이 시행)2.1.2. 푸아송 분포2.1.3. 기하분포2.1.4. 초기하분포2.1.5. 음이항분포

2.2. 연속확률분포

2.2.1. 검정통계량의 분포2.2.2. 모델링에 사용되는 분포

3. 확률 분포가 가지는 성질

3.1. 기댓값과 분산3.2. 왜도3.3. 첨도

4. 누적분포함수

4.1. 생존 함수

5. 관련문서

1. 개요

確率分布 / probability distribution

시행에서 확률 변수(random variable)가 어떤 값을 가질지에 대한 확률을 나타낸다. 확률 변수가 취하는 값들의 집합이 자연수의 부분 집합과 일대일 대응 된다면(가산적이면) 이산확률분포, 확률 변수가 취하는 값들의 집합이 실수의 구간을 이루면 연속확률분포가 된다.

확률 분포와 분포를 사용하는 방법에 대한 입문자용 가이드는 통계적 방법/분포 문서를 참고하자.

2. 확률 분포의 종류

확률 변수의 종류에 따라 크게 이산확률분포와 연속확률분포로 나뉜다.

2.1. 이산 확률 분포

離散確率分布 / discrete probability distribution

확률질량함수(probability mass function)

2.1.1. 이항분포(베르누이 시행)

통계학 Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px"	<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학	기반	실해석학 (측도론) · 선형대수학 · 이산수학
확률론		사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 · 독립항등분포
통계량		평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학	가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 (심슨의 역설) · 그레인저 인과관계 · 신뢰도와 타당도 · 오차 · 잔차 · 편향(확증 편향 · 선택 편향)
추론통계학	통계적 방법	회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 · 자료 시각화		도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점	}}}}}}}}}

二項分布 / binomial distribution

[math(n)]번의 독립 베르누이 시행(한 번의 시행에서 결과가 성공 또는 실패로 결정되는 시행)에서 성공 확률이 [math(p)]일 때의 확률 분포이다.

쉽게 설명하면, 각각 [math(p)]의 확률로 성공하는 독립시행을 총 [math(n)]번 반복했을때의 분포를 말한다. 가령 '주사위의 윗면이 1로 나오는 경우'를 사건으로 정의하고 주사위 10개를 동시에 굴릴 때, [math(n)]은 [math(10)]이 되고 [math(p)]는 [math(1/6)]이 된다.

[math(n)]번의 시행 중 성공 횟수(사건이 일어난 횟수)가 [math(x)]회 일 때,

[math(\displaystyle B(x;n,p)={}_nC_x~p^x(1-p)^{n-x})]

[math(\displaystyle ※{}_nC_x=\frac{n!}{x!(n-x)!})]

로 표현한다. 즉 베르누이 시행(Bernoulli trial)에 대한 조합(combination)이다.

[math(n)]이 커지면 이항분포는 폭이 점점 좁아지며[1] 정규분포에 근접해 간다. [math(p)]가 0.5에 근접해 가도 마찬가지이다. 보통 [math(np \geq 10, n(1-p) \geq 10)][2] 이면 이항분포 대신, 정규 분포로 가정하고 확률을 계산 해도 무방하다[3]. 고등학교에서는 이항분포를 이루는 각 값들의 평균, 표준 편차를 구하는 법을 알려주는데[4], 값은 아래와 같다. [math((q=1-p) )]

[math(\displaystyle 평균:~μ=np)]
[math(\displaystyle 분산:~σ^2=npq =np(1-p))]
[math(표준편차:σ=\sqrt{npq})]

교과과정 밖 내용이긴 하지만, 분포 형태를 나타내는 아래 값들도 있다.

[math(\displaystyle 왜도:~s=\frac{q-p}σ)]
[math(\displaystyle 첨도:~κ=\frac{1-6pq}{σ^2})]

참고로 n=1 일때의 이항분포를 베르누이 분포라고 한다.

{{{#!folding [증명 보기]

[math(\displaystyle 기본 증명:)]
[math(\displaystyle \sum_{x=0}^n{}_xP_k B(x;n,p))]
[math(\displaystyle =\sum_{x=k}^n{}_xP_k\cdot{}_nC_x~p^xq^{n-x})]
[math(\displaystyle =\sum_{x=k}^n\frac{\color{red}\cancel{x!}}{(x-k)!}\,\frac{n!}{{\color{red}\cancel{x!}}(n-x)!}p^xq^{n-x})]
[math(\displaystyle =\sum_{x=k}^n\frac{n!}{{\color{royalblue}(n-k)!}}\,\frac{\color{royalblue}(n-k)!}{(x-k)!(n-x)!}p^xq^{n-x})]
[math(\displaystyle =\sum_{x=k}^n{}_nP_k\cdot{}_{n-k}C_{x-k}~p^xq^{n-x}\quad\quad치환:~x=r+k)]
[math(\displaystyle =\sum_{r=0}^{n-k}{}_nP_k\cdot{}_{n-k}C_r~p^{r+k}q^{n-k-r})]
[math(\displaystyle ={}_nP_k~p^k(p+q)^{n-k})]
[math(\displaystyle ={}_nP_k~p^k)]

[math(\displaystyle \rightarrow평균:)]
[math(\displaystyle μ=\sum_{x=0}^nxB(x;n,p)\quad\quad\quad\quad\quad(x={}_xP_1))]

[math(\displaystyle ~={}_nP_1~p^1)]
[math(\displaystyle ~=np)]

[math(\displaystyle \rightarrow분산:)]
[math(\displaystyle σ^2=\sum_{x=0}^nx^2B(x;n,p)-μ^2\quad\quad(x^2={}_xP_2+x))]

[math(\displaystyle \,={}_nP_2~p^2+μ-μ^2)]
[math(\displaystyle \,=μ(\cancel μ-p)+μ-\cancel{μ^2})]
[math(\displaystyle \,=μ(1-p))]
[math(\displaystyle \,=npq)][math(\displaystyle \rightarrow표준편차:~σ=\sqrt{npq})]

[math(\displaystyle \rightarrow왜도:)]
[math(\displaystyle s=\frac{\sum_{x=0}^nx^3B(x;n,p)-3μσ^2-μ^3}{σ^3})]
}}}

이항분포의 평균과 분산을 구하는 공식을 증명하라는 문제가 2017학년도 서울시립대학교 논술 2번에 출제되어 수많은 수험생들을 공포에 떨게 하였다. 해당 문제는 수리논술이지만 2번 문제에 한해 문과, 이과 공통으로 출제되었다. 관련 링크 이과 수리논술에서는 논제 2번에 출제하고 문과 인문논술에서는 논제 3번에 출제되었다. 서울시립대 논술의 여파로 확통에서 학생들이 대충 공식만 외우고 넘어가는 교육 행태에 경종을 울리는 교육 현장의 반응이 많았고, 이후 학교나 학원의 개념 강의 때 기초적인 증명을 보여주는 강사나 교사들이 늘어나는 좋은 영향력이 벌어지기도 했다.

2.1.2. 푸아송 분포

자세한 내용은 푸아송 분포 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[푸아송 분포#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
의 [[푸아송 분포#|]] 부분을

참고하십시오.

2.1.3. 기하분포

幾何分布 / geometric distribution

성공 확률이 p인 독립 베르누이 시행에서 최초로 성공인 시행이 나오기까지 시도한 횟수를 확률 변수로 갖는 확률 분포이며,

[math( g(x:p) = (1-p)^{x-1}p )]

로 표현한다.

기하분포의 평균은 [math(1 \over p)], 분산은 [math({1-p} \over {p^2})]이다. 즉, 성공 확률이 [math(1 \over n)]인 아이템 뽑기 게임에서 아이템을 하나 획득하기 위해서는 대략 [math(n)]회 정도의 시도가 필요하다고 예상할 수 있다는 것을 의미한다.

2.1.4. 초기하분포

超幾何分布 / hypergeometric distribution

N개의 모집단에서 추출하려는 것이 k개 존재할 경우, 그 모집단에서 비복원추출한 n개의 표본집단 중 추출하려던 것이 x개 일 확률변수를 나타내는 확률분포이며,

[math( h(x;N,n,k) = \frac{\begin{pmatrix}k\\x\end{pmatrix} \begin{pmatrix}N-k\\n-x\end{pmatrix}}{\begin{pmatrix}N\\n\end{pmatrix}} )]로 표현한다.

2.1.5. 음이항분포

陰二項分布 / negative binomial distribution

성공 확률이 [math(p)]인 독립 베르누이 시행에서 [math(x)]회 동안 [math(k)]번 성공할 때의 확률변수를 나타내는 확률분포이며,

[math( B^{-1}(x;k,p) = \begin{pmatrix}x-1\\k-1\end{pmatrix}p^k(1-p)^{x-k} )]로 표현한다. [math(k=1)]이면 기하분포가 된다.

2.2. 연속확률분포

連續確率分布 / continuous probability distribution

확률밀도함수(probability density function)

표본 분포(sampling distribution)

2.2.1. 검정통계량의 분포

정규 분포(Normal distribution)
표준 정규 분포(z-분포, Standard Normal distribution)
스튜던트 t-분포(t-분포, Student's t-distribution)
F-분포(F-distribution)
카이 제곱 분포(χ2 분포, chi-squared distribution)

2.2.2. 모델링에 사용되는 분포

균등 분포(Uniform distribution): 확률변수의 모든 값에서 일정한 확률밀도함수 값을 가지는 분포.
지수 분포(Exponential distribution): 사건이 단위 시간당 일정한 확률로 독립적으로 발생할 때, 첫 번째 사건이 발생하기까지 걸리는 시간에 대한 분포로, 단위 시간 당 사건 발생 횟수에 대한 분포인 포아송 분포로 유도할 수 있다.
와이블 분포(Weibull distribution): 지수 분포의 일반화로, 발생 확률이 시간에 의존할 때, 첫 번째 사건이 일어나기까지 걸리는 시간에 대한 분포.
레일리 분포(Rayleigh distribution): 지수 분포와 같이 와이블 분포의 또 다른 특수한 분포.
감마 분포
베타 분포
파레토 분포

3. 확률 분포가 가지는 성질

3.1. 기댓값과 분산

기댓값(Expectation)이란 실험을 반복시행 했을 때, 평균적으로 기대할 수 있는 값이며, 수식적으로는 확률질량함수를 가중치로 한 가중 평균과 동일하다. 확률 변수 X에 대한 기대값은 E(X) 또는 E[X]라고 표기하고 다음과 같이 계산한다.

[math(\displaystyle \text{E}\left(X\right)≝\sum_{i}x_i P\left(X=x_i\right))][5]

분산(Variance)이란 확률 변수가 취하는 값들이 기대치로부터 얼마나 흩어져 있는가를 나타낸다. 일반적으로 V(X)로 표기하며 다음과 같이 계산한다.

[math(\displaystyle \text{V}\left(X\right)≝\text{E}\left[(X-μ)^2\right])][6]
[math(\displaystyle =\text{E}\left(X^2-2μX+μ^2\right))]
[math(\displaystyle =\text{E}\left(X^2\right)-2μ\text{E}\left(X\right)+μ^2)][7]
[math(\displaystyle =\text{E}\left(X^2\right)-μ^2)]

[math(\displaystyle ※~μ=\text{E}\left(X\right))]

표준 편차(Standard Deviation)는 분산에 제곱근을 하여 계산한다.

[math(\sigma \left(X\right)≝\sqrt {\text{V}\left(X\right)})]

왜 절댓값을 안하고 굳이 제곱해서 구하는지에 대한 이유는 절대 편차에 설명되어 있다.

분산과 표준 편차 모두 확률 변수 값들이 기대치에서 흩어진 정도를 나타내기 때문에 산포도라고 총칭하기도 한다.

3.2. 왜도

歪度 / skewness

그래프가 왼쪽이나 오른쪽으로 치우친 정도이다.

[math(\displaystyle \text{E}\left[\left(\frac{X-μ}σ\right)^3\right])]
[math(\displaystyle =\text{E}\left(\frac{X^3-3μX^2+3μ^2X-μ^3}{σ^3}\right))]
[math(\displaystyle =\frac{\text{E}(X^3)-3μ\text{E}(X^2)+3μ^2\text{E}(X)-μ^3}{σ^3})]
[math(\displaystyle =\frac{\text{E}(X^3)-3μσ^2-μ^3}{σ^3})]

3.3. 첨도

尖度 / kurtosis

그래프가 위로 뾰족한 정도를 측도로 나타낸것이다.

[math(\displaystyle \text{E}\left[\left(\frac{X-μ}σ\right)^4\right]=\dfrac{\mu^4}{\sigma^4})]

위 식에서 X가 [math(\sum_{i}X_i)]를 만족한다면, 초과 첨도(excess kurtosis)는 다음과 같다.

[math(\displaystyle \text{E}\left[\left(\frac{X-μ}σ\right)^4\right]-3=\dfrac{\mu^4}{\sigma^4}-3)]

4. 누적분포함수

累積分布函數 / cumulative distribution function, cdf

어떤 확률 분포에 대하여 확률 변수가 특정 값보다 작거나 같은 확률을 의미한다. 즉 [math(F(x) = P(X \leq x))]를 말한다.

이산 확률 분포의 경우

[math(\displaystyle F(x) = P(X \leq x) = \sum^x_{i = 0} P(X = i))]

와 같이 계산할 수 있다. 연속확률분포의 경우 확률밀도함수를 적분해서 구할 수 있다.

4.1. 생존 함수

[math( P(X \leq x) = F(x) )] (누적분포함수,CDF)
[math( P(X > x) = 1- F(x) )] (생존함수,Survival Function)
생존함수는 누적분포함수(CDF)를 1을 기준(무한대)으로 보수(補數,complement)로 갖는다.

5. 관련문서

감마분포

[1] Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p230[2] 절대적인 규칙은 아니다. 교과서 및 교수마다 조금 다르게 가르치기도 한다. [math(np \geq 5, n(1-p) \geq 5)] 라고 가르치기도 한다.(수능특강)[3] 주의할점은, 연속확률변수인 정규 분포를 이용하여 이산확률변수인 이항분포를 근사할경우 연속성 수정을 해줘야 한다.[4] 2015 개정교육과정에서는 증명을 생략한다[5] 단, 해당 식은 확률질량함수에 사용하는 계산법이니 확률 밀도 함수 상대로는 적분을 사용하도록 하자. 그 외에 더 자세한 내용은 기댓값 문서 참조.[6] [math(\displaystyle =\sum_{i}{\left(x_i-μ\right)^2P\left(X=x_i\right)})][7] 기댓값 연산자 Expectation Operator [math(E[X])]는 선형사상이라 이런 식으로 계산을 할 수 있다.

확률 분포

1. 개요

2. 확률 분포의 종류

2.1. 이산 확률 분포

2.1.1. 이항분포(베르누이 시행)

2.1.2. 푸아송 분포

2.1.3. 기하분포

2.1.4. 초기하분포

2.1.5. 음이항분포

2.2. 연속확률분포

2.2.1. 검정통계량의 분포

2.2.2. 모델링에 사용되는 분포

3. 확률 분포가 가지는 성질

3.1. 기댓값과 분산

3.2. 왜도

3.3. 첨도

4. 누적분포함수

4.1. 생존 함수

5. 관련문서

분류