나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2024-09-20 06:33:20

확률 분포

이항 분포에서 넘어옴
통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 기반 실해석학 (측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 ·
자료 시각화
도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}

1. 개요2. 확률 분포의 종류
2.1. 이산 확률 분포
2.1.1. 이항분포2.1.2. 푸아송 분포2.1.3. 기하분포2.1.4. 초기하분포2.1.5. 음이항분포
2.2. 연속확률분포
3. 확률 분포가 가지는 성질
3.1. 기댓값과 분산3.2. 왜도3.3. 첨도
4. 누적분포함수

1. 개요

/ probability distribution

시행에서 확률 변수(random variable)가 어떤 값을 가질지에 대한 확률을 나타낸다. 확률 변수가 취하는 값들의 집합이 자연수의 부분 집합과 일대일 대응 된다면 이산확률분포, 확률 변수가 취하는 값들의 집합이 실수의 구간을 이루면 연속확률분포가 된다.

확률 분포와 분포를 사용하는 방법에 대한 입문자용 가이드는 통계적 방법/분포 문서를 참고하자.

2. 확률 분포의 종류

확률 변수의 종류에 따라 크게 이산확률분포와 연속확률분포로 나뉜다.

2.1. 이산 확률 분포

/ discrete probability distribution

확률질량함수(probability mass function)

2.1.1. 이항분포

통계학
Statistics
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px"
<colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 기반 실해석학 (측도론) · 선형대수학 · 이산수학
확률론 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙
통계량 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도
추론통계학 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도
통계적 방법 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식)
기술통계학 ·
자료 시각화
도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 }}}}}}}}}

/ binomial distribution

[math(n)]번의 독립 베르누이 시행(한 번의 시행에서 결과가 성공 또는 실패로 결정되는 시행)에서 성공 확률이 [math(p)]일 때의 확률 분포이다.
이것을 쉽게 설명하면, n번의 독립시행을 하고 각 시행마다 사건이 일어날 확률(= 성공할 확률)이 p로 일정할 때의 확률 분포이다.

[math(n)]번의 시행 중 성공 횟수(사건이 일어난 횟수)가 [math(x)]회 일 때,

[math(\displaystyle B(x;n,p)={}_nC_x~p^x(1-p)^{n-x})]

[math(\displaystyle ※{}_nC_x=\frac{n!}{x!(n-x)!})]

로 표현한다.

[math(n)]이 커지면 이항분포는 폭이 점점 좁아지며[1] 정규분포에 근접해 간다. [math(p)]가 0.5에 근접해 가도 마찬가지이다. 보통 [math(np \geq 10, n(1-p) \geq 10)][2] 이면 이항분포 대신, 정규 분포로 가정하고 확률을 계산 해도 무방하다[3]. 고등학교에서는 이항분포를 이루는 각 값들의 평균, 표준 편차를 구하는 법을 알려주는데[4], 값은 아래와 같다. (q=1-p)
교과과정 밖 내용이긴 하지만, 분포 형태를 나타내는 아래 값들도 있다.
참고로 n=1 일때의 이항분포를 베르누이 분포라고 한다.
{{{#!folding [증명 보기]
[math(\displaystyle 기본 증명:)]
[math(\displaystyle \sum_{x=0}^n{}_xP_k B(x;n,p))]
[math(\displaystyle =\sum_{x=k}^n{}_xP_k\cdot{}_nC_x~p^xq^{n-x})]
[math(\displaystyle =\sum_{x=k}^n\frac{\color{red}\cancel{x!}}{(x-k)!}\,\frac{n!}{{\color{red}\cancel{x!}}(n-x)!}p^xq^{n-x})]
[math(\displaystyle =\sum_{x=k}^n\frac{n!}{{\color{royalblue}(n-k)!}}\,\frac{\color{royalblue}(n-k)!}{(x-k)!(n-x)!}p^xq^{n-x})]
[math(\displaystyle =\sum_{x=k}^n{}_nP_k\cdot{}_{n-k}C_{x-k}~p^xq^{n-x}\quad\quad치환:~x=r+k)]
[math(\displaystyle =\sum_{r=0}^{n-k}{}_nP_k\cdot{}_{n-k}C_r~p^{r+k}q^{n-k-r})]
[math(\displaystyle ={}_nP_k~p^k(p+q)^{n-k})]
[math(\displaystyle ={}_nP_k~p^k)]
[math(\displaystyle \rightarrow평균:)]
[math(\displaystyle μ=\sum_{x=0}^nxB(x;n,p)\quad\quad\quad\quad\quad(x={}_xP_1))]
[math(\displaystyle ~={}_nP_1~p^1)]
[math(\displaystyle ~=np)]
[math(\displaystyle \rightarrow분산:)]
[math(\displaystyle σ^2=\sum_{x=0}^nx^2B(x;n,p)-μ^2\quad\quad(x^2={}_xP_2+x))]
[math(\displaystyle \,={}_nP_2~p^2+μ-μ^2)]
[math(\displaystyle \,=μ(\cancel μ-p)+μ-\cancel{μ^2})]
[math(\displaystyle \,=μ(1-p))]
[math(\displaystyle \,=npq)][math(\displaystyle \rightarrow표준편차:~σ=\sqrt{npq})]
[math(\displaystyle \rightarrow왜도:)]
[math(\displaystyle s=\frac{\sum_{x=0}^nx^3B(x;n,p)-3μσ^2-μ^3}{σ^3})]
}}}

2.1.2. 푸아송 분포

파일:상세 내용 아이콘.svg   자세한 내용은 푸아송 분포 문서
번 문단을
부분을
참고하십시오.

2.1.3. 기하분포

/ geometric distribution

성공 확률이 p인 독립 베르누이 시행에서 최초로 성공인 시행이 나오기까지 시도한 횟수를 확률 변수로 갖는 확률 분포이며,
[math( g(x:p) = (1-p)^{x-1}p )]
로 표현한다.

기하분포의 평균은 [math(1 \over p)], 분산은 [math({1-p} \over {p^2})]이다. 즉, 성공 확률이 [math(1 \over n)]인 아이템 뽑기 게임에서 아이템을 하나 획득하기 위해서는 대략 [math(n)]회 정도의 시도가 필요하다고 예상할 수 있다는 것을 의미한다.

2.1.4. 초기하분포

/ hypergeometric distribution

N개의 모집단에서 추출하려는 것이 k개 존재할 경우, 그 모집단에서 비복원추출한 n개의 표본집단 중 추출하려던 것이 x개 일 확률변수를 나타내는 확률분포이며,
[math( h(x;N,n,k) = \frac{\begin{pmatrix}k\\x\end{pmatrix} \begin{pmatrix}N-k\\n-x\end{pmatrix}}{\begin{pmatrix}N\\n\end{pmatrix}} )]로 표현한다.

2.1.5. 음이항분포

/ negative binomial distribution

성공 확률이 p인 독립 베르누이 시행에서 x회 동안 k번 성공할 때의 확률변수를 나타내는 확률분포이며,
[math( B^{-1}(x;k,p) = \begin{pmatrix}x-1\\k-1\end{pmatrix}p^k(1-p)^{x-k} )]로 표현한다.

2.2. 연속확률분포

/ continuous probability distribution
확률밀도함수(probability density function)

3. 확률 분포가 가지는 성질

3.1. 기댓값과 분산

기댓값이란 실험을 반복시행 했을 때, 평균적으로 기대할 수 있는 값이며, 수식적으로는 확률질량함수를 가중치로 한 가중 평균과 동일하다. 확률 변수 X에 대한 기대값은 E(X) 또는 E[X]라고 표기하고 다음과 같이 계산한다.
[math(\displaystyle \text{E}\left(X\right)≝\sum_{i}x_i P\left(X=x_i\right))][6]

분산이란 확률 변수가 취하는 값들이 기대치로부터 얼마나 흩어져 있는가를 나타낸다. 일반적으로 V(X)로 표기하며 다음과 같이 계산한다.
[math(\displaystyle \text{V}\left(X\right)≝\text{E}\left[(X-μ)^2\right])][7]
[math(\displaystyle =\text{E}\left(X^2-2μX+μ^2\right))]
[math(\displaystyle =\text{E}\left(X^2\right)-2μ\text{E}\left(X\right)+μ^2)][8]
[math(\displaystyle =\text{E}\left(X^2\right)-μ^2)]
[math(\displaystyle ※~μ=\text{E}\left(X\right))]

표준 편차는 분산에 제곱근을 하여 계산한다.
[math(\sigma \left(X\right)≝\sqrt {\text{V}\left(X\right)})]

왜 절댓값을 안하고 굳이 제곱해서 구하는지에 대한 이유는 절대 편차에 설명되어 있다.

분산과 표준 편차 모두 확률 변수 값들이 기대치에서 흩어진 정도를 나타내기 때문에 산포도라고 총칭하기도 한다.

3.2. 왜도

/ skewness

그래프가 왼쪽이나 오른쪽으로 치우친 정도이다.
[math(\displaystyle \text{E}\left[\left(\frac{X-μ}σ\right)^3\right])]
[math(\displaystyle =\text{E}\left(\frac{X^3-3μX^2+3μ^2X-μ^3}{σ^3}\right))]
[math(\displaystyle =\frac{\text{E}(X^3)-3μ\text{E}(X^2)+3μ^2\text{E}(X)-μ^3}{σ^3})]
[math(\displaystyle =\frac{\text{E}(X^3)-3μσ^2-μ^3}{σ^3})]

3.3. 첨도

/ kurtosis

그래프가 위로 뾰족한 정도를 측도로 나타낸것이다.
[math(\displaystyle \text{E}\left[\left(\frac{X-μ}σ\right)^4\right]=\dfrac{\mu^4}{\sigma^4})]
위 식에서 X가 [math(\sum_{i}X_i)]를 만족한다면, 초과 첨도(excess kurtosis)는 다음과 같다.
[math(\displaystyle \text{E}\left[\left(\frac{X-μ}σ\right)^4\right]-3=\dfrac{\mu^4}{\sigma^4}-3)]

4. 누적분포함수

/ cumulative distribution function, cdf

어떤 확률 분포에 대하여 확률 변수가 특정 값보다 작거나 같은 확률을 의미한다.
즉 [math(F(x)=P(X \leq x))].


[1] Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p230[2] 절대적인 규칙은 아니다. 교과서 및 교수마다 조금 다르게 가르치기도 한다. [math(np \geq 5, n(1-p) \geq 5)] 라고 가르치기도 한다.[3] 주의할점은, 연속확률변수인 정규 분포를 이용하여 이산확률변수인 이항분포를 근사할경우 연속성 수정을 해줘야 한다.[4] 2015 개정교육과정에서는 증명을 생략한다[5] Pagano, R. R. (2012). Understanding statistics in the behavioral sciences. Cengage Learning.p239[6] 단, 해당 식은 확률질량함수에 사용하는 계산법이니 확률 밀도 함수 상대로는 적분을 사용하도록 하자. 그 외에 더 자세한 내용은 기댓값 문서 참조.[7] [math(\displaystyle =\sum_{i}{\left(x_i-μ\right)^2P\left(X=x_i\right)})][8] 기댓값 연산자 Expectation Operator [math(E[X])]는 선형사상이라 이런 식으로 계산을 할 수 있다.