아명이 '산포도'인 열매에 대한 내용은 머루 문서 참고하십시오.
통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 (산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
1. 개요
산포도(散布度) 또는 변산도(變散度)는 변량이 흩어져 있는 정도를 하나의 수로 나타낸 값이다. 범위, 사분위수 범위, 분산, 표준 편차, 절대 편차, 변동계수 등이 이에 속한다. 영어 표현으로는 dispersion, variability, scatter, spread, degree of scattering 등이 있다.대한민국 수학 교육과정에서는 중학교 3학년 2학기 통계 단원에서 대푯값과 함께 배우게 된다. 7차 교육과정 시기에는 잠깐 고1 과정으로 올라간 적이 있었다.
2. 범위
範圍/ range최댓값에서 최솟값을 뺀 것이다.
3. 사분위간 범위
자료를 같은 개수로 4개로 나눈 각각의 값을 사분위수(quartile)라고 한다. n개의 값이 있다면 중앙값이 2사분위수인 Q2이며, (Q2 + 1)/2 번째가 1사분위수인 Q1이고, (Q2 + n)/2 번째가 3사분위수인 Q3이다.(정리하자면 Q1=(n+1)/4, Q2=2(n+1)/4, Q3=3(n+1)/4로 표현할 수 있다.)
예를 들어 11~24의 14개의 숫자가 있다고 하면 7.5번째여서 중위수인 17.5가 Q2이다. Q1은 4.25번째인 14.25이고, Q3는 10.75번째 숫자인 20.75이다. 그럼 11과 14.25 사이의 간격은 3.25이고, 14.25와 17.5 사이의 간격도 3.25이다. 또한 17.5와 20.75 사이의 간격도 3.25이고, 20.75와 24사이의 간격도 3.25이다.
사분위간 범위(interquartile range, IQR)는 3 사분위수에서 1 사분위수를 뺀 값으로 전체 자료의 중간에 있는 절반의 자료들이 지니는 값의 범위를 말한다. Q1에서 Q3 사이의 간격이라고 생각하면 된다. 위의 예에서는 20.75 - 14.25 = 6.5이다.
산포도인 사분위간 범위와 달리 사분위수와 백분위수는 대푯값이다. Q1은 제25백분위수, Q2는 제 50백분위수, Q3는 제75 백분위수이기도 하다.
4. 분산
分散 / variance분산은 관측값에서 평균을 뺀 값(편차)을 제곱하고, 그것을 모두 더한 후 전체 개수로 나눠서 구한다. 즉, 차이값의 제곱의 평균이다. 관측값에서 평균을 뺀 값인 편차를 모두 더하면 0이 나오므로 제곱해서 더한다.
[math(\text{Var}=\sigma^{2}=\frac{\text{SS}}{N}=\frac{\sum_{i}\left(x_{i}-\mu\right)^{2}}{N})]
위의 수식은 모집단에서의 분산(variance)을 다룬다. [math(\mu)]는 모집단의 산술 평균이다. N은 모집단의 원소의 갯수이다.
표본에서의 분산은 N이 아닌 n-1로 나눈다. n은 표본의 갯수이다.
분산에는 일반적으로 단위를 붙이지 않는다.[1] 그런데 분산만으로는 각 자료의 편차에 비해 비교적 큰 수치[2]가 나오므로 이들의 다시 음이 아닌 제곱근의 값으로 더 정밀한 분포를 구하기 위해 후술할 표준 편차라는 개념이 등장한다.
분산은 쉽게 말하면 편차의 제곱의 평균이다. 왜냐하면 편차의 합은 항상 0이라 애초에 이들의 평균도 0이 되어 구하려는 의미가 없기 때문이다. 그래서 고안해낸 방법으로, 각 편차들을 모두 제곱해서 음이 아닌 실수만 남겨놓은 꼴로 바꾸게 된 것이다.
분산 문서 참조.
5. 편차
偏差 / deviation편차는 관측값에서 평균 또는 중앙값을 뺀 것이다. 즉, 자료값들이 특정값으로부터 떨어진 정도를 나타내는 수치이다.
5.1. 표준 편차
標準偏差 / standard deviation[math(\sigma=\sqrt{\text{Var}})]
모집단의 표준 편차
표준 편차는 짧게 말해서 분산에 루트를 씌워 제곱근의 꼴로 취해놓은 것이다. 분산에서 왜 제곱을 하는지 알고 있다면, 표준편차에서 왜 루트를 씌우는지도 알 수 있다. 분산을 구하는 과정에서 마이너스 기호를 떨구기 위해 임의로 뻥튀기를 해 놓았으니, 이제 그 값을 도로 원상복구(…)시켜야 하는 것이다. 즉 제곱해서 커져 버린 값에 루트를 씌워서 도로 쪼그라들게 만들면 비로소 우리가 본래 알고 싶어하던 편차의 평균이 얻어지게 되는 것이다. 통계학에서는 시그마 소문자 기호로 표준편차를 표시하는데, 위에 서술한 바에 의해서 분산의 경우는 시그마 제곱으로 표현된다.
표준편차의 경우, 모든 관찰값에 동일한 상수를 똑같이 더하거나 빼는 것은 영향을 받지 않지만, 똑같이 곱하거나 나누게 되면 표준편차도 동일하게 영향을 받는다. 모든 수에 2를 곱한다면 표준편차도 2가 곱해진 새로운 값으로 구해지게 된다. 그래서 각 변량에 x만큼의 숫자를 더한다면 그들의 평균도 x만큼 증가ㆍ감소하는 것이라는 원리가 있다.
표준 오차(standard error)는 표준 편차와는 다르다. 이쪽은 추론통계학에서 수많은 표본 평균들의 편차를 구함으로써 모 평균 "뮤"를 추정할 때 쓰인다. 이 경우 시그마 소문자에다 아래 첨자로 m 을 붙여서 표기하며, 루트 씌운 표본 관측값의 수로 표본 표준 편차를 나누면 된다.
표준 편차 문서 참조.
5.1.1. 변동계수
變動係數 / coefficient of variation변동계수 또는 상대 표준 편차(relative standard deviation, RSD)는 표준 편차를 표본 평균이나 모 평균 등 산술 평균으로 나눈 것이다.
즉, "변동계수 = 표준편차 / 평균"이다.
변동계수 문서 참조.
5.2. 절대 편차
絕對偏差 / absolute deviation각 데이터에서 평균을 빼고 제곱한 후 제곱근을 씌운 표준 편차와는 다르게, 제곱을 하지 않고 절댓값을 씌운 것이다.
절대 편차 문서 참조.
6. 관련 문서
[1] 굳이 단위를 붙인다면 원래 단위의 제곱이 된다. 그런데 이렇게 제곱한 단위가 데이터 변량이 아닌 편차의 제곱이므로 수학적, 물리학적으로 아무런 의미가 없다. 표준편차는 다시 단위를 붙인다.[2] 단, 표준편차가 1보다 작은 경우에는 분산은 더더욱 작아지게 된다.