통계학 Statistics | |||
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px); word-break: keep-all" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-5px -1px -11px" | <colbgcolor=#4d4d4d><colcolor=#fff> 수리통계학 | 기반 | 실해석학 (측도론) · 선형대수학 · 이산수학 |
확률론 | 사건 · 가능성 · 확률 변수 · 확률 분포 (표본 분포 · 정규 분포 · 이항 분포 · 푸아송 분포 · 카이제곱분포 · t분포 · Z분포 · F-분포 · 결합확률분포) · 확률밀도함수 · 확률질량함수 · 조건부확률 · 조건부기댓값 · 조건부분산 · 전체 확률의 법칙 · 베이즈 정리 · 도박사의 오류 · 도박꾼의 파산 · 몬티 홀 문제 · 뷔퐁의 바늘 · 마르코프 부등식 · 체비쇼프 부등식 · 큰 수의 법칙 (무한 원숭이 정리) · 중심극한정리 · 벤포드의 법칙 | ||
통계량 | 평균 (제곱평균제곱근 · 산술 평균 · 기하 평균 · 조화 평균 · 멱평균 · 대수 평균) · 기댓값 · 편차 (절대 편차 · 표준 편차) · 분산 (공분산) · 결정계수 · 변동계수 · 상관계수 · 대푯값 · 자유도 | ||
추론통계학 | 가설 · 변인 · 추정량 · 점추정 · 신뢰 구간 · 상관관계와 인과관계 · 실험통계학 · p-해킹 · 통계의 함정 · 그레인저 인과관계 · 신뢰도와 타당도 | ||
통계적 방법 | 회귀 분석 · 최소제곱법 · 분산 분석 · 주성분 분석 (요인 분석) · 시계열 분석 · 패널 분석 · 2SLS · 생존 분석 · GARCH · 비모수통계학 · 준모수통계학 · 기계학습 (군집 분석 · 분류 분석) · 위상 데이터분석 · 외삽법 · 메타 분석 · 모델링 (구조방정식) | ||
기술통계학 · 자료 시각화 | 도표 (그림그래프 · 막대그래프 · 선 그래프 · 원 그래프 · 상자 수염 그림 · 줄기와 잎 그림 · 산포도 · 산점도 · 히스토그램 · 도수분포표) · 그래프 왜곡 · 이상점 | }}}}}}}}} |
<colbgcolor=#000> 과학 연구 · 실험 Scientific Research · Experiment | ||||
{{{#!wiki style="margin: 0 -10px -5px" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -6px -1px -11px" | <colbgcolor=#000><colcolor=#fff><rowcolor=#000,#fff> 배경 | 과학적 방법 | ||
기반 | 수학(미적분학 · 선형대수학 · 미분방정식) · 통계학(수리통계학 · 추론통계학 · 기술통계학) | |||
연구·탐구 | 논증(귀납법 · 연역법 · 유추(내삽법 · 외삽법)) · 이론(법칙 · 공리 · 증명 · 정의 · 근거이론 · 이론적 조망) · 가설 · 복잡계(창발) · 모형화(수학적 모형화) · 관측 · 자료 수집 · 교차검증 · 오컴의 면도날 · 일반화 | |||
연구방법론 | 합리주의 · 경험주의 · 환원주의 · 복잡계 연구방법론 · 재현성(연구노트) | |||
통계적 방법 | 혼동행렬 · 회귀 분석 · 메타 분석 · 주성분 분석 · 추론통계학(모형(구조방정식) · 통계적 검정 · 인과관계와 상관관계 · 통계의 함정 · 신뢰도와 타당도) | |||
측정·물리량 | 물리량(물리 상수 · 무차원량) · 차원(차원분석) · 측도 · 단위(단위계(SI 단위계 · 자연 단위계) · 단위 변환) · 계측기구 · 오차(불확도 · 유효숫자 · 과학적 기수법) | |||
실험 | 실험설계 · 정성실험과 정량실험 · 실험군과 대조군 · 변인(독립 변인 · 조작 변인 · 종속 변인 · 변인 통제) · 모의 실험(수치해석) · 맹검법 · 사고실험 · 인체실험 · 임상시험 · 실험 기구 | |||
연구윤리 | 뉘른베르크 강령 · 헬싱키 선언 · 연구투명성 · 연구 동의서 · 연구부정행위 · 표절(표절검사서비스) · 편향 · 문헌오염 · 자기교정성 · 연구윤리위원회 | |||
논문·과학 공동체 | 소논문 · 리포트 · 논문제출자격시험 · 연구계획서 · 형식(초록 · 인용(양식 · 참고문헌) · 감사의 글) · 저자 · 학회 · 세미나 · 학술대회 · 동료평가 · 지표 · 학술 데이터베이스 · 게재 철회 · 학제간 연구 | |||
철학 관련 정보 · 연구방법론 관련 정보 · 수학 관련 정보 · 자연과학 관련 정보 · 물리학 관련 정보 · 통계 관련 정보 · 사회과학 조사연구방법론 | }}}}}}}}} |
1. 개요
모델링(Modeling, Modelling)의 용례에 대한 문서이다.2. 학술적 의미
구조법이라고 불리기도 한다. 모형을 뜻하는 모델(Model) + (l)ing로, 말그대로 해석하면 모형을 만드는 일 따위를 뜻한다. 하지만 현대에는 뜻이 확장되어 쓰인다. 실재하는 현상을 간단한 형태[1]로 나타내어 이를 기술하거나 예측하기 위한 기법이다. 모델링이라 하니 굉장히 공대적인 느낌과 심리적 장벽이 느껴지는 학생이라면, 학교 시험이나 수학 올림피아드에서 상황을 주고 그래프 그리거나 식 세워서 풀어보라고 나오는 문제를 간단한 모델링이라 생각하면 된다.사회과학, 자연과학, 경제학 등의 학문분야에서 분야를 막론하고 중요한 활동이며, 특히 공학은 모델링하는 과정 그 자체라고도 말할 수 있다. 유체, 열, 고체 등의 거동을 식이나 그래프로 모델링하는 학문인 역학에서도 사용한다.
모델링을 크게 두 종류로 나눌 경우 기술모델과 예측모델로 나누어진다. 기술모델은 말 그대로 현실을 간단하게 설명하기 위하여 여러 단위들 간의 관계도로 보여주는 형태이다. 특히 사회과학에서는 구성(construct) 혹은 개념(concept)이 단위가 된다. 그리고 그 단위들이 서로간에 화살표로 묶여서 인과적 영향을 주고받는다. 대표적으로 구조방정식 모델링(SEM; structural equation modelling)이 있으며 경로모델, 매개모델, 조절모델 같은 것들도 기술모델의 흔한 형태이다. 심리학의 경우 이 중에서 매개모델이 매우 중요하며, 어떤 현상의 메커니즘을 인과적으로 분석하는 설명적(explanatory)인 성격을 지닌다 하여 매개모델을 설명모델이라고도 본다. 매개모델과 조절모델에 대해서는 변인 문서도 함께 참고.
한편 예측모델은 통계학이나 데이터과학, 기상학, 경제학, 사회학, 인구학 등에서 사용된다. 예측을 위해서는 통계적 방법 중에서도 특히 회귀 분석에 의지하기에 회귀모델이라고도 불린다. 이런 모델을 만드는 목적은 특정 조건 하에서 관심의 대상이 되는 변인이 갖게 될 값을 예측하는 데 있다. 다시 말하면 회귀식에 존재하는 다양한 x 값들의 회귀계수가 각각 특정한 값으로 나타날 때 y 값이 얼마로 예측되는지를 알기 위한 회귀식을 수립하는 과정이다. 다양한 분야 중에서도 경제학은 좋은 예측모델을 세우는 학자가 그만큼 명성을 얻고, 기상학은 날씨예보에 좋은 예측모델이 없으면 욕을 바가지로 먹는 걸 넘어서 엄청난 사회적 손실이 초래되는 학문이다.
언급된 두 가지외에 다른 중요한 종류는 생성모델 (Generative model)이다. 대표적인 예로는 베이지안 알고리즘, 딥페이크에 사용되는 생성적 적대 신경망, ChatGPT의 기반이 되는 GPT (Generative Pre-trained Transformer) 등이 있다. 위의 예측모델과 비슷한데, 예측모델은 모델의 입력값과 출력값이 정해져있는 반면 (deterministic), 생성모델은 입력값에 따른 출력값이 정해져있지 않고 학습된 확률분포 내에서 매번 다르게 나온다 (stochastic).
2.1. 데이터 모형
정보화 사회가 되면서 데이터를 바탕으로 한 예측모델의 중요성이 점점 더 커지고 있는 추세이다. 유행처럼 번진 빅데이터 열풍도, 이거라면 더 정확한 예측을 할 수 있는 모델이 만들어질 수 있으리라는 기대에서 환영받은 것에 가깝다. 예측모델은 훈련(training)→테스트(testing)→적용(deploying) 단계를 거쳐서 도입되는데, 좋은 모델이 나오려면 훈련용 데이터가 좋아야 한다. 현실을 본뜬 얼개를 통해서 현실을 예측해 보겠다는 게 모델링인데, 그 얼개가 현실과 어긋나게 만들어지면 예측의 의미가 없기 때문이다. 따라서 현실과 크게 어긋나지 않는 데이터를 훈련용으로 사용하는 것이 좋다.그런데 다른 한편으로, 훈련용 데이터에 너무 집착하는 것도 좋은 모델링에 실패하는 지름길이다. 훈련용 데이터는 단지 현실의 일부일 뿐이고, 더욱 일반화된 복잡 다양한 현실 속에서 모델의 예측이 원활하게 진행되려면 훈련용 데이터를 '적당히 참고만 하는' 지혜가 필요하다. 훈련용 데이터의 일반적 측면은 모델에 포함시키되, 특수한 측면은 과감히 배제할 필요가 있는 것이다. 여기서 모델이 훈련용 데이터의 일반적 측면을 제대로 훈련하지 못한 상황을 과소적합(under-fitting) 상태라고 하고, 특수한 측면까지 쓸데없이 훈련한 상황을 과(대)적합(over-fitting) 상태라고 한다.
모델의 과적합 문제는 예측모델을 세우는 통계학자들의 주적과도 같으며, 특히 기계학습 분야에서 기본 중의 기본 개념으로 다루어지고 있다. 인간의 학습을 예로 들면, 훈련용 데이터를 수학의 정석 연습문제로 비유할 경우, 수능에서 기대하는 폭넓은 수학적 문제해결 능력을 길러야 하는데 '정석스러운' 문제유형에만 무한정 익숙해지는 상황이다. 다양한 유형의 문제를 풀 수 있어야 하는데 정석만 과잉학습해서 거기 나온 수학문제들만 잘 푸는 것이다.[2][3] 통계학자들은 편의-분산 상충관계(bias-variance tradeoff)라는 관점에서 과적합 문제에 접근하기도 한다.[4]
머신러닝 분야에서는 모델링의 결과물이 어떻게 될지를 분석가가 아는 경우도 있고 모르는 경우도 있다. 모델이 어떻게 생겨먹었는지를 안다는 것은 결국, 그 모델의 계산을 수행하는 컴퓨터에게 분석가가 모델링에 활용할 최소한의 판단의 기준점이나 목표, 방향, 모델의 정교성의 정도 등을 가르쳐 준다는 얘기다. 이것은 교사적 혹은 지도적(supervised)인 방식의 모델링이다. 이때는 모델의 예측성능을 평가하기 위해 혼동행렬(confusion matrix)이 쓰인다. 반면 분석가 본인조차도 어떻게 모델을 만들어야 할지 모르는 채 컴퓨터에게 훈련용 데이터만 던져주고는 "이거 어떻게 잘 좀 해봐"(…) 하고 시키는 상황도 있다. 이런 터무니없는 요구에 컴퓨터는 맨땅에 헤딩하는 식으로 경험을 축적하면서 최적의 모델을 가늠해 갈 수밖에 없다. 이것은 비교사적 혹은 비지도적(unsupervised)인 방식의 모델링이다. 이상의 내용은 구글이 알파고의 바둑 학습 과정을 소개하면서 대중에게도 널리 알려졌다.
3. 컴퓨터 그래픽의 모델링
3D 형상 제작 과정 | |||||
모델링(Modeling) | 렌더링(Rendering) | ||||
투영(Projection) | 클리핑(Clipping) | 은면처리(Hidden Surface) | 셰이딩(Shading) | 매핑(Mapping) |
컴퓨터 공학에서 모델링은 컴퓨터 그래픽을 이용해 컴퓨터 내부의 가상공간에 3차원 모형을 만들어내는 행위를 의미한다. 이 일을 하는 사람들은 모델러라고 불린다. 주로 3D 그래픽 툴을 이용하며, 결과물을 현실의 물체와 달리 데이터로 저장한다. 이에 대한 결과물을 모형(모델)이라고 한다.[5]
모델링된 3D 모형은 프레임마다 움직이게 변하도록 애니메이션을 주어 동영상으로 출력하거나, 프로그래밍과 결합해 시뮬레이션 혹은 게임으로 저장하거나, 3D 프린터를 이용해 실제 모형으로 출력할 수도 있다. 그 외에도 2차원 이미지에 비해 활용도가 무궁무진하기 때문에 현재 3차원 모델링은 영화, 애니메이션, 광고의 특수효과 제작 및 전반적 제작, 물리적 실험용 시뮬레이션, 건축과 디자인 분야, 그리고 최근에는 3D 프린터를 이용한 제품 생산까지 매우 다양한 분야에서 요구되고 있다.
모델링을 끝낸 3차원 모형은 재질과 조명 등을 설정하여 실제 물체와 비슷한 질감으로 보이도록 결과를 출력할 수 있는데, 이런 출력과정을 렌더링(Rendering)이라고 한다.[6]
일반적으로는 모델링하려는 물체의 사진에서 선을 따내고, 그 다음 옆방향에서 면을 하나 하나씩 붙이고, 물체의 대략적인 형태가 완성되면 세부적으로 다듬는 방법을 쓰지만, 모델과 비슷한 모양의 3D 물체를 생성한 후 세부적으로 다듬는 경우도 있고, 아예 모델을 3D 카메라로 스캔해버리는 방법도 있다.[7]
모델링을 할 때 물체의 입체적인 면을 나타내는 방법으로는 크게 두가지가 있는데, 하나는 근사적 표현 방식이고, 다른 하나는 자동 계산 방식이다. 전자는 모든 물체를 이루는 면은 미세한 다각형으로 되어있다고 생각하여 모든 물체의 면을 폴리곤으로 처리하는 방식이다.[8] 사용된 폴리곤의 수에 따라 모형의 정확도가 결정되며, 폴리곤이 많을수록 용량 또한 기하급수적으로 늘어난다. 주로 기계나 건축설계, 또는 속도가 중요한 게임 모델링에서 사용한다. 후자는 물체의 모양을 이루는 꼭지점을 필요할 만큼만 찍고 물체의 면은 그 꼭지점을 기준으로 컴퓨터가 자동으로 계산해서 보여주게 만드는 방식이다. 대체로 폴리곤 방식보다 적은 용량으로도 매끈하고 섬세한 결과물이 나오는데, 특히 비균일 유리 B-스플라인(NURBS) 방식은 복잡한 형태의 곡면을 정확하게 표현할 수 있어 유기체나 캐릭터, 유선형 제품 모델링에서 주로 쓰인다. 다만 결과를 처리하는데 근사적 표현 방식보다 긴 시간이 필요하기 때문에 시뮬레이션이나 게임용으로는 아직 적합하지 않다.
보통 시중에 나온 그래픽 관련 교보재 등에서는 다음과 같은 모델링 방식이 있다고 가르친다. 물론 실제로 모델링 방식은 이보다 더 다양하다.
- 와이어프레임 모델(Wireframe):
이름 그대로 골격만 모델링하는 방식이다. 생김새 대로 굉장히 오래된 모델링 방식이며, 모델링에 걸리는 시간이 빠르기 때문에 주로 프로토타입 작업용으로 쓰인다. 1972년에 이 방식을 이용해서 최초의 단편 애니메이션을 만들기도 했다. 위 사진은 보이지 않는 면에 대해서도 선이 보인다. 이러한 선들을 제거하는 기술이 바로 은선(Hidden Line) 제거 기술이다. - 솔리드 모델(Solid): 입체 내부까지 채우면서 모델링한다.
- 서페이스 모델(Surface): 삼각형이나 사각형 같은 면, 즉 폴리곤을 기본 단위로 해서 표면만을 모델링한다.
- 파라메트릭 모델(Parametric): 수식을 이용한 모델링. 주로 곡면 등의 모델링에 이용된다.
- 프랙털 모델(Fractal): 프랙털 이론을 응용하여 단순한 모양을 복잡한 모양으로 발전시킨다.
- 파티클 모델(Particle): 불, 연기, 안개 등의 입자 표현에 주로 쓰이는 모델링 방식이다.
3.1. 모델의 잘못된 쓰임
모델링은 엄연히 모델을 만드는 행위이고 결과물은 모델임에도 한국에서는 결과물까지도 모델링으로 잘못 부르는 일이 많다.4. 건축용어
위의 3차원 모델링처럼 건축으로 건물을 계획한대로 쌓아올리는 행위, 또는 인테리어 디자인을 계획한대로 배치하는 행위.모델링 단어 자체보다는 재건축, 재디자인을 뜻하는 리모델링이란 단어로 훨씬 자주 쓰인다.
5. 아동발달 용어
단순히 타인의 행동을 관찰하는 것만으로 그 행동을 할 가능성이 증가하는 현상을 말한다. 특히, 어린 나이에 많이 보이는 현상이다. 사회학습 문서도 함께 참고.[1] 수식에 기반한 그래프나 기하학적 도형, 글 등이 여기에 포함된다.[2] 물론 정석에 출제된 문제들의 수학적 가치는 낮지 않으며, 실제로 정석만 파고도 수리영역 고득점을 얻는 고등학생들도 꽤 있다. 훈련용 데이터의 품질이 중요한 이유도 바로 이것이다.[3] 여담으로 요즘 기조의 수능, 즉 킬러 몇개가 매우 어려운 게 아닌 잔잔한 준킬러가 곳곳에 포진된 수능에서 수학의 정석만으로 고득점을 맞는 학생이라면 무엇으로 공부하든 고득점을 맞을 가능성이 높다.이는 하드웨어의 중요성으로 볼 수 있다.[4] 과소적합 모델에서는 예측의 분산은 낮으나 편의가 높아지고, 과적합 모델에서는 예측의 편의는 낮으나 분산이 높아진다. 예측에 있어서 편의와 분산 모두가 낮은 것이 가장 이상적이지만 현실적으로 그것이 불가능하기에, 대부분의 예측모델은 적당한 편의와 적당한 분산을 갖는 수준에서 데이터의 훈련을 중도 종료한다.[5] 흔히 이러한 결과물에 해당하는 '모델'을 '모델링'이라고 부르는 사례가 많아졌으나 잘못된 표현이다. 비유하자면 요리 행위(조리)를 의미하는 cook 내지는 cooking 표현을 가지고 요리된 음식을 가리키는 단어로 잘못 쓰는 격이다.[6] 2021학년도 수능 국어에선 실제로 모델링,랜더링을 다룬 독서 지문이 출제됐다.[7] 3D 그래픽 극초창기엔 응용프로그램이고 뭐고 거의 없어서 이 방법을 썼다. 다만 당시 스캔 방법은 모형을 폴리곤화시킬 때 꼭지점에 해당하는 부분을 일일이 포인터로 찍어나가는 것이었다(...).[8] 모든 물체가 미세한 입자로 되어있다고 생각하여 물체의 면을 픽셀로 쌓아올려 표현하는 복셀 방식도 있다.