자기회귀모델

<nopad> 생성형 인공지능 관련 문서
{{{#!wiki style="margin: 0 -10px -5px; min-height: calc(1.5em + 5px)" {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin: -5px -1px -11px"	<colbgcolor=#212121,#333541><colcolor=#fff,#fff> 종류	대화형 인공지능 (주요 목록) · 코드 생성 인공지능 · 그림 인공지능 · 영상 인공지능 · 음향 인공지능 · 3D 모델링· 지능형 에이전트 · VLA · 멀티모달 모델 · 언어 모델 · 월드 모델
프롬프트	프롬프트 · 프롬프트 엔지니어링 · 프롬프트 해킹
아키텍처	트랜스포머 · GAN · 확산 모델 · 변분 오토인코더 · 자기회귀모델
학습	자기지도학습 · 강화학습 (RLHF)
응용	AI 개요 · 인공지능 검색 엔진 · 바이브 코딩 · 인공지능 로봇 (테슬라 옵티머스) · AI 신약개발
문화·밈	AI 커버 · 쇼거스 · 인공지능 버츄얼 유튜버 · ChatGPT 지브리풍 이미지 생성 유행
기타	AI 슬롭 · AI wrapper · 인공지능 환각 · 인공지능 벤치마크 · Model Context Protocol · 대중화 · 인공 일반 지능 · 인공지능 정렬 · Spiritual bliss attractor	}}}}}}}}}

1. 개요2. 핵심 원리3. 주요 아키텍처4. 생성 과정 및 샘플링 전략5. 장단점

5.1. 장점5.2. 단점

6. 비-자기회귀모델과의 비교

1. 개요

인공신경망 분야에서 자기회귀모델(Autoregressive Model)은 주로 순차적인 데이터(sequence data)를 생성하는 방식을 지칭한다. 전통적인 시계열 분석의 자기회귀모형에서 이름을 따왔지만, 선형 관계와 고정된 계수를 가정하는 통계적 AR 모형과는 달리, 복잡한 비선형 관계를 학습할 수 있는 인공신경망을 기반으로 한다.

핵심 아이디어는 이전 단계까지 생성된 결과물을 다음 단계의 입력으로 사용해 순차적으로 데이터를 생성해나가는 것이다. 즉, 모델이 자기 자신의 과거 출력(output)을 참조하여 다음 출력([math(t)] 시점)을 결정하는([math(P(x_t | x_1, ..., x_{t-1}))]) 구조다. 이러한 단계적 생성 방식 때문에 '자기회귀적'이라고 불린다.

주로 자연어 처리(NLP), 컴퓨터 비전(CV), 음성 처리 등 다양한 분야의 생성 모델(Generative Model)에서 핵심적인 방법론으로 사용된다.

2. 핵심 원리

자기회귀모형은 시퀀스 데이터 [math(X = (x_1, x_2, ..., x_T))]의 결합 확률 분포 [math(P(X))]를 조건부 확률의 연쇄 법칙(chain rule)을 이용해 다음과 같이 분해하여 모델링한다.

[math(P(X) = P(x_1, ..., x_T) = P(x_1) P(x_2|x_1) P(x_3|x_1, x_2) \cdots P(x_T|x_{<T}) = \prod_{t=1}^{T} P(x_t | x_{<t}))]

여기서 [math(x_t)]는 시퀀스의 [math(t)]번째 요소이고[1] [math(x_{<t})]는 [math(t)]번째 요소 이전까지 생성된 모든 요소 [math((x_1, ..., x_{t-1}))]를 의미한다.

인공신경망은 각 단계 [math(t)]에서 이전까지의 시퀀스 [math(x_{<t})]를 입력받아, 다음 요소 [math(x_t)]가 나타날 조건부 확률 분포 [math(P(x_t | x_{<t}))]를 학습한다. 새로운 시퀀스를 생성할 때는, 모델이 예측한 이 확률 분포로부터 다음 요소 [math(x_t)]를 샘플링(또는 가장 확률 높은 요소 선택)하고, 이렇게 생성된 [math(x_t)]를 다시 다음 단계 [math(t+1)]의 입력으로 사용하는 과정을 시퀀스가 끝날 때까지 반복한다.

3. 주요 아키텍처

다양한 인공신경망 아키텍처가 자기회귀적 생성을 용도로 사용되고 있다.

순환 신경망(RNN, Recurrent Neural Network)
LSTM, GRU 등 RNN 계열 모델은 내부의 은닉 상태(hidden state)에 과거 시점의 정보를 요약하여 저장하고, 이를 다음 시점의 출력을 예측하는 데 활용한다. 이러한 순차적 처리 방식은 자기회귀 모델링에 자연스럽게 부합한다.

합성곱 신경망(CNN, Convolutional Neural Network)
WaveNet(오디오 생성), PixelCNN/PixelRNN(이미지 생성) 등은 마스크드 컨볼루션(Masked Convolution) 기법을 사용한다. 컨볼루션 필터가 미래 시점의 정보를 보지 못하도록 마스크를 씌우는 방식으로 CNN 구조에서도 자기회귀적 모델링이 가능해진다.

트랜스포머 디코더(Transformer decoder)
GPT(Generative Pre-trained Transformer)와 같은 LLM의 디코더(Decoder) 구조에서 자기회귀적 생성을 핵심으로 사용한다. 마스크드 셀프 어텐션(Masked Self-Attention) 메커니즘을 통해, 현재 위치 [math(t)]의 요소를 예측할 때 오직 이전 위치([math(1)]부터 [math(t-1)]까지)의 정보만을 참조하도록 강제한다. 이로 인해 병렬 학습이 가능하면서도 자기회귀적 생성 능력을 갖추게 된다.

4. 생성 과정 및 샘플링 전략

학습된 자기회귀모델로부터 실제 시퀀스를 생성할 때는 각 단계에서 예측된 확률 분포 [math(P(x_t | x_{<t}))]로부터 다음 요소 [math(x_t)]를 선택해야 한다. 이때 사용되는 주요 전략은 다음과 같다.

탐욕적 디코딩(Greedy Decoding): 각 단계에서 가장 확률이 높은 요소 하나만을 선택한다. 가장 간단하지만, 국소 최적해에 빠지기 쉽고 다양성이 부족하다.
빔 서치 (Beam Search): 각 단계에서 확률이 높은 상위 [math(k)]개(빔 크기)의 후보 시퀀스를 유지하며 탐색한다. 탐욕적 방식보다 전역적으로 더 나은 시퀀스를 찾을 가능성이 높지만, 여전히 결정론적이고 다양성이 부족할 수 있다.
랜덤 샘플링: 확률 분포에 따라 다음 요소를 무작위로 샘플링한다. 생성 결과의 다양성을 높이고 더 자연스러운 결과를 만들 수 있다.
Top-k 샘플링: 확률 분포에서 가장 확률 높은 상위 [math(k)]개의 요소 중에서만 샘플링한다.
Nucleus Sampling (Top-p 샘플링): 확률 값의 합이 특정 임계값 [math(p)]이상이 되는 최소한의 상위 요소 집합(nucleus) 내에서 샘플링한다. 확률 분포의 모양에 따라 동적으로 후보군 크기를 조절한다.

5. 장단점

5.1. 장점

자기회귀 모델은 순차적 생성 방식 덕분에 여러 강력한 장점을 갖는다. 가장 큰 장점은 시퀀스 내 요소들 간의 복잡하고 장기적인 의존성을 효과적으로 모델링한다는 것. 이 능력 덕분에 텍스트, 오디오, 이미지 등 다양한 영역에서 매우 높은 품질과 현실적인 생성 결과를 보인다. dllm이 아직 언어모델의 주류가 되지 못하는 것이 바로 이 때문. 이미지 생성 영역에서도 자기회귀모델은 ChatGPT 지브리풍 이미지 생성 유행에서 입증되었듯 이미지 내 텍스트 및 맥락 처리에 뛰어난 강점을 보인다.

한편 조건부 확률 [math(P(x_t | x_{<t}))]을 명시적으로 모델링한다는 것도 큰 장점이라고 할 수 있다. 생성 과정에 대한 명확한 확률론적 해석이 가능해지기 때문이다. 따라서 이를 기반으로 빔 서치(Beam Search)나 다양한 샘플링 기법 같은 정교한 생성 전략을 유연하게 적용할 수 있게 된다.

5.2. 단점

자기회귀모델의 순차적 의존성은 몇 가지 본질적인 한계를 갖고 있는데 가장 대표적인 단점은 추론 속도가 매우 느리다는 것이다. 자기회귀모델에서는 다음 토큰을 생성하기 전에 이전 토큰이 반드시 먼저 생성되어야 하므로 병렬 처리가 불가능하다. 특히 이런 단점은 대규모 언어 모델(LLM)과 같이 매우 긴 시퀀스를 생성할 때 두드러진다. 이처럼 자기회귀모델기반 llm이 가진 고질적 문제인 심각한 병목 현상을 예방하기 위해, dllm(diffusion large language model)같은 대안들이 활발히 논의되고 있다.

자기회귀모델의 또 다른 단점으로는 오류 전파(Error Propagation)를 들 수 있다. 생성 초기에 잘못된 토큰이 샘플링되면 이 오류가 다음 단계의 입력으로 계속 사용되면서 누적된다. 결국 이 작은 실수가 최종 결과물의 품질을 파국적으로 크게 저하시킬 수 있는 것이다.

마지막으로 지적할만한 한계는 훈련과 추론 환경의 불일치, 즉 노출 편향(Exposure Bias)이 존재한다는 것이다. 모델은 훈련 시에는 실제 정답(ground-truth)을 입력받는 '교사 강요(Teacher Forcing)' 방식으로 학습한다. 하지만 실제 추론 시에는 모델 자신이 생성한, 잠재적 오류를 포함한 출력을 다음 입력으로 사용해야 한다. 이 불일치로 인해 모델은 자신의 실수에 대처하는 능력이 떨어져 실제 생성 환경에서 품질 저하를 겪게 된다.

6. 비-자기회귀모델과의 비교

자기회귀모델의 가장 큰 단점인 느린 생성 속도를 개선하기 위해 비-자기회귀(Non-Autoregressive, NAR) 또는 준-자기회귀(Semi-Autoregressive) 모델 연구가 활발히 진행되고 있다. 디퓨전 모델 등의 NAR 모델은 시퀀스의 전체 또는 여러 요소를 병렬적으로 동시에 생성하여 속도를 크게 향상시키는 것을 목표로 한다.

하지만 NAR 모델은 일반적으로 요소 간의 의존성을 모델링하기 어렵기 때문에 자기회귀모델만큼의 생성 품질을 달성하기 어렵다는 단점이 있다. 이를 보완하기 위해 반복적인 정제(Iterative Refinement), 지식 증류(Knowledge Distillation), 잠재 변수(Latent Variable) 도입 등 다양한 기법이 연구되고 있다.

[1] 자연어 처리의 토큰, 컴퓨터 비전의 픽셀, 음성 처리의 오디오 샘플이 이에 해당한다

자기회귀모델

1. 개요

2. 핵심 원리

3. 주요 아키텍처

4. 생성 과정 및 샘플링 전략

5. 장단점

5.1. 장점

5.2. 단점

6. 비-자기회귀모델과의 비교

분류