나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2025-07-13 20:21:25

RLHF

<nopad>
{{{#!wiki style="margin: 0 -10px -5px; min-height: calc(1.5em + 5px)"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -5px -1px -11px"
<colbgcolor=#2e3039,#2e3039><colcolor=#fff,#fff> 종류 대화형 인공지능 (주요 목록) · 코드 생성 인공지능 · 그림 인공지능 · 영상 인공지능 · 음향 인공지능 · 3D 모델링· 지능형 에이전트 · VLA · 멀티모달 모델 · 언어 모델 · 월드 모델
프롬프트 프롬프트 · 프롬프트 엔지니어링 · 프롬프트 해킹
아키텍처 트랜스포머 · GAN · 확산 모델 · 변분 오토인코더 · 자기회귀모델
학습 자기지도학습 · 강화학습 (RLHF)
응용 AI 개요 · 인공지능 검색 엔진 · 바이브 코딩 · 인공지능 로봇 (테슬라 옵티머스) · AI 신약개발
문화·밈 AI 커버 · 쇼거스 · 인공지능 버츄얼 유튜버 · ChatGPT 지브리풍 이미지 생성 유행 · 와... 너 정말, **핵심을 찔렀어.**
기타 AI 슬롭 · AI wrapper · 인공지능 환각 · 인공지능 벤치마크 · Model Context Protocol · 대중화 · 인공 일반 지능 · 인공지능 정렬 · Spiritual bliss attractor }}}}}}}}}


1. 개요2. 작동 원리3. 도입 시 장점4. 한계5. 주요 활용 사례

1. 개요

파일:IMG_215333739.jpg
RLHF를 쇼거스가 쓴 스마일리 가면으로 묘사한 밈 'AI Shoggoth'

Deep reinforcement learning from human preferences[1]
Training language models to follow instructions with human feedback[2]

RLHF는 Reinforcement Learning from Human Feedback의 약자로 이는 인간의 피드백을 통한 강화학습을 일컫는다.
LLM을 미세 조정(Fine-tuning)하는 기법으로 자주 사용된다. RLHF에서는 인간이 직접 '좋다/나쁘다' 혹은 'A가 B보다 낫다' 등으로 AI 생성물에 대해 평가해주면 AI가 이 피드백을 학습해 인간이 선호하는 산출물을 내뱉게 된다.

ChatGPT, Claude와 같은 최신 챗봇 AI들의 성능 향상에 결정적인 역할을 한 기술 중 하나로 꼽힌다. 기존의 방식으로는 정의하기 어려웠던 '좋은 답변', '유용한 답변'과 같은 추상적인 목표를 인간의 선호를 직접 반영해 달성하려는 시도 중에 하나였고 이게 ChatGPT로 큰 대박을 치게 된다.

아무래도 인간 평가자가 들어가는만큼 비용이나 확장성 문제가 존재하며 이런 문제점을 해결하기 위해 AI가 생성한 피드백을 활용하는 RLAIF(Reinforcement Learning from AI Feedback) 등의 후속 연구도 속속들이 진행되고 있다. 2025년 초에는 딥시크의 추론 인공지능인 R1이 학습 파이프라인에서 RLHF 과정을 생략했다고 밝혀 파장을 일으키기도 했다.

2. 작동 원리

언어모델에 사용되는 RLHF는 크게 3단계로 진행된다.

1. 사전훈련(Pre-training)된 언어 모델 준비
2. 보상 모델(Reward Model) 훈련3. 강화학습을 이용한 미세 조정(Fine-tuning)
결과적으로 RLHF를 거친 모델은 기술적으로 정확할 뿐 아니라 인간 사용자가 느끼기에 더 자연스럽고 유용하며 안전한 결과물을 생성할 수 있게 된다.

3. 도입 시 장점

4. 한계

5. 주요 활용 사례



[1] 가상 로봇을 제어하거나 혹은 아타리 게임을 수행하는 전형적인 강화학습 문제상황에 인간 선호도를 적용한 논문이다.[2] ChatGPT로 유명한 OpenAI에서 쓴 논문이다.[3] 안드레 카파시(Andrej Karpathy)는 한 트위터 포스트에서 RLHF는 진정한 의미의 강화학습이라고 보기 어렵다는 의견을 내비쳤었다.