나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2025-04-19 22:08:54

RLHF


[[컴퓨터공학|컴퓨터 과학 & 공학
Computer Science & Engineering
]]
[ 펼치기 · 접기 ]
||<tablebgcolor=#fff,#1c1d1f><tablecolor=#373a3c,#ddd><colkeepall><colbgcolor=#0066DC><colcolor=white> 기반 학문 ||수학(해석학 · 이산수학 · 수리논리학 · 선형대수학 · 미적분학 · 미분방정식 · 대수학(환론 · 범주론) · 정수론) · 이론 컴퓨터 과학 · 암호학 · 전자공학 · 언어학(형태론 · 통사론 · 의미론 · 화용론 · 음운론) · 인지과학 ||
하드웨어 구성 SoC · CPU · GPU(그래픽 카드 · GPGPU) · ROM · RAM · SSD · HDD · 참조: 틀:컴퓨터 부품
기술 기계어 · 어셈블리어 · 바이오스 · 절차적 프로그래밍 · 객체 지향 프로그래밍 · 함수형 프로그래밍 · 해킹 · ROT13 · 일회용 비밀번호 · 사물인터넷 · 와이파이 · GPS · 임베디드 · 인공신경망 · OpenGL · EXIF · 마이크로아키텍처 · ACPI · UEFI · NERF · gRPC · 리버스 엔지니어링 · HCI · UI · UX · 대역폭 · DBMS · NoSQL · 해시(SHA · 브루트 포스 · 레인보우 테이블 · salt · 암호화폐) · RSA 암호화 · 하드웨어 가속
연구 및 기타 논리 회로(보수기 · 가산기 · 논리 연산 · 불 대수 · 플립플롭) · 정보이론 · 임베디드 시스템 · 운영체제(멀티태스킹 · 프로세스 스케줄링 · 데드락 · 식사하는 철학자 문제 · 뮤텍스 · 세마포어 · 인터럽트) · 데이터베이스 · 컴퓨터 언어 · 프로그래밍 언어{컴파일러(어셈블러 · JIT) · 인터프리터 · 유형 이론 · 어휘 분석 · 파싱 · 링커 · 난해한 프로그래밍 언어} · 마크업 언어 · 메타데이터 · 기계학습 · 빅데이터 · 폰노이만 구조 · 양자컴퓨터 · 행위자 모델 · 인코딩(유니코드 · MBCS) · 네트워크(네트워크 포트) · 컴퓨터 보안 · OCR · 슈퍼컴퓨터 · 튜링 머신 · FPGA · 딥러닝 · 컴퓨터 구조론 · 컴퓨터 비전 · 컴퓨터 그래픽스 · 인공지능 · 시간 복잡도(최적화) · 소프트웨어 개발 방법론 · 디자인 패턴 · 정보처리이론 · 재귀 이론 · 자연어 처리(기계 번역 · 음성인식) · 버전 (버전 관리 시스템)

학습
행동학습 인지학습 기계학습심층학습
비연합학습 연합학습 사회학습 잠재학습 통찰학습 지도학습 비지도학습 강화학습
습관화 민감화 고전적 조건형성 도구적 조건형성



1. 개요2. 작동 원리3. 도입 시 장점4. 한계5. 주요 활용 사례

1. 개요

파일:IMG_215333739.jpg
RLHF를 쇼거스가 쓴 스마일리 가면으로 묘사한 밈 'AI Shoggoth'
RLHF는 Reinforcement Learning from Human Feedback의 약자로 인간의 피드백을 통한 강화학습.
LLM을 미세 조정(Fine-tuning)하는 기법이다. RLHF에서는 인간이 직접 '좋다/나쁘다' 혹은 'A가 B보다 낫다' 등으로 AI 생성물에 대해 평가해주면 AI가 이 피드백을 학습해 인간이 선호하는 산출물을 내뱉게 된다.

ChatGPT, Claude와 같은 최신 챗봇 AI들의 성능 향상에 결정적인 역할을 한 기술 중 하나로 꼽힌다. 기존의 방식으로는 정의하기 어려웠던 '좋은 답변', '유용한 답변'과 같은 추상적인 목표를 인간의 선호를 직접 반영해 달성하려는 시도 중에 하나였고 이게 ChatGPT로 큰 대박을 치게 된다.

아무래도 인간 평가자가 들어가는만큼 비용이나 확장성 문제가 존재하며 이런 문제점을 해결하기 위해 AI가 생성한 피드백을 활용하는 RLAIF(Reinforcement Learning from AI Feedback) 등의 후속 연구도 속속들이 진행되고 있다. 2025년 초에는 딥시크의 추론 인공지능인 R1이 학습 파이프라인에서 RLHF 과정을 생략했다고 밝혀 파장을 일으키기도 했다.

2. 작동 원리

RLHF는 크게 3단계로 진행된다.

1. 사전훈련(Pre-training)된 언어 모델 준비2. 보상 모델(Reward Model) 훈련3. 강화학습을 이용한 미세 조정(Fine-tuning)
결과적으로 RLHF를 거친 모델은 기술적으로 정확할 뿐 아니라 인간 사용자가 느끼기에 더 자연스럽고 유용하며 안전한 결과물을 생성할 수 있게 된다.

3. 도입 시 장점

4. 한계

5. 주요 활용 사례



[1] 안드레 카파시(Andrej Karpathy)는 한 트위터 포스트에서 RLHF는 진정한 의미의 강화학습이라고 보기 어렵다는 의견을 내비쳤었다.