나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2025-02-18 17:18:32

OpenAI o3

파일:다른 뜻 아이콘.svg  
,
,
,
,
,
,
,
,
,
은(는) 여기로 연결됩니다.
다른 뜻에 대한 내용은 아래 문서를
기체에 대한 내용은 오존 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
부분을
, 에 대한 내용은 문서
번 문단을
부분을
다른 뜻에 대한 내용은 아래 문서를
참고하십시오.

*
기체:
오존
문서의 번 문단
문서의 부분
*
:
문서의 번 문단
문서의 부분
*
:
문서의 번 문단
문서의 부분
*
:
문서의 번 문단
문서의 부분
*
:
문서의 번 문단
문서의 부분
*
:
문서의 번 문단
문서의 부분
*
:
문서의 번 문단
문서의 부분
*
:
문서의 번 문단
문서의 부분
*
:
문서의 번 문단
문서의 부분
*
:
문서의 번 문단
문서의 부분

파일:OpenAI-black-wordmark-crop.svg파일:OpenAI-white-wordmark-crop.svg
{{{#!wiki style="margin:0 -10px -5px"
{{{#000,#fff {{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-6px -1px -11px"
{{{#000,#e5e5e5
<colkeepall> 제품군
서비스 ChatGPT, OpenAI(인공지능), Operator
모델 GPT-1, GPT-2, GPT-3(GPT-3.5), GPT-4(GPT-4 Turbo, GPT-4o, GPT-4o mini, GPT-4.5(개발 중)), GPT-5(개발 중)
o1(o1-preview, o1-mini, o1 pro mode), o3(o3-mini)
DALL·E, Codex, CLIP, Whisper, Voice Engine, Sora, SearchGPT, CUA
관련 인물
일론 머스크, 샘 올트먼, 미라 무라티, 일리야 수츠케버, 안드레 카파시, 그렉 브록만, 다리오 아모데이
관련 기업
마이크로소프트
}}}}}}}}}}}}}}} ||
생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
유니모달 모델 기반
<colkeepall> 텍스트 [[소설|
소설
]] NovelAI · AI Dungeon · AI Novelist
대화형 [[챗봇|
챗봇
]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok
[[언어 모델|
언어모델
]] GPT · LLaMA · Gemma · Claude · Phi · Exaone · OpenELM · Qwen · DeepSeek
코드 [[코드#컴퓨터 소프트웨어|
코드
]] GitHub Copilot · Devin · Phind · DeepSeek
이미지 [[그림 인공지능|
그림
]] Midjourney · DALL·E · Imagen · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly
[[영상 인공지능|
영상
]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Kling AI
[[모델링|
모델링
]] LATTE3D
오디오
소리
[[음성|
음성
]] A.I.VOICE · DeepVocal · Voice Engine
[[음악|
음악
]] Suno · Stable Audio · Udio · AIVA
멀티모달 모델 기반
대화형
+이미지
Exaone 3.5 · Samsung Gauss
+음성/이미지
GPT-4o · GPT-5 · Gemini · o1 · o3 · DeepSeek
+에이전트
Galaxy AI · Claude 3.7 Sonnet
행위
동작
[[지능형 에이전트|
에이전트
]] Apple Intelligence · Project Astra · Operator · Google Jarvis
[[인공지능 로봇|
체화
]] Tesla optimus · Google RT-X · Project Gr00t
}}}}}}}}}

OpenAI o3
출시일 2025년 2월 1일[1]
발표일 2024년 12월 21일
개발사 OpenAI
기능 추론 특화 멀티모달 모델
하드웨어 NVIDIA H100
라이선스 Proprietary Software
링크 파일:홈페이지 아이콘.svg

1. 개요2. 성능
2.1. o32.2. o3-mini
3. 타임라인4. 여담

[clearfix]

1. 개요


OpenAI가 개발한 추론형 멀티모달 모델. o3와 경량화 된 o3-mini 모델로 나뉜다.

o3-mini와 o3-mini-high는 2025년 2월 1일에 공개되었다.

o3 모델 역시 추후 출시가 될 것으로 보였으나 2025년 2월 샘 올트먼이 공개한 로드맵에서 o3를 GPT-5와 통합하고 독립형 제품으로는 공개하지 않겠다고 밝히면서 독립형 모델로써 출시는 무산되었다. 또한 o 시리즈를 GPT에 통합하겠다고 밝혔기 때문에 o3-mini가 o 시리즈의 마지막 독립형 제품이 될 것으로 보인다.

o1의 후속 모델이지만 영국의 이동통신 브랜드 O2와의 상표권 분쟁을 피하기 위해 o2가 아닌 o3으로 명명되었다.

2. 성능

2.1. o3

파일:o3_1d.png

GitHub에서 가져온 데이터를 기반으로 실무적인 코딩 실력을 평가하는 SWE-bench에서 71.7점으로 지금까지 발표된 모델 중 가장 뛰어난 점수를 받았다. 또한 Codeforces의 경우 2727점으로 상위 0.2퍼센트에 해당하는 점수를 받았다. 그러나 SWE-bench 문제의 77.8퍼센트는 숙련된 개발자가 1시간 안에 해결할 수 있는 문제라고 추정되기 때문에, o3가 알고리즘 등에는 어지간한 개발자들보다 뛰어날 수 있으나 실무적인 개발에 있어서는 아직 사람을 완전히 대체하기는 어렵다고 볼 수 있다.

파일:o3_2.png

2024년 AIME 시험에서는 96.7점으로 한 문제만 틀려서 만점에 가까운 점수를 받았다. 박사 수준의 과학 문제 역시 87.7점으로 상당히 높은 점수를 받았다.

파일:1734721292.png

인간에게는 어렵지 않지만 AI에게는 어려운 문제들로 구성된 ARC-AGI에서 87.5점을 받아 인간 평균 수준인 85점을 넘었다.[2] 하지만 2024년 말 기준 캐글의 경량 모델도 81%를 달성하는 등 벤치마크가 포화되고 있기 때문에 후속 ARC 벤치마크가 나올 것이라고 한다.#

그러나 o3는 해당 점수를 얻기 위하여 한 문제에만 3,440달러, 다시 말해 약 500만원 정도를 소요한 것으로 밝혀져 비용 측면에 있어 논란이 되었다. 문제당 20달러를 썼을 때에는 75.7점을 받았으며, 87.5점을 받기 위한 상태의 모델은 비용 때문에 상용화까지 시간이 필요할 것으로 보인다.

게다가 o3가 틀린 문제들과 o3의 답변들을 보면 일반적인 사람들이라면 틀리지 않을 문제들을 황당하게 푸는 모습들을 많이 보여주기 때문에, 진정한 의미로 이 분야에 있어 인간 수준까지 올라왔다고 보기는 힘들다.

파일:화면 캡처 2024-12-21 205316.png

가장 쉬운 문제도 국제수학올림피아드퍼트넘 경시대회 문제 수준인 Frontier Math에서 25.2점을 기록하였다. Will Depue라는 OpenAI의 개발자는 2025년 말까지 OpenAI가 Frontier Math에서 90점을 맞는 모델을 만들어 낼 것이라고 예상했다.#

o1-preview 발표 3개월 후에 발표되었고 AGI가 연상되는 성능을 보여주었지만, 모라벡의 역설 문제가 여전히 남아있는데다가, 추론 비용이 상당히 비싸다는 문제가 있어서 일반인이 o3 수준의 모델을 저렴하게 사용하려면 시일이 필요할 것으로 보인다.

deep research에 적용되었다.#

2025년 2월 13일, 샘 올트먼이 o 시리즈와 GPT 시리즈를 통합하는 것이 목표라고 밝혔으며, o3는 독립형 모델로 제공하지 않을 것임을 확인했다. #

2.2. o3-mini

o3를 경량화 한 o3-mini 모델 역시 발표되었으며, 벤치마크상으로는 OpenAI o1에 필적하거나 그 이상의 성능을 보여주었고, 무엇보다 비용이 o3는 물론이고 o1에 비해서도 훨씬 저렴하다.

파일:1734788729.png

Codeforces에서 o1보다 훨씬 적은 비용으로 o1을 압도하는 성과를 내었으며, o3-mini(low)와 o3-mini(medium)의 경우 o1-mini보다 비용은 적게 들면서 성능은 오히려 더 뛰어났다.

파일:화면 캡처 2024-12-21 225051.png

파일:화면 캡처 2024-12-21 225248.png

파일:safsdfsewer.png

그 밖의 벤치마크들에서도 o3-mini는 o1에 별로 밀리지 않는 성능을 보여주었으며, o1의 대체재 역할을 하게 될 것이 유력해 보인다.

o1이랑 마찬가지로 추론 과정에서 영어로만 질문 했는데 다른 언어[3]를 사용하는 현상을 보여준다.

수학과 코딩의 성능이나 복잡한 글을 독해하는 능력이 OpenAI에서 기존에 출시된 모델 대비 좋으며, 한국 문화에 대한 질문이나 어려운 언어 번역(표현이 생소할수록, 번역할 언어 자체가 잘 안 쓰이는 언어일수록 번역 성능이 낮다.)과 같은 문제를 해결하는데는 GPT-4o와 같은 OpenAI의 기존 모델에 비해서도 종종 어려움을 보였다. # 님의 침묵이라는 시는 GPT-4o도 한용운이 쓴 시임을 맞추지만 이 모델은 못 맞출 정도로 지식보다는 논리에 특화되어 있다. 2025학년도 수능의 경우 국어는 o1, Deepseek R1보다 더 많이 틀리고 수학은 더 잘 맞췄다는 보도가 있다. # 하지만 2025학년도 수능 국어 문제를 XML 형식으로 변환해서 풀게 하면 모두 맞춘 경우도 있다고 한다. 2025학년도 수학은 확률과 통계와 미적분은 100점, 기하는 96점이다. #

그러나 mini 시리즈 특유의 산으로 가는 응답 경향은 여전히 고쳐지지 않았다. 특히 지식이 빈약하다보니, 질문을 하면 원치 않는 정보를 끄집어내는 경우가 잦다.[4] 정보를 모호하게 주고 직접 확인하게 하는 형식의 질문은 지양하고, 직접 지식을 투여하고 분석만을 요청하는 것이 좋다. 여전히 영어로 번역하는지, 투입된 문장 자체를 정 반대로 이해하는 경우도 있다.

3. 타임라인

4. 여담



[1] o3-mini, o3-mini-high만[2] 인간 전문가의 평균 점수는 100%에 수렴한다.[3] 중국어, 러시아어[4] 완전히 틀린 정보를 끄집어내는 환각은 흔치 않다. 대신 핀트에 어긋나는 정보가 많이 나오는 편이다. 예를 들어, 어떤 옛 국가의 중심지를 물어봤더니 뜬금없이 식민지 시절의 중심지를 제시하는 일이 발생하곤 한다.