o3은(는) 여기로 연결됩니다.
기체에 대한 내용은 오존 문서 참고하십시오. {{{#!wiki style="margin:0 -10px -5px" {{{#000,#fff {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" {{{#000,#e5e5e5 | 제품군 | |
<bgcolor=#000> 서비스 | ChatGPT, OpenAI(인공지능) | |
모델 | GPT-1, GPT-2, GPT-3(GPT-3.5), GPT-4(GPT-4 Turbo, GPT-4o, GPT-4o mini), GPT-5(개발 중) o1(o1-preview, o1-mini, o1 pro mode), o3(o3-mini) | |
DALL·E, Codex, CLIP, Whisper, Voice Engine, Sora, SearchGPT | ||
관련 인물 | ||
일론 머스크, 샘 올트먼, 미라 무라티, 일리야 수츠케버, 안드레 카파시, 그렉 브록만, 다리오 아모데이 | ||
관련 기업 | ||
마이크로소프트 |
OpenAI o3 | |
출시일 | 2025년 예정 |
발표일 | 2024년 12월 21일 |
개발사 | OpenAI |
기능 | 추론 특화 멀티모달 모델 |
하드웨어 | NVIDIA H100 |
라이선스 | Proprietary Software |
링크 |
[clearfix]
1. 개요
OpenAI가 개발한 추론형 멀티모달 모델. o3와 경량화 된 o3-mini 모델로 나뉘며, 2025년에 정식으로 출시될 예정이다.
o1의 후속 모델이지만 영국의 이동통신 브랜드 O2와의 상표권 분쟁을 피하기 위해 o2가 아닌 o3으로 명명되었다.
2. 성능
2.1. o3
GitHub에서 가져온 데이터를 기반으로 실무적인 코딩 실력을 평가하는 SWE-bench에서 71.7점으로 지금까지 발표된 모델 중 가장 뛰어난 점수를 받았다. 또한 Codeforces의 경우 2727점으로 상위 0.2퍼센트에 해당하는 점수를 받았다. SWE-bench 문제의 77.8퍼센트는 숙련된 개발자가 1시간 안에 해결할 수 있는 문제라고 추정되기 때문에, o3가 알고리즘 등에는 어지간한 개발자들보다 뛰어날 수 있으나 실무적인 개발에 있어서는 아직 사람을 완전히 대체하기는 어렵다고 볼 수 있다.
2024년 AIME 시험에서는 96.7점으로 한 문제만 틀려서 만점에 가까운 점수를 받았다. 박사 수준의 과학 문제 역시 87.7점으로 상당히 높은 점수를 받았다.
인간에게는 어렵지 않지만 AI에게는 어려운 문제들로 구성된 ARC-AGI에서 87.5점을 받아 인간 전문가 수준인 85점을 넘어 AGI 타이틀을 획득하였다. 이 때문에 후속 ARC 벤치마크가 나올 것이라고 한다. 그러나 해당 점수를 얻기 위하여 한 문제에만 3,440달러, 다시 말해 약 500만원 정도를 소요한 것으로 밝혀져 비용 측면에 있어 논란이 되었다. 문제당 20달러를 썼을 때에는 75.7점을 받았으며, 87.5점을 받기 위한 상태의 모델은 비용 때문에 상용화까지 시간이 필요할 것으로 보인다.
게다가 o3가 틀린 문제들과 o3의 답변들을 보면 일반적인 사람들이라면 틀리지 않을 문제들을 황당하게 푸는 모습들을 많이 보여주기 때문에, 진정한 의미로 이 분야에 있어 인간 수준까지 올라왔다고 보기는 힘들다.
가장 쉬운 문제도 국제수학올림피아드나 퍼트넘 경시대회 문제 수준인 Frontier Math에서 25.2점을 기록하였다. Will Depue라는 OpenAI의 개발자는 2025년 말까지 OpenAI가 Frontier Math에서 90점을 맞는 모델을 만들어 낼 것이라고 예상했다.#
o1-preview 발표 3개월 후에 발표되었고 AGI 달성이 머지 않았다 싶은 성능을 보여주었지만, 모라벡의 역설 문제가 여전히 남아있는데다가, 추론 비용이 상당히 비싸다는 문제가 있어서 일반인이 o3 수준의 모델을 저렴하게 사용하려면 시일이 필요할 것으로 보인다. 그럼에도 o1-preview 발표 이후 고작 3개월만에 이 정도로 성능이 향상됐다는 것과 발전의 추세선은, 이젠 정말로 AGI 도달이 얼마 남지 않았음을 시사한다.
2.2. o3-mini
o3를 경량화 한 o3-mini 모델 역시 발표되었으며, 벤치마크상으로는 OpenAI o1에 필적하거나 그 이상의 성능을 보여주었고, 무엇보다 비용이 o3는 물론이고 o1에 비해서도 훨씬 저렴하다.Codeforces에서 o1보다 훨씬 적은 비용으로 o1을 압도하는 성과를 내었으며, o3-mini(low)와 o3-mini(medium)의 경우 o1-mini보다 비용은 적게 들면서 성능은 오히려 더 뛰어났다.
그 밖의 벤치마크들에서도 o3-mini는 o1에 별로 밀리지 않는 성능을 보여주었으며, o1의 대체재 역할을 하게 될 것이 유력해 보인다.
3. 타임라인
- 2024년 12월 21일, 연구자들을 대상으로 안전 테스트 격의 얼리 엑세스 제공을 개시했다.#
4. 여담
- 추론 분야에서 일하는 OpenAI의 개발자 Noam Brown은 X에 3개월 전에 발표한 o1 대비 o3의 성능이 크게 발전한 그래프를 올리며 이러한 추세가 계속될 것이라고 확신있게 예측했다.#