| ||
{{{#!wiki style="margin:0 -10px -5px" {{{#000,#fff {{{#!folding [ 펼치기 · 접기 ] {{{#!wiki style="margin:-6px -1px -11px" {{{#000,#e5e5e5 | <colkeepall> 제품군 | |
서비스 | ChatGPT, OpenAI(인공지능), Operator | |
모델 | GPT-1, GPT-2, GPT-3(GPT-3.5), GPT-4(GPT-4 Turbo, GPT-4o, GPT-4o mini, GPT-4.5(개발 중)), GPT-5(개발 중) o1(o1-preview, o1-mini, o1 pro mode), o3(o3-mini) | |
DALL·E, Codex, CLIP, Whisper, Voice Engine, Sora, SearchGPT, CUA | ||
관련 인물 | ||
일론 머스크, 샘 올트먼, 미라 무라티, 일리야 수츠케버, 안드레 카파시, 그렉 브록만, 다리오 아모데이 | ||
관련 기업 | ||
마이크로소프트 |
CUA Computer Using Agent | |
출시일 | 2025년 1월 23일 |
개발사 | OpenAI |
기능 | 지능형 에이전트 |
사용처 | Operator |
하드웨어 | NVIDIA H100 |
라이선스 | Proprietary Software |
링크 |
[clearfix]
1. 개요
OpenAI가 개발한 에이전트 기능 특화 인공지능 모델. Operator에 적용되었다.2. 상세
GPT-4o의 비전 기능과 추론 기능을 통합하여 GUI를 인식하고 이와 상호작용하도록 학습되었다.CUA는 픽셀 데이터를 처리하여 화면에서 무슨 일이 일어나고 있는지 이해하고, 가상 마우스와 키보드를 사용하여 작업을 수행한다.
사용자의 지시가 주어지면 CUA는 인식, 추론, 행동의 반복 루프를 통해 작동한다.
- 인식: 컴퓨터의 스크린샷이 입력되어 컴퓨터의 현재 상태를 파악한다.
- 추론: CUA는 현재 및 과거의 스크린샷과 동작을 고려하여 CoT를 사용하여 다음 단계를 추론하여 도출한다.
- 행동: 작업이 완료되었거나 사용자 입력이 필요하다고 판단할 때까지 클릭, 스크롤 또는 타이핑과 같은 동작을 수행한다.
- 추론: CUA는 현재 및 과거의 스크린샷과 동작을 고려하여 CoT를 사용하여 다음 단계를 추론하여 도출한다.
- 행동: 작업이 완료되었거나 사용자 입력이 필요하다고 판단할 때까지 클릭, 스크롤 또는 타이핑과 같은 동작을 수행한다.