나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2024-09-05 16:17:15

CLIP 모델

clip 모델에서 넘어옴
파일:OpenAI 로고.svg파일:OpenAI 로고 화이트.svg
{{{#!wiki style="margin:0 -10px -5px"
{{{#000,#fff {{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-6px -1px -11px"
{{{#000,#e5e5e5
제품군
<bgcolor=#000> 서비스 ChatGPT, OpenAI(인공지능)
모델 GPT-1, GPT-2, GPT-3(GPT-3.5), GPT-4(GPT-4 Turbo, GPT-4o, GPT-4o mini), GPT-5(개발 중)
o1(o1-preview, o1-mini, o1 pro mode), o3(o3-mini)
DALL·E, Codex, CLIP, Whisper, Voice Engine, Sora, SearchGPT
관련 인물
일론 머스크, 샘 올트먼, 미라 무라티, 일리야 수츠케버, 안드레 카파시, 그렉 브록만, 다리오 아모데이
관련 기업
마이크로소프트
}}}}}}}}}}}}}}} ||
CLIP
Contrastive Language-Image Pre-training
출시일 2021년 1월 5일
제작사 OpenAI
라이선스 MIT 라이선스
관련 링크 파일:홈페이지 아이콘.svg | 파일:GitHub 아이콘.svg파일:GitHub 아이콘 화이트.svg

1. 개요2. 상세3. 응용4. 같이 읽기

[clearfix]

Contrastive Language-Image Pre-training model, CLIP model

1. 개요

OpenAI에서 개발한 신경망 아키텍처로, 자연어를 이해하고 Computer Vision을 구현하는 등 인간의 언어/이미지를 컴퓨터로 처리할 수 있게끔 해주는 모델이다.

2. 상세

CLIP 모델은 ViT(Vision Transformer)와 Transformer 언어 모델(Transformer-based language model)을 결합하여 이미지와 텍스트를 모두 처리할 수 있게 만들어놓은 모델이다. 여기서 ViT란 비지도학습을 통해 이미지에서 특징을 추출할 수 있도록 만들어진 Transformer가 이미지를 처리할 수 있도록 이미지를 patch 형태로 처리할 수 있도록 하는 모델이다. 이미지 추출을 할 수 있는 모델을 ViT, CNN 모델로 테스트했다. Transformer 언어 모델은 사전훈련(pre-trained)을 통해 텍스트 데이터를 학습해놓은 모델이다.

CLIP 모델에 자연어를 입력할 경우 이를 임베딩으로 변환하여 77 x 768 숫자 값 목록이 생성되며, 이 임베딩의 숫자값을 바탕으로 이미지 처리가 가능한 것이다.

CLIP 모델은 2022년부터 우후죽순으로 개발된 AI 그림의 기반이 모두 여기에 있다 해도 전혀 과장이 아닐 정도로 AI 개발에 있어 강력한 도구 중 하나이다. 이를 통해 텍스트 및 이미지와 같은 복잡한 데이터를 처리하고, 컴퓨터가 이해하는 방식이 혁신적으로 개선되었기 때문.

3. 응용

4. 같이 읽기