나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2024-12-22 23:51:53

DALL·E


파일:OpenAI 로고.svg파일:OpenAI 로고 화이트.svg
{{{#!wiki style="margin:0 -10px -5px"
{{{#000,#fff {{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-6px -1px -11px"
{{{#000,#e5e5e5
제품군
<bgcolor=#000> 서비스 ChatGPT, OpenAI(인공지능)
모델 GPT-1, GPT-2, GPT-3(GPT-3.5), GPT-4(GPT-4 Turbo, GPT-4o, GPT-4o mini), GPT-5(개발 중)
o1(o1-preview, o1-mini, o1 pro mode), o3(o3-mini)
DALL·E, Codex, CLIP, Whisper, Voice Engine, Sora, SearchGPT
관련 인물
일론 머스크, 샘 올트먼, 미라 무라티, 일리야 수츠케버, 안드레 카파시, 그렉 브록만, 다리오 아모데이
관련 기업
마이크로소프트
}}}}}}}}}}}}}}} ||
생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
유니모달 모델 기반
<colkeepall> 텍스트 [[소설|
소설
]] NovelAI · AI Dungeon · AI Novelist · GPTRPG
대화형 [[챗봇|
챗봇
]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok · Xtion AI(액션 AI)
[[언어 모델|
언어모델
]] GPT-1 · GPT-2 · GPT-3 · GPT-4 · LLaMA · Gemma · Claude · Phi · Exaone · OpenELM
코드 [[코드#컴퓨터 소프트웨어|
코드
]] GitHub Copilot · Devin · Phind
이미지 [[그림 인공지능|
그림
]] Midjourney · DALL·E · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly · Deep Dream Generator
[[영상 인공지능|
영상
]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Luma Dream Machine · Kling AI
[[모델링|
모델링
]] LATTE3D
오디오
소리
[[음성|
음성
]] A.I.VOICE · DeepVocal · Voice Engine
[[음악|
음악
]] Suno · Stable Audio · Udio · AIVA · SOUNDRAW · keeneat · Mix.audio · vio.dio
[[효과음|
효과음
]] OptimizerAI
멀티모달 모델 기반
대화형
+이미지
Exaone 3.0 · Samsung Gauss
+음성/이미지
GPT-4o · GPT-5 · Gemini · o1 · o3
+에이전트
Galaxy AI · Claude 3.5 Sonnet
행위
동작
[[지능형 에이전트|
에이전트
]] Apple Intelligence · Project Astra · Google Jarvis
[[인공지능 로봇|
체화
]] Tesla optimus · Google RT-X · Project Gr00t
}}}}}}}}}

🎨 그림 인공지능 관련 소프트웨어
{{{#!wiki style="margin:0 -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-6px -1px -11px"
생성형 인공지능
Artbreeder DALL·E Dream by WOMBO Adobe Firefly
Gaugan2 Midjourney NovelAI Image generator Stable Diffusion
Galaxy AI FLUX.1
학습 방해 프로그램
글레이즈 나이트셰이드
}}}}}}}}} ||
달리
DALL·E
<colbgcolor=#ddd,#010101> 분류 그림 인공지능
개발사 OpenAI
출시일 2021년 1월 5일
버전 3.0
링크 파일:인스타그램 아이콘.svg
사용하기
1. 개요2. 상세3. 기능
3.1. 설명으로 그림 생성3.2. 사진 업로드 후 편집
3.2.1. 편집3.2.2. 변형 제작
3.3. 아웃페인팅
4. 버전5. Craiyon(구 DALL·E mini)6. 여담
6.1. 에러 메시지와 검열 문제
7. 둘러 보기

[clearfix]

1. 개요

OpenAI에서 개발한 생성형 이미지 생성형 인공지능. 23년 9월 출시된 DALL-E 3는 프롬프트를 이해하는 수준이 기존의 AI보다 월등히 뛰어나며, 텍스트를 이미지로 구현할 수 있는 전세계적으로 몇 안 되는 AI 모델이다.

2023년 10월 기준 DALL-E 3는 ChatGPT Plus(유료 버전)에 탑재되어 ChatGPT 대화창 안에서, 그리고 Microsoft Copilot 또는 빙 이미지 크리에이터(무료)에서 사용할 수 있다

DALL-E 3는 영어 외 다수의 언어를 이해하며, 한글로 작성된 프롬프트(명령어)도 굉장히 잘 이해한다. 영어에 부담을 느껴 AI 그림에 관심은 있지만, 실제 생성을 시도하지는 못했던 잠재 유저의 AI 그림 생성 분야로의 진입 장벽을 크게 낮춰줄 것으로 보인다.[1]

2. 상세



OpenAI에서 2021년 1월 5일에 처음으로 출시를 했으며 2022년 4월 6일에 버전이 업그레이드가 된 'DALL·E 2'가 공개되었다. #

DALL-E 2가 나오자마자 미술, 패션, 건축, 마케팅에 이르기까지 전 업계에 걸쳐 혁신성을 폭발시켰고, 그림 인공지능의 시대를 연 인공지능 모델은 뮌헨 대학교의 Stable Diffusion 기술이지만 다른 측면으로 보면 AI 그림 관련 기술발전을 촉진시키는 데 기여했다고 볼 수 있으며 여전히 위력을 발휘하는 중이다.[2] MIT 테크놀로지 리뷰는 오픈AI의 CEO 올트먼이 DALL-E 2에서 무엇을 배웠는지를 주제로 인터뷰를 진행했다. 그는 “DALL-E 2로부터 AI의 향후 10년의 미래에 대한 중요한 교훈을 얻었다”라고 말했다. 관련인터뷰

영어로 텍스트를 입력하거나 이미지 파일을 삽입하면 인공지능이 알아서 그림을 생성해 준다. 이름은 월-E살바도르 달리에서 따왔다.

DALL·E 2는 전작보다 화질이 4배나 상승했으며, 그림이 더욱 정교해졌다. 그리고 추가된 기능도 있는데, 이미지를 편집하거나[3], 이미지를 삽입해 그 이미지를 변형한 이미지들을 출력하기까지 한다.

텍스트 뒤에 특정 조건을 입력하면 화풍이 변화되고 그림이 정교해지기도 한다. 아니메 스타일의 이미지는 과거 버전 기준으로는 Novel AI보단 성능이 떨어졌지만 3.0 버전 기준으로는 들어선 그것도 옛말이다. 아래 언급했듯이 검열이 지나치다보니 제대로 된 이미지를 생성하기가 어려워서 그렇지 검열 기준만 통과한다면 별 다른 미사어구 없이도 그럴싸한 퀄리티의 이미지를 생성해낸다.

폭력적, 성적, 정치적인 컨텐츠와 실존 유명인 등 일부 텍스트는 제한을 걸고 있다. 또, 셔터스톡과 정식 파트너 관계를 맺고 학습에 필요한 이미지를 제공받았다. 관련기사

초대장을 받고 회원이 되면 최초 50 크레딧을 제공하며 이미지 생성, 수정 시 1 크레딧이 소모된다. 참고로 메인 화면에 있는 샘플 이미지를 클릭하면, 샘플 이미지와 같은 명령어로 이미지 생성이 실행되어 크레딧이 소모되니 주의. 추가 크레딧은 매 월마다 15크레딧을 받을 수 있고, 유료로도 살 수 있다, 2023년 현재 15$로 115크레딧을 구매할 수 있다.

2022년 8월 초 현재 한국은 개인이 아닌 기업만이 크레딧을 구매할 수 있도록 되어 있다.

2023년 3월, Bing의 이미지 AI인 이미지 크리에이터에 DALL·E가 적용되었다. # 한국 기준으로 Bing을 통해 사용한다면 매일 15개의 토큰을 받을 수 있으며, 토큰으로는 빠른 이미지 생성이 가능하다. 토큰은 없어도 약 50개의 이미지를 느리지만 계속 만들 수 있다.

2023년 9월, 3.0이 출시되었다. # ChatGPT와 통합되면서 이미지가 더 구체화되었다. (기사)

3. 기능

3.1. 설명으로 그림 생성

파일:Dall-Yee 예시1.webp[4]
An armchair in the shape of an avocado
아보카도 모양 안락의자
단어를 입력하여 그림을 생성하는 기능. Dall-E의 주요 기능이다.

3.2. 사진 업로드 후 편집

이미 가지고 있는 사진에 변화를 주는 기능.

3.2.1. 편집

사진의 일부분을 지운 뒤, 단어를 입력해 지워진 부분에 자연스럽게 이어지도록 그림을 그리는 기능.

3.2.2. 변형 제작

파일:Dall-Yee 예시 2.webp
사진을 인공지능이 분석해, 사진의 여러 변형을 만드는 기능.

3.3. 아웃페인팅

사진의 바깥 부분에 인공지능이 자연스럽게 이어지도록 그림을 그리는 기능.

4. 버전

5. Craiyon(구 DALL·E mini)

DALL·E mini 사이트: DALL·E mini[5], Craiyon[6]

이름은 DALL·E의 데모를 표방하지만 OpenAI와 어떠한 관련도 없고 DALL·E 2의 데모버전도 아니다. 즉, DALL·E가 아니라 관련성이 없는 전혀 다른 별개의 이미지 생성형 인공지능이다. DALL·E 열풍에 맞춰 이름을 멋대로 가져오고 트위터에서 진짜 DALL·E 착각한 사람들 사이에서 유명해지면서 OpenAI DALL·E의 무료 혹은 데모버전으로 오해를 하는 사람들이 많으나 절대 아니다. 이름을 Craiyon으로 바꾼 것도 상표권 문제가 벌어져서 바꾼 것이다.

6. 여담

공개 직후부터 자연어를 그림으로 상당히 높은 퀄리티로 바꿔준다는 점으로 세계 인터넷 커뮤니티들에서 화제가 되었다. 그리고 일반 사용자들이 체험 가능한 DALL-E mini의 경우 인터넷 밈이나 뻘글용 이미지들 생성에 널리 쓰이고 있다. 아예 DALL-E mini로 만든 밈만 모아놓은 서브레딧도 있다. #

비슷한 인공지능으로 구글에서 공개된 imagen과 parti, NVIDIA에서 출시한 GauGAN2, 그리고 소규모 개발자 그룹이 개발한 Midjourney 프로젝트가 있다.

DALL·E 2를 이용해 이미지의 변형 버전을 계속 생성하는 방식으로 영상을 만든 경우도 있다. # #

DALL·E 2를 다루는 서브레딧이 있다. r/dalle2

DALL·E 2 사용방법을 알려주는 팁북이 있다. #

애니메이션 캐릭터도 그릴 수 있다. 그러나 대중적으로 많이 알려진 캐릭터들 위주지, 그 외에는 인식을 못한다.

마이크로소프트의 새로운 생산성 툴 Designer에서 DALL·E 2를 사용해 볼 수 있다. Microsoft Designer 관련기사

DALL·E 3는 어떤 사물을 포함하지 않고 그리라는 프롬프트를 그 사물을 포함하여 그리라는 프롬프트로 인식하는 버그가 있다. '~가 없는 장소/사물'을 그리라는 프롬프트를 '~가 있는 장소/사물'로 인식하는 경우가 흔하다. 전반적으로 '없다'의 개념을 '있다'의 개념으로 인식하는 경우가 많다.

기존 AI가 잘 묘사하지 못했던 맨발이나 신발에 대한 묘사가 가장 좋다.[7] 그 외에도 부츠, 하이힐, 샌달, 운동화 등 다양한 신발들을 구현할 수 있으며, 이 덕에 로우앵글이나 여러 역동적인 포즈를 생성하는 데에 상대적으로 부담이 적은 편.

2024년 1월 기준으로 한국시각 기준 자정 전후로는 트래픽 문제로 생성이 잘 되지 않는다.

이 AI를 사용하는 CopilotChatGPT의 검열 수준의 차이가 크다. 전자가 더 널널한 편이며, Chat gpt 플러스 버전에서는 유명 캐릭터 사용이 일절 금지되어 있다.

6.1. 에러 메시지와 검열 문제

DALL·E 3에서는 여러 종류의 에러 메시지를 사용자에게 출력하고 있다. Bing에서는 한국어로도 기재된다. 본 문서에서는 영어를 우선 기재하며, 한국어판에서 자주 볼 수 있는 경우에는 하단에 한국어를 병기한다.
Content Warning
This prompt has been blocked. Our system automatically flagged this prompt because it may conflict with our content policy. More policy violations may lead to automatic suspension of your access.
If you think this is a mistake, please report it to help us improve.
콘텐츠 경고
이 프롬프트를 차단했습니다. 이 프롬프트가 콘텐츠 정책과 충돌할 수 있어 시스템에서 플래그를 지정했습니다. 정책 위반이 많을수록 엑세스가 자동으로 일시 중단될 수 있습니다.
실수라고 생각된다면 보고하여 사용자 환경을 개선하도록 도와주세요.
사용자가 입력한 키워드 자체가 문제가 되어 검열될 경우 위의 에러 메시지가 출력된다. 아래에는 보고(Report)와 돌아가기(Go back) 버튼이 있다. 메시지에 나와있다시피 자주 걸리면 이용이 일시적으로 정지될 수 있다. 문제는 이 1차 검열부터가 폭력적, 선정적인 맥락 없이 ‘총’ 같은 단어만으로도 이미지 생성이 막힌다.
Unsafe image content detected
Your image generations are not displayed because we detected unsafe content in the images based on our content policy. Please try creating again with another prompt.
안전하지 않은 이미지 콘텐츠가 감지됨
콘텐츠 정책에 따라 이미지에서 안전하지 않은 콘텐츠가 감지되어 이미지 생성이 표시되지 않습니다. 다른 프롬프트로 다시 생성을 시도하세요.
위의 1차 검열을 뚫으면 그 다음은 이미지 기반 검열이 기다리고 있다. 아예 초장부터 막히는 키워드 검열과는 달리 이미지 생성 도중에 해당 에러 메시지가 출력되기 때문에 이것을 목도하는 사용자들을 허탈하게 한다. 이는 AI가 열심히 그림을 그렸는데 이걸 지켜본 시스템이 안된다고 빠꾸를 먹인 케이스라고 보면 된다. Bing의 경우 바닥에 떨어진 계란후라이를 핥는 개의 이미지가 메시지 상단에 삽입된다.

이미지 기반 검열이기 때문에 복불복을 탄다. 똑같은 키워드를 입력했는데도 어떤 때는 위의 에러 메시지를 띄울 수도 있고 정상적으로 이미지가 출력될 수도 있다. 물론 2~3번 연속으로 이 메시지가 나온다면 시스템에서 차단되지는 않았지만 키워드에 뭔가 문제가 있을 가능성이 매우 높다.

크게 2가지 이유로 이 메세지가 나온다. 하나는 정책 위반(주로 선정성과 폭력성), 다른 하나는 AI 제네레이터의 고질적인 특성인 그림의 완성도 문제. 즉, 그림 자체가 기괴하거나 (인체의 경우) 삐꾸가 나서 완성본으로 차마 보여줄 수 없다고 시스템에서 판단하는 경우에도 이 메세지가 나올 수 있다. 키워드 자체가 정책 위반 소지가 없음에도 불구하고 이 메세지가 나온다면 후자일 가능성이 높다.

보편적으로 선정적이거나 폭력적인 콘텐츠 범위를 넘어서 아예 여성과 관련된 모습을 그려달라고 하는 프롬프트조차 검열해 버리기 일쑤여서 정상적인 이용에 지장을 초래한다. Bing에서 'nuclear power plant in medieval style(중세풍의 원자력 발전소)'를 입력했더니 검열된 사례가 있으며, 심지어는 차단 이미지에 대한 설명인 "떨어진 달걀 노른자를 먹으려고 하는 큰 개."를 그대로 넣고 출력을 시도하면 이마저도 빈번히 차단해버린다.

파일:Bing_DALL·E_3_Censored.jpg

OpenAI(ChatGPT) 및 Bing에서 제공하는 DALL·E 3의 검열이 지나치게 심해 일반 사용자가 이미지를 도무지 뽑기 어렵다는 비판이 많이 나오고 있다. 실존인물 딥페이크 방지 같은 거야 그렇다 쳐도[8] 지나치게 검열이 심하다는 의견이 많다.

단, AI 특성상 검열될 만한 요소를 돌려말하면 어느 정도 파훼가 가능하다.
You can't submit anymore prompts.
Please wait until your other on-going creations are complete before trying to create again.
더 이상 프롬프트를 제출할 수 없습니다.
다른 진행 중인 만들기가 완료될 때까지 기다린 후 다시 만드세요.
이미지 출력 한도를 초과해서 시스템이 일시적으로 이용 제한을 걸어버린 경우에 이 메시지가 나온다. 즉, 트래픽 폭주를 방지하기 위해 일시적으로 이용자에게 쿨타임을 거는 것이라고 보아야 한다. 언제 풀리는지는 매우 유동적이지만 짧게는 한두 시간에서 길게는 반나절 혹은 하루 이상이 걸리며, 대체로 매우 오랜 시간이 걸리는 경우가 보통이다.
Access suspended
Access to Bing Image Creator has been suspended due to content policy violations. Yo can't create, but you can still view previous creations and explore community ideas.
엑세스 일시 중단됨
콘텐츠 정책 위반으로 인해 Bing Image Creator에 대한 엑세스가 일시 중단되었습니다. 중단이 해제되면 이미지를 다시 만들 수 있습니다.
가장 최악의 경우로, 잦은 정책 위반 때문에 계정이 차단되면 이런 메시지가 나온다. 이걸 당하면 동일 아이디로는 영구적으로 이미지를 출력할 수 없게 된다. 차단 소명을 위해 메시지를 입력할 수 있는 이의 제기(Submit an appeal) 칸이 메시지 하단에 마련되어 있다.[9]
This prompt is being reviewed
We're taking a closer look to make sure this prompt doesn't conflict with our content policy.
You'll get a notification when your images are ready. You can also try editing your prompt.
프롬프트에 뭔가 정책 위반 소지가 있다고 판단되어 bing 측이 해당 프롬프트를 리뷰하고 있다는 뜻이다.
Please provide a more descriptive prompt
This prompt was too vague to generate appropriate, high quality images. Please try a longer, more descriptive prompt.
보다 자세한 설명을 하는 프롬프트를 제공하세요.
이 프롬프트는 너무 모호하여 적절한 고품질 이미지를 생성할 수 없습니다. 더 길고 설명이 포함된 프롬프트를 시도해 보세요.
프롬프트가 너무 짧거나, 애매모호해서 AI가 해석할 수 없는 경우 이런 메시지가 나온다. Bing에서는 가급적이면 길고 완전한 문장으로 입력하는 것을 권장하고 있다.
We can't create right now
We're experiencing a high volume of requests so we're unable to create right now. Please try again later.
위와는 반대로, 프롬프트가 너무 길고 방대해서 AI가 따라가지 못하는 경우에 이런 메시지가 나온다. 즉, 이용자가 AI에게 너무 많은 것을 요구해서 이걸 소화 못 시키는 것이라 보면 된다.

7. 둘러 보기


[1] 이미지를 클릭한 뒤 i 버튼을 누르면 실제 프롬프트를 확인할 수 있는데, 기존에 직접 적은 것에 몇가지 세부 디테일을 더 추가한 영어로 나온다. ChatGPT 자체적으로 프롬프트를 영어로 번역하고 디테일을 더 추가한 뒤에 DALL-E로 전달하는 것으로 보인다.[2] 물론 아직까지도 법적인 문제가 완벽하게 정의되거나 해결된 건 아니라 사업이 목적일 경우 자유롭지 않다.[3] 이미지 일부를 지워서 원하는 걸 입력하면 자연스럽게 그걸로 대체하는 기능이다.[4] Dall-E 첫 페이지에 뜨는 사진[5] 일반 사용자들이 바로 이용해볼 수 있는 사이트. 텍스트를 입력하면 그림이 9장이 나온다. 공식 홈페이지보다 그림이 뭉개져서 나오며 정교함이 매우 떨어진다. 사용자가 많은지 트래픽이 많다는 문구가 자주 나온다. 보통 2분에서 3분의 시간이 지나면 그림이 생성된다.[6] DALL·E mini가 별도의 사이트로 독립한 곳.[7] 다른 AI들은 발바닥을 보여달라 하면 기를 쓰고 안보여주기 위해 포즈가 왜곡되거나, 손 이상으로 발 모양이 뭉개지며 문제가 많았었다[8] 실제로 트롤링 커뮤니티인 4chan의 극우 포럼 /pol/에서 나치 및 테러리즘과 관련된 AI 이미지 생성 시도가 아주 많이 이루어지고 있다. 이에 관한 한 외국 기사[9] 입력하기 전의 빈 칸에는 회색 글씨로 ‘무엇이 잘못되었는지 그리고 저희가 Bing Image Creator에 대한 엑세스를 복원해 드려야 한다고 생각하는 이유를 알려주세요.(Tell us what went wrong and why you think we should restore your access to Bing Image Creator.)’라는 문장이 뜬다.