나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2024-04-20 20:32:49

Stable Diffusion

생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
텍스트 [[소설|
소설
]] NovelAI · AI Dungeon · AI 노벨리스트
대화형 [[챗봇|
챗봇
]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI
[[언어 모델|
언어모델
]] GPT-1 · GPT-2 · GPT-3 · GPT-4 · GPT-5 · LLaMA · Gemma · Claude
코드 [[코드#컴퓨터 소프트웨어|
코드
]] GitHub Copilot · Devin
그림/영상 [[그림 인공지능|
그림
]] Midjourney · DALL·E · Artbreeder · NovelAI Image Generation · Stable Diffusion · Gaugan2 · Dream by WOMBO · Adobe Firefly
[[영상|
영상
]] Stable Video · Sora · Lumiere · Runway AI
[[모델링|
모델링
]] LATTE3D
오디오/소리 [[음성|
음성
]] A.I.VOICE · DeepVocal · Voice Engine
[[음악|
음악
]] Suno AI · Stable Audio · Udio · AIVA · SOUNDRAW · Mix.audio · vio.dio
멀티모달 [[멀티모달 모델|
멀티모달
]] 삼성 가우스 · Gemini
행위/동작 [[인공지능 로봇|
로봇
]] Robot Operating Syetem(ROS) · Google RT-X · 피규어 01 · 프로젝트 그루트
}}}}}}}}}

🎨 그림 인공지능 관련 소프트웨어
{{{#!wiki style="margin:0 -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-6px -1px -11px"
생성형 인공지능
Artbreeder DALL·E Dream by WOMBO Adobe Firefly
Gaugan2 Midjourney NovelAI Image generator Stable Diffusion
Galaxy AI
학습 방해 프로그램
글레이즈 나이트셰이드
}}}}}}}}} ||
스테이블 디퓨전
Stable Diffusion
<colbgcolor=#ddd,#010101> 분류 그림 인공지능, 오픈 소스
개발사 Stability AI
출시일
1.0
2022년 8월 22일
2.0
2022년 11월 24일
3.0
2024년 2월 23일
버전 3.0
링크 파일:홈페이지 아이콘.svg
1. 개요2. 상세3. 모델 아키텍처4. 라이선스5. 직접 구동하기6. 사건 사고
6.1. 저작권 관련 소송
7. 관련 문서8. 외부 링크

[clearfix]

1. 개요

Stability AI에서 오픈소스 라이선스로 배포한 text-to-image 인공지능 모델이다. 2022년 8월 22일 출시했다. 대다수의 이미지 인공지능들은 온라인에서만 서비스하는데, 스테이블 디퓨전은 개인의 PC로 실행 즉 '로컬 환경'으로 설치 및 실행 할수있는게 큰 차이점이다.

2. 상세

Stable Diffusion은 독일 뮌헨 대학교 Machine Vision & Learning Group (CompVis) 연구실의 "잠재 확산 모델을 이용한 고해상도 이미지 합성 연구"[1]를 기반으로 하여, Stability AIRunway ML 등의 지원을 받아 개발된 딥러닝 인공지능 모델이다.

Stability AI는 영국인 에마드 모스타크(Emad Mostaque)가 만든 회사로, Stable Diffusion에 방대한 LAION-5B 데이터베이스를 학습시킬 수 있도록 컴퓨팅 자원을 제공하였다. OpenAI의 Dall-e 2나 구글의 Imagen과 같은 기존 text-to-image 모델들과는 다르게 컴퓨터 사용 리소스를 대폭 줄여 4GB 이하의 VRAM을 가진 컴퓨터에서도 돌릴 수 있다.

또한 개발 비용이 클 것임에도 불구하고[2] 통 크게 오픈 소스로 공개해서 일반인들도 사용을 할 수 있다.

사실상 그림 인공지능의 시대를 연 인공지능이며, 오픈소스로 공개된 덕분에 해당 인공지능을 기반으로 하는 AI 이미지 서비스 기능이 우후죽순으로 늘어나고 있으며 Stable Diffusion은 유명하고 대중적인 이미지 생성형 인공지능 중 하나가 되었다.

컨트롤넷이라는 플러그인으로 포즈 지정이 가능하다. 신체 부위에 해당하는 각색의 작대기를 조절하는 Openpose에서 선화 수준의 밑그림 구도를 기반으로 이를 보조해주는 Canny 모델 등 여러가지 ControlNet 대응 보조모델을 사용할 수 있다.

2023년 7월 26일 Stability AI에서 SDXL 버전을 출시했다. 매개변수가 약 1억개에서 6억 6만개로 6배 가량 늘어난만큼 세밀한 묘사가 기존의 SD 1.5보다 훨씬 뛰어나고 단어나 간단한 문장도 쓸 수 있다. 다만 퀄리티가 늘어난 만큼 요구 사양도 크게 늘어나서 여전히 1.5를 사용하는 사람들도 많다.
==# 버전 업 #==
2022년 8월 22일 1.0 버전 첫 출시.

2022년 11월 24일/ 2.0 버전을 발표했다. 학습 데이터의 해상도가 512x512에서 786x786으로 높아졌고 OpenCLIP이라는 독자적인 텍스트 인코더를 도입하게 되었다. 또한 해당 버전은 학습 데이터에서 성인물을 제거했고, 특정 창작자의 화풍을 모방하는 기능이 제대로 작동하지 않게 되었다. # # 이에 대해 사용자들의 큰 반발이 있었으나 법적 문제를 피하기 위해선 어쩔 수 없었다는 의견도 있다. 또한 화풍 문제는 새로운 텍스트 인코더인 OpenCLIP의 문제점으로 밝혀지면서[3] StabilityAI가 고의로 제거한 것이 아닌 것으로 밝혀졌다. 이후 업데이트 된 2.1에선 신체 비율에 중요한 이미지는 제거하지 않은 채로 학습되었다.

2022년 12월 13일/ Riffusion이라는 모델이 출시되어 음악도 생성할 수 있다. 여러 음악의 스펙트로그램의 이미지를 학습시킨 뒤 AI가 생성한 스펙트로그램 이미지를 다시 음악으로 변환하는 원리다.

2022년 12월 15일/ 새 기능을 추가했다. 이제 원작자가 데이터셋에 있는 자신의 작품을 삭제할 수 있게 되었다. 데이터셋에서 작품을 생략하길 원하는 아티스트는 스태빌리티AI가 별도로 마련한 홈페이지 ‘헤브아이빈트레인(HaveIBeenTrained)’에 접속해 텍스트나 파일을 입력하면 된다. #[4]

2023년 7월, 개량형 버전인 'SDXL'이 출시됐다.

2024년 2월 23일, 3.0 버전을 발표했다. # 가장 큰 변화 중 하나는 바로 제대로 된 텍스트를 구현할 수 있다는 것이으로, 직접 입력한 텍스트를 이미지에 삽입할 수 있게 된다고 한다. 이전까지 AI 그림에서는 AI가 문자를 그림으로 인식해 영어도 이상하게 나오거나[5], 非로마자 계열은 괴문자처럼 나오는 게 다반사였는데 이제 그런 현상이 사라질 수도 있다는 것.

한편 설립자 겸 CEO인 에마드 모스타크가 사임하고 핵심 개발팀도 일부 빠지게 되면서 전망이 다소 불투명해졌다. 그나마 3.0은 예정대로 4월 중순 경 유료 API로 선공개되었고, 차후 오픈소스로 공개할 것을 예고했다.

3. 모델 아키텍처

파일:article-Figure3-1-1024x508.png

Stable dIffusion은 크게 보면 CLIP, UNet, VAE(Variational Auto Encoder, 자기부호화기)이라는 세 가지 인공신경망으로 이루어져 있다. 유저가 텍스트를 입력하면 텍스트 인코더(CLIP)가 유저의 텍스트를 토큰(Token)이라는 UNet이 알아들을 수 있는 언어로 변환하고, UNet은 토큰을 기반으로 무작위로 생성된 노이즈를 디노이징하는 방식이다. 디노이징을 반복하다 보면 제대로 된 이미지가 생성되며, 이 이미지를 픽셀로 변환하는 것이 VAE의 역할이다.

해상도가 높아질수록 리소스를 기하급수적으로 사용하게 되는 종전의 확산 확률 이미지 생성 모델과 달리, 앞뒤에 오토인코더를 도입하여 이미지 전체가 아닌 훨씬 작은 차원의 잠재공간(latent space)에서 노이즈를 삽입/제거하므로, 비교적 큰 해상도의 이미지를 생성하는데도 리소스 사용량을 대폭 줄여 일반 가정의 그래픽카드 정도로도 이용이 가능해진 것이 특징이다.

4. 라이선스

Stable AI에서 오픈소스 머신러닝 전용 라이선스[6]를 새로 만들었다. 일반적인 오픈소스 라이선스와 다르게 Stable Diffusion을 사용하여 서비스를 할 경우 반드시 명시를 하여야 하고 파인튜닝을 한 모델들은 라이선스에 명시된 특정 제한적인 용도에는 사용이 되면 안 된다.

5. 직접 구동하기

오픈소스 모델답게 다양한 오픈소스 프로젝트들이 존재한다. 다만 설명은 영문으로 되어있으니 주의할 것.
체크포인트 모델들은 확장자가 Skpt와 Safetensors로 나뉘어져있는데 후자가 보안측면에서 더 우월하다.

6. 사건 사고

6.1. 저작권 관련 소송

파일:상세 내용 아이콘.svg   자세한 내용은 그림 인공지능/논란 및 사건 사고 문서
8.1번 문단을
부분을
참고하십시오.

7. 관련 문서

8. 외부 링크


[1] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (CVPR) (pp. 10684-10695). #[2] Stable Diffusion AI 개발을 위해 학습에 들인 비용은 약 $600,000 정도로 추정된다고(#).[3] 이전 텍스트 인코더였던 OpenAI의 CLIP은 비공개 데이터셋을 기반으로 학습되었고 OpenCLIP은 오픈 소스 데이터셋인 Laion-2B를 기반으로 학습되었다. CLIP의 비공개 데이터셋에 존재하던 작가들이 Laion-2B에는 없었기 때문에 일어난 일이다. 다만 Laion-2B의 질이 전반적으로 떨어지기 때문에 확실히 모델이 열화된 느낌이 있다.[4] 다만, 이는 어디까지나 본사의 Stable Diffusion 기본 모델에만 해당되는 사항이다. 외부 유저들의 손을 거쳐 만들어진 Stable Diffusion 모델들은 이 기능으로 삭제를 요청해도 당연히 소용없다.[5] 그나마 SDXL 모델 사용시 로마자 같은 경우 얼추 비슷하게 나오긴 한다.[6] CreativeML Open RAIL-M[7] AUTOMATIC1111(일명 자동좌) 및 오픈소스 기여자들[8] 단 DirectML특성상 라데온과 아크는 물론 (쓸일이없겠지만)지포스도 암걸릴정도로 느리다.[9] 이와 관련해 한국어로 작성된 디퓨전 비 사용 가이드가 있다. WebUI와 마찬가지로 AI 모델을 적용하는 등도 가능하다.[10] 구체적인 한국어 가이드 및 사용법도 작성되었다. comfyui 사용법[11] 피가 좀 나오거나 약간의 상처, 흉터 등 가벼운 수준은 업로드 가능하지만 신체 절단 등 고어물 단계로 올라가는 순간 업로드 거부되거나 차단된다.