Stable Diffusion

🎨 그림 인공지능
{{{#!wiki style="margin:0 -10px -5px; min-height:calc(1.5em + 5px)" {{{#!folding [ 펼치기ㆍ접기 ] {{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"	생성형 인공지능	DALL·E · Firefly · FLUX · Gaugan2 · GPT-Image · Grok Imagine · Imagen · Midjourney · 나노 바나나 · NAI Diffusion · Qwen-Image · Samsung Gauss Image · Seedream · Stable Diffusion · Z-Image
학습 방해 프로그램	Glaze (Nightshade) · Mist

}}}}}}}}} ||

스테이블 디퓨전 Stable Diffusion
<colbgcolor=#ddd,#010101> 분류	그림 인공지능, 오픈 소스
개발사	Stability AI
출시일	1.0 2022년 8월 22일 2.0 2022년 11월 24일 3.0 2024년 2월 23일 3.5 2024년 10월 22일
버전	3.5
링크

1. 개요2. 특징3. 모델 아키텍처4. 라이선스5. 직접 구동하기6. 사건 사고

6.1. 저작권 관련 소송

7. 관련 문서8. 외부 링크

1. 개요

Stability AI에서 오픈소스 라이선스로 배포한 text-to-image 확산 모델이다. 2022년 8월 22일 출시했다. 대다수의 이미지 인공지능들은 온라인에서만 서비스하는데, 스테이블 디퓨전은 개인의 PC로 실행 즉 '로컬 환경'으로 설치 및 실행할 수 있는 게 큰 차이점이다.

2. 특징

Stable Diffusion은 독일 뮌헨 대학교 Machine Vision & Learning Group (CompVis) 연구실의 "잠재 확산 모델을 이용한 고해상도 이미지 합성 연구"[1]를 기반으로 하여, Stability AI와 Runway ML 등의 지원을 받아 개발된 딥러닝 인공지능 모델이다.

Stability AI는 영국인 에마드 모스타크(Emad Mostaque)가 만든 회사로, Stable Diffusion에 방대한 LAION-5B 데이터베이스를 학습시킬 수 있도록 컴퓨팅 자원을 제공하였다. OpenAI의 Dall-e 2나 구글의 Imagen과 같은 기존 text-to-image 모델들과는 다르게 컴퓨터 사용 리소스를 대폭 줄여 4GB 이하의 VRAM을 가진 컴퓨터에서도 돌릴 수 있다.

또한 개발 비용이 클 것임에도 불구하고[2] 통 크게 오픈 소스로 공개해서 일반인들도 사용을 할 수 있다.

사실상 그림 인공지능의 시대를 연 인공지능이며, 오픈소스로 공개된 덕분에 해당 인공지능을 기반으로 하는 AI 이미지 서비스 기능이 우후죽순으로 늘어나고 있으며 Stable Diffusion은 유명하고 대중적인 이미지 생성형 인공지능 중 하나가 되었다.

그러나 설립자 겸 CEO인 에마드 모스타크가 사임하고 핵심 개발팀도 일부 빠지게 되면서 전망이 다소 불투명해졌다. 회사의 사정이 상당히 좋지 않은 편이라 오픈소스로 새로운 모델들을 푸는 대신 상업적 이용에는 수수료를 지불하게 하는 방향으로 노선을 변경하고 있다.

2023년 7월 26일 Stability AI에서 SDXL 버전을 출시했다. 매개변수가 8억 9천만개에서 26억개로 약 3배 가량 늘어난만큼 세밀한 묘사가 기존의 SD 1.5보다 훨씬 뛰어나고 단어나 간단한 문장도 쓸 수 있다. 다만 퀄리티가 늘어난 만큼 요구 사양도 크게 늘어나서 여전히 1.5를 사용하는 사람들도 많다.

한국 시간으로 2024년 6월 13일, 매개변수 20억개 버전인 SD3 medium이 먼저 오픈소스로 풀렸다. 매개변수만 보면 SDXL보다 6억개 적지만, 내부 알고리즘을 Unet에서 MMDiT로 갈아치우고 보다 효율적인 방향으로 학습을 시키는 등 SDXL보다 가벼우면서 이미지의 품질이나 정확성은 훨씬 진보했다고 한다. 회사 관련인들의 주장으로는 일반인 선에서는 medium으로도 충분하고도 넘칠 성능이라고 한다. 미세 조정에서도 SDXL보다 더 효율적일 것이라고 장담한 것은 덤.[3]

다만 SDXL까지와 달리 SD3는 Stability AI에게 별도의 수수료를 지불하지 않는 한 비상업적 목적[4]으로만 모델을 활용해야 하다보니 본격적인 보편화가 쉽지 않을 전망이다. 특히 SD3 기반 NovelAI Diffusion이나 Pony Diffusion 등 우수한 모델의 등장 시기가 더 미뤄질 가능성이 높다[5]. 가장 대중적인 커뮤니티인 Civitai에서도 라이선스 문제가 해결되기 전까지는 SD3 관련 자료를 일시적으로 금지했으며, 결국 Stability AI 측에서 라이선스를 대폭 완화하는 방향으로 수정했다.#

Stability AI가 Stable Diffusion 3로 갈팡질팡하며 삽질을 계속하는 사이, Black Forest Labs라는 Stability AI 출신 인원들이 설립한 신흥 인공지능 회사가 출범하면서 매개변수 120억짜리 강력한 그림 인공지능 모델인 FLUX.1을 선보였다. 물론 Stability AI도 이에 대응하듯이 개선판인 Stable Diffusion 3.1을 예고했고 훨씬 가벼우면서 FLUX.1 Pro에 못지 않게 우수한 이미지를 생성할 수 있다고 주장했지만, 유저들의 반응은 또 속냐며 차가운 상태다보니 실제로 상당한 개선을 선보여야 할 것으로 평가된다.

실제로 경쟁자의 등장 및 여러 비판으로 호되게 당한 것을 반면교사 삼았는지, 개선판인 Stable Diffusion 3.5는 호평을 받았다. 확실히 강력하기는 하지만 너무 무거워서 로컬 유저들에게 부담을 주는 FLUX.1에 비해서, 다양한 성능을 제공하는 SD3.5에 더 기대를 거는 유저들도 많이 나타났다.

그러나 로컬 그림 인공지능 쪽 발전이 사양의 벽에 의해 유저들이 쉽사리 접근하지 못해 제자리 걸음을 계속하면서, 로컬 쪽에서는 SDXL 기반 모델들이 여전히 2025년의 최고점을 차지하고 있다. 그리고 결국 후속 모델들이 반향을 일으키지 못하고 경쟁에서 밀려나 FLUX, Qwen, Z-Image 등 타사 모델들에게 차기 로컬 기반 자리를 넘기는 모양새.
==# 버전 업 #==
2022년 8월 22일 1.0 버전 첫 출시.

2022년 11월 24일/ 2.0 버전을 발표했다. 학습 데이터의 해상도가 512x512에서 786x786으로 높아졌고 OpenCLIP이라는 독자적인 텍스트 인코더를 도입하게 되었다. 또한 해당 버전은 학습 데이터에서 성인물을 제거했고, 특정 창작자의 화풍을 모방하는 기능이 제대로 작동하지 않게 되었다. # # 이에 대해 사용자들의 큰 반발이 있었으나 법적 문제를 피하기 위해선 어쩔 수 없었다는 의견도 있다. 또한 화풍 문제는 새로운 텍스트 인코더인 OpenCLIP의 문제점으로 밝혀지면서[6] StabilityAI가 고의로 제거한 것이 아닌 것으로 밝혀졌다. 이후 업데이트 된 2.1에선 신체 비율에 중요한 이미지는 제거하지 않은 채로 학습되었다.

2022년 12월 13일, Riffusion이라는 모델이 출시되어 음악도 생성할 수 있다. 여러 음악의 스펙트로그램의 이미지를 학습시킨 뒤 AI가 생성한 스펙트로그램 이미지를 다시 음악으로 변환하는 원리다.

2022년 12월 15일/ 새 기능을 추가했다. 이제 원작자가 데이터셋에 있는 자신의 작품을 삭제할 수 있게 되었다. 데이터셋에서 작품을 생략하길 원하는 아티스트는 스태빌리티AI가 별도로 마련한 홈페이지 ‘헤브아이빈트레인(HaveIBeenTrained)’에 접속해 텍스트나 파일을 입력하면 된다. #[7]

2023년 7월, 개량형 버전인 'SDXL'이 출시됐다.

2024년 2월 23일, 3.0 버전을 발표했다. # 가장 큰 변화 중 하나는 바로 제대로 된 텍스트를 구현할 수 있다는 것이으로, 직접 입력한 텍스트를 이미지에 삽입할 수 있게 된다고 한다. 이전까지 AI 그림에서는 AI가 문자를 그림으로 인식해 영어도 이상하게 나오거나[8], 非로마자 계열은 괴문자처럼 나오는 게 다반사였는데 이제 그런 현상이 사라질 수도 있다는 것. 또한 여러 가지 컴퓨터 사양을 가진 유저층들을 위해 매개변수 숫자가 다른 다양한 버전들이 계획되어 있다. 가장 고사양을 요구할 버전은 매개변수를 80억개 갖출 예정이다. 이후 4월 중순 경 유료 API로 우선 공개되었다.

2024년 10월 22일, 예고도 없이 갑작스럽게 3.5 버전을 출시하였다.# 이번엔 3.0과는 다르게 SD3.5 Large 모델로 바로 출시하였다.

3. 모델 아키텍처

Stable dIffusion은 크게 보면 CLIP, UNet, VAE(Variational Auto Encoder, 자기부호화기)이라는 세 가지 인공신경망으로 이루어져 있다. 유저가 텍스트를 입력하면 텍스트 인코더(CLIP)가 유저의 텍스트를 토큰(Token)이라는 UNet이 알아들을 수 있는 언어로 변환하고, UNet은 토큰을 기반으로 무작위로 생성된 노이즈를 디노이징하는 방식이다. 디노이징을 반복하다 보면 제대로 된 이미지가 생성되며, 이 이미지를 픽셀로 변환하는 것이 VAE의 역할이다.

해상도가 높아질수록 리소스를 기하급수적으로 사용하게 되는 종전의 확산 확률 이미지 생성 모델과 달리, 앞뒤에 오토인코더를 도입하여 이미지 전체가 아닌 훨씬 작은 차원의 잠재공간(latent space)에서 노이즈를 삽입/제거하므로, 비교적 큰 해상도의 이미지를 생성하는데도 리소스 사용량을 대폭 줄여 일반 가정의 그래픽카드 정도로도 이용이 가능해진 것이 특징이다.

4. 라이선스

Stable AI에서 오픈소스 머신러닝 전용 라이선스[9]를 새로 만들었다. 일반적인 오픈소스 라이선스와 다르게 Stable Diffusion을 사용하여 서비스를 할 경우 반드시 명시를 하여야 하고 파인튜닝을 한 모델들은 라이선스에 명시된 특정 제한적인 용도에는 사용이 되면 안 된다.

5. 직접 구동하기

Promptus - ComfyUI 클라우드를 지원하는 AI 플랫폼이다. 고성능 로컬 그래픽카드가 없어도 웹상에서 즉시 SDXL, SD3.5 등을 구동할 수 있으며, 탈중앙화 GPU 마켓플레이스를 통해 컴퓨팅 자원을 대여하거나 제공할 수 있는 것이 특징이다. 상세한 데이터 정보는 위키데이터(Wikidata)에서 확인할 수 있다.
오픈소스 모델답게 다양한 오픈소스 프로젝트들이 존재한다. 다만 설명은 영문으로 되어있으니 주의할 것.
체크포인트 모델들은 확장자가 ckpt와 safetensors로 나뉘어있는데 후자가 보안측면에서 더 우월하다.
원작자 - 논문을 게재한 CompVis의 원본 프로젝트. 사용성은 떨어지니 참고만 하자.
Stable Diffusion web UI - 개발자의 ID이기도 한 AUTOMATIC111이라고도 불린다. 한국에선 이를 번역해서 자동좌. 웹 기반의 유저 인터페이스("Web UI")를 통해 Stable Diffusion 모델에 다양한 부가 기능을 통합한 프로젝트이다. 꾸준한 업데이트를 통해, Stable Diffusion의 프론트엔드 기능 외에도 GFPGAN 보정, ESRGAN 업스케일링, Textual Inversion 등 다양한 기능을 도입하고 있다. 또한 컨트롤넷이라는 플러그인으로 포즈 지정이 가능하다. 신체 부위에 해당하는 각색의 작대기를 조절하는 Openpose에서 선화 수준의 밑그림 구도를 기반으로 이를 보조해주는 Canny 모델 등 여러 가지 ControlNet 대응 보조모델을 사용할 수 있다.

SD.Next - Web UI 포크로 시작하여 Web UI와 매우 유사하나 내부적으로 LDM 대신 Diffusers를 사용한다. 여러 추가 기능도 지원하고 있지만 일부 확장이 호환되지 않는다.
AMD GPU를 사용중일 경우 사용 가능한 Web UI - ZLUDA와 DirectML을 지원한다.[10]
reForge - Web UI 기반으로 성능을 최적화하여 web UI에 비해 빠른 속도와 낮은 VRAM 사용량을 보인다. 기본적으로 제공하는 추가 기능들이 있지만 일부 확장이 호환되지 않는다.
Forge-classic - 상단의 reForge와 유사한 Forge의 포크 브런치 중 하나. reForge의 경우 업데이트가 될 수록 점점 실험적이고 라이트한 유저들에겐 필요없는 기능과 옵션이 늘어가는 추세라 정말 classic 하고 라이트하게 기능을 유지하며 최신 기술들과 추세에 맞게 업데이트하는 것을 목표로 하는 포크 버전이다. a1111 자체가 구세대화 돼 가는 와중에도 최근까지 업데이트를 활발히 한다. RTX 40 시리즈 이상의 GPU 사용자라면 해당 WebUI를 사용하는 것이 좋다. 여러 AI 생성 관련 최적화가 최신화되어 급이 다른 생성 속도를 보여준다.[11] 정말 기본적인 기능들만 놔둬서 더 고급 도구들이 필요한 경우 reForge나 Forge-neo 브런치를 사용해 보는 것이 좋다.

ComfyUI
Diffusers - Transformers나 Datasets 같은 머신러닝 프레임워크 제공사로 유명한 HuggingFace의 새로운 diffusion 모델용 프레임워크. stable diffusion의 finetuning을 하고 싶다면 가장 쉽게 할 수 있는 방법을 제공해준다.
DiffusionBee - Stable Diffusion을 직접 돌려볼 수 있는 맥용 앱이다. 텍스트 입력과 이미지 입력 둘 다 가능하며 인페인팅과 아웃페인팅 기능도 지원한다. 일반 Apple Silicon 버전은 애플 실리콘 내부의 뉴럴 엔진을 사용하고, HQ 버전은 GPU를 활용하여 퀄리티가 더 높은 대신 속도가 2배 정도 느리다. 인텔 맥도 지원 중이며 향후 윈도우도 지원 예정. [12]
Draw Things - Stable Diffusion을 직접 구동할 수 있는 iOS, iPadOS 및 macOS용 앱이다. CPU + GPU, CPU + Neural Engine, CPU + GPU + Neural Engine(All)의 3가지 모드를 지원한다. WebUI와 동일하게 Checkpoint, LoRA, Textual Inversion 등을 활용할 수 있고 Inpaint 등의 WebUI 핵심기능들도 지원하고 있어 WebUI 사용자라면 빠르게 적응할 수 있는 것이 장점. 다만 WebUI 확장기능과 같은 것은 지원하지 않으며, iOS 및 iPadOS의 경우 메모리 용량의 한계로 인해 2023년 기준으로 구형 기기는 물론 신형 기기에서조차 일정 해상도 이상으로 구동했을 경우 메모리 부족으로 앱이 꺼지는 일이 종종 발생한다.
Riffusion - 스펙트로그램을 역이용해 작곡 AI에 응용하려는 사례
디시인사이드 AI 이미지 갤러리 - civitai의 서비스를 이용해서 AI이미지 생성이 가능한 전용 갤러리를 오픈했다.
뤼튼 채팅창에 '~그려줘' 를 입력하면 AI이미지를 생성해준다.
SDAI - Android용 Stable Diffusion 클라이언트 앱으로 Stable Diffusion을 이용한 클라우드 서비스 외에도 Local Diffusion이라고 모델을 직접 설치해서 사용할수도 있다.
Intel AI Playground 인텔 GPU, 및 NPU가 포함된 CPU의 경우 인텔 AI Playground에서 체험해볼 수 있다. 자유도는 조금 부족하지만, 인터페이스가 직관적이라 난이도가 어렵지 않고 인텔 시스템에서 성능을 가장 잘 내주기 때문에 AI 입문용이라면 고려해 볼 만 하다.

6. 사건 사고

6.1. 저작권 관련 소송

자세한 내용은 그림 인공지능/논란 및 사건 사고 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[그림 인공지능/논란 및 사건 사고#s-8.1|8.1]]번 문단을

#!if 문단 == null & 앵커 != null
의 [[그림 인공지능/논란 및 사건 사고#|]] 부분을

참고하십시오.

7. 관련 문서

8. 외부 링크

위키백과(영문)
Free AI Image Generator: 무료 AI 이미지 생성기
Vimg.ai: AI 이미지·영상 생성기
Civitai
nordy.ai: 한국 기업으로는 유일하게 comfyui를 제공하는 서비스로써 한국 comfyUI 및 SD크리에이터들이 활동하고 있다. 해외 workflow들을 탑재하거나 국내 크리에이터들이 만든 workflow와 이미지들이 주를 이루고 있다.nordy에서 만들어진 workflow가 civitai등에서 제일 인기를 끄는 경우도 있으며 반대로 타 서비스의 workflow도 nordy에 들어와있다. 기본적으로 한국어와 영어 설정이 가능.현재까지는 무료로 사용가능하나 언제 유료화가 될지 모른다. 추가적으로 한국 기업이다보니 24시간 채널톡상담이 가능하다는 게 장점으로 comfy를 처음 사용해보는 초보자들에게 가장 적합하며 대학교 교재로도 해당 서비스를 사용하고 있다. 범용서비스이다보니 NSFW 이미지는 자동 블러처리가 되는편. 최근에는 comfyUI 전문가들을 초빙하여 네트워킹 행사를 무료로 개최하는 등 많은 노력을 하고 있는 편이다.
Openroleplay.ai: Stable Diffusion 모델 서너 개를 활용한 이미지 생성 기능을 제공한다. 애니메이션 화풍 이미지를 생성하는 Animagine XL이 기본값으로 설정되어 있다. 아직까지는 비공개로 이미지를 설정할 수 없는 것으로 보이고 NSFW 이미지는 생성이 가능하지만 블러처리된다.
Hugging Face: Stable Diffusion을 비롯해 각종 인공지능 모델을 업로드하는 세계 최대의 인공지능 플랫폼이긴 하나, Stable Diffusion에 특화된 Civitai와 비교하면 불편한 점이 많아 일반인이 사용하기에는 아무래도 접근성과 편의성이 조금 떨어지는 편이다. 그래도 수준이 높은 전문 모델이나 더욱 다양한 자료들이 이곳을 중심으로 공유되는 편이며, 잘 뒤져보면 Civitai에는 없는 자료나 재업로드된 과거 자료들을 많이 찾아 볼 수 있는 편.
Pixai: Civitai와 마찬가지로 Stable Diffusion 관련 자료를 공유하는 플랫폼으로, Civitai에 비해서 좀 더 오타쿠 쪽 이용이 많았다. 자체 그림 생성 서비스를 제공하는데, 학습 및 LoRA 파일 제작 기능도 지원하고 있어서 학습에 대한 진입장벽을 어느 정도 낮추는데 기여했다. 다만 학습이 간결화되어있고 제한 횟수도 있어 프롬프트와 태그가 부정확하거나 퀄리티가 낮은 저질 LoRA 파일도 자주 나오고 있고, 유료 구독을 하지 않으면 여러 가지 기능이 제한되는지라 Civitai에 비하면 대중성이 떨어지는 편. 그러나 이후 자체 학습도 지원해주는 플랫폼이 더 생겨났고, 사이트 자체 검열이 크게 강화됨과 동시에 과거 자료들에 대한 관리가 제대로 이뤄지지 않고 있으며, 결정적으로 유저층이 SD1.5에서 SDXL(특히 Pony Diffusion V6)로 넘어가는 추세에 잘 대응하지 못한 탓에 인기가 저조해졌다.
Tungsten.run: 사용자들이 업로드한 다양한 Stable Diffusion 모델들이 모여있다. 서버가 불안정한 편이지만 유료 구독시 무제한으로 생성이 가능하다.[13]
Empty Canvas: Pixai처럼 Stable Diffusion 모델 기반 (추정)으로 애니메이션 화풍의 그림을 생성할 수 있는 서비스다. 조작 방식은 미드저니 등과 비슷한 것으로 보인다.
위키데이터(Wikidata): Promptus

[1] Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (CVPR) (pp. 10684-10695). #[2] Stable Diffusion AI 개발을 위해 학습에 들인 비용은 약 $600,000 정도로 추정된다고(#).[3] 80억개짜리 풀 버전이 아니라는 점에 실망하는 사람들이 많은데, 80억개 버전은 아직 학습 및 테스트가 끝나지 않은 것으로 알려져 있고 예상되는 요구 사양도 훨씬 높다.[4] SD3 모델로 투자나 후원 등 금전적 이익을 얻으려면 이제 Stability AI에게 라이선스를 받아야 한다.[5] NovelAI Diffusion는 애당초 이런 라이선스에 민감한 유료 서비스의 일부고, NovelAI가 V3의 성공으로 상당한 돈을 벌었지만 정작 Stability AI는 파산 일보 직전이기 때문에 회사 입장에서는 더욱 민감한 상황일 것이다. Pony Diffusion의 경우 SD3 기반으로 V7을 제작할 예정이었지만 라이선스 및 소통 문제가 발생하자 회사의 입장을 이해하지만 우선 SDXL 기반 V6.9를 먼저 출시할 것이라고 밝혔다.[6] 이전 텍스트 인코더였던 OpenAI의 CLIP은 비공개 데이터셋을 기반으로 학습되었고 OpenCLIP은 오픈 소스 데이터셋인 Laion-2B를 기반으로 학습되었다. CLIP의 비공개 데이터셋에 존재하던 작가들이 Laion-2B에는 없었기 때문에 일어난 일이다. 다만 Laion-2B의 질이 전반적으로 떨어지기 때문에 확실히 모델이 열화된 느낌이 있다.[7] 다만, 이는 어디까지나 본사의 Stable Diffusion 기본 모델에만 해당되는 사항이다. 외부 유저들의 손을 거쳐 만들어진 Stable Diffusion 모델들은 이 기능으로 삭제를 요청해도 당연히 소용없다.[8] 그나마 SDXL 모델 사용시 로마자 같은 경우 얼추 비슷하게 나오긴 한다.[9] CreativeML Open RAIL-M[10] DirectML의 경우 AMD GPU가 아니더라도 DirectX 12를 지원한다면 사용할 수 있다.[11] RTX 40 기준 모든 최적화 기능과 옵션을 사용할 경우 SDXL에서 기존 a1111보다 최소 30% 이상의 성능 향상 효과가 있다. VRAM 사용량이 더 적은 것은 덤이다. RTX 30 카드도 일부 기능을 지원하여 10% 정도 성능향상을 노릴 수 있다.[12] 이와 관련해 한국어로 작성된 디퓨전 비 사용 가이드가 있다. WebUI와 마찬가지로 AI 모델을 적용하는 등도 가능하다.[13] 과거에는 무제한 생성 기능을 무료로 제공했다.

Stable Diffusion

1. 개요

2. 특징

3. 모델 아키텍처

4. 라이선스

5. 직접 구동하기

6. 사건 사고

6.1. 저작권 관련 소송

7. 관련 문서

8. 외부 링크

분류