나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2024-11-15 22:10:19

영상 인공지능

파일:관련 문서 아이콘.svg   관련 문서: 생성형 인공지능
,
,
,
,
,

인공지능
인공지능기계학습인공신경망딥 러닝
인공지능 - 인공지능 구현을 위한 몇 가지 기술이 존재한다.
기계학습 - 많은 매개변수를 넣어주면 모델이 스스로 규칙을 학습하는 방식의 인공지능 구현 방법이다.
인공신경망 - 인간의 뉴런 구조를 본떠 만든 기계 학습 방법론이다.
딥 러닝 - 입력층과 출력층 사이에 있는 은닉층에 인공 뉴런을 여러 겹 쌓고 연결한 인공신경망 방법론 중 하나이다. 즉, 단일층이 아닌 실제 뇌처럼 다층 구조로 되어있다. 21세기에 와서는 (인공신경망=딥러닝)이라고 이해해도 무방하다.
인지 컴퓨팅 - 기계학습을 이용하여 특정한 인지적 과제를 해결할 수 있는 프로그램 또는 솔루션을 이야기한다.
뉴로모픽 컴퓨팅 - 인공 신경망을 하드웨어적으로 구현한 것이라고 생각하면 된다.

생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
유니모달 모델 기반
텍스트 [[소설|
소설
]] NovelAI · AI Dungeon · AI Novelist · GPTRPG
대화형 [[챗봇|
챗봇
]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok
[[언어 모델|
언어모델
]] GPT-1 · GPT-2 · GPT-3 · GPT-4 · o1 · LLaMA · Gemma · Claude · Phi · Exaone
코드 [[코드#컴퓨터 소프트웨어|
코드
]] GitHub Copilot · Devin · Phind
이미지 [[그림 인공지능|
그림
]] Midjourney · DALL·E · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly · Deep Dream Generator
[[영상 인공지능|
영상
]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Luma Dream Machine · Kling AI
[[모델링|
모델링
]] LATTE3D
오디오/소리 [[음성|
음성
]] A.I.VOICE · DeepVocal · Voice Engine
[[음악|
음악
]] Suno · Stable Audio · Udio · AIVA · SOUNDRAW · keeneat · Mix.audio · vio.dio
멀티모달 모델 기반
대화형
+이미지
Exaone 2.0 · Samsung Gauss
+음성/이미지
GPT-4o · GPT-5 · Gemini
+에이전트
Claude 3.5 Sonnet
행위/동작 [[지능형 에이전트|
에이전트
]] Apple Intelligence · Google Jarvis
[[인공지능 로봇|
체화
]] Tesla optimus · Google RT-X · Project Gr00t
}}}}}}}}}
Midjourney, Kling Ai, Luma Dream machine으로 제작한 실마릴리온 영상화 트레일러

1. 개요2. 역사
2.1. 이력
3. 영상 인공지능 서비스4. 제작 프로토콜5. 인공지능 영화

1. 개요

영상 인공지능(映像 人工知能, Video AI)은 생성형 인공지능 기술의 한 분야로 영상 데이터를 분석 처리, 생성하는 딥러닝 알고리즘을 말한다. 트랜스포머, 잠재 확산 모델 아키텍처 등을 사용한다.

2. 역사

영상 인공지능의 발전사는 크게 두 갈래로 정리해볼 수 있는데 하나는 페이스 스왑, 즉 딥페이크로 시작한 영상 조작 기술이며 다른 하나는 텍스트나 이미지 인풋을 기반으로 하는 생성형 영상 인공지능이다.

하지만 딥페이크 인공지능 모델은 영상에 이미지를 덧씌우는 형태로, 원본 영상 자체가 인공지능으로 생성되지는 않는다. 이런 유형의 인공지능 모델이나 서비스는 딥페이크로 통칭되며 생성형 영상 인공지능과는 별개의 것으로 간주되는 경향이 있다. 실질적으로 영상 인공지능이라 하면 T2V, I2V 기능을 갖춘 생성형 영상 인공지능을 일컫는 경우가 대부분이다.

생성형 영상 인공지능의 역사는 2023년 Runway AI사의 Runway gen1과 gen2가 시작이라고 할 수 있다. Runway gen1과 2 공개 이전의 생성형 인공지능 영상은 입모양을 바꾸거나 고개를 움직이게 하는 등 그림의 일부만 움직이는 것이 고작이었고 그게 아니면 그림 인공지능의 생성 결과물을 여러개 이어붙이는 방식이어서 부자연스럽고 일관성이 몹시 떨어졌다. 이에 반해 Runway gen1과 gen2는 클릭 한 번에 꽤 긴 길이의 비교적 일관된 형태의 영상을 만들 수 있어 i2v, t2v 모델의 가능성을 처음으로 보여주었다고 평가된다. 2023년 하반기에는 Pika labs가 Pika 1.0을 공개, 시장에서 유이한 t2v 생성형 영상 인공지능 서비스로서 양강 대결구도를 형성했다.

Runway gen2와 Pika 1.0은 그 이전의 생성형 영상 인공지능에 비해 진일보한 결과물을 만들어 냈으나 생성되는 영상 길이가 짧기도 하거니와 퀄리티 측면에서도 CGI나 실사 촬영 등 일반적인 방식으로 만들어지는 영상에 비하면 크게 떨어졌다. 시간적 일관성은 여전히 부족하기 짝이 없었으며 결과물에 대한 통제 범위에도 한계가 뚜렸했기에 일반 대중으로부터 폭넓은 관심을 받지는 못했다.

영상 인공지능이 대중적인 인지도를 얻게 된 시점은 2024년 상반기부터였다. 이 새로운 시대의 시작을 알린 것은 OpenAI의 Sora였는데, Sora는 여러모로 DALL·E2에 비견할만한 영상 ai계의 분기점이었다고 할 수 있다. 당시 최신 모델이었던 Runway gen2에 결여 되어있는 현실성과 일관성을 갖추고 있었기 때문이다. Sora는 발표는 되었으나 일반 대중에 공개되지 않았으며 다른 영상 인공지능 개발사의 개발속도와 투자에 박차를 가하는 촉매제 역할을 하였다.

이후 Runway AI를 위시한 미국과 중국의 여러 개발사가 2024년 6월을 즈음하여 연달아 Sora에 비견되는 생성형 영상 인공지능 서비스를 공개하면서 2024년은 영상 인공지능의 실질적 원년이 되었다.

2.1. 이력

3. 영상 인공지능 서비스

2024년 현재 서비스되는 주요 영상 인공지능 서비스로는 Runway AI의 Runway gen3, Pika labs의 Pika 1.5, 콰이쇼우 테크놀로지의 Kling AI, Minimax사의 HailuoAI , Luma labs의 Dream machine등이 있으며 공개되지 않은 것 중에는 메타의 Meta movie gen과 Open AI의 Sora가 있다.

4. 제작 프로토콜

순수히 T2V로 제작하는 것도 가능하지만 시네마틱 비디오라고 할만한 수준의 영상은 대부분 Midjourney, Stable Diffusion, FLUX.1 등으로 고퀄리티의 그림을 생성한 후 이를 기반으로 텍스트 프롬프트와 image to video generation을 병행하는 방식으로 제작한다.

5. 인공지능 영화

생성형 영상 인공지능의 발전과 함께 인공지능 영화(AI film)라는 개념도 본격적으로 궤도에 오르기 시작했다. 인공지능 영화만을 위한 영화제들도 등장했으며, 한국에서도 경기콘텐츠진흥원 주도로 AI 국제영화제가 열리기도 했다.
대한민국 국제 AI 영화제 개막작 ‘아버지의 책’ 예고편


[1] Hailuo AI는 비디오 생성 기능 업데이트 이전에 LLM과 음악 AI서비스로 서비스를 시작했다.