나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2025-04-22 08:23:24

영상 인공지능

파일:관련 문서 아이콘.svg   관련 문서:
#!if top1 != null && 문서명1 == null
[DEPRECATED] top1 파라미터는 더 이상 사용되지 않습니다! 대신 문서명1 파라미터를 사용해 주세요.
#!if top1 == null && 문서명1 != null
[[생성형 인공지능]]{{{#!if 문서명2 != null
, [[]]}}}{{{#!if 문서명3 != null
, [[]]}}}{{{#!if 문서명4 != null
, [[]]}}}{{{#!if 문서명5 != null
, [[]]}}}{{{#!if 문서명6 != null
, [[]]}}}

인공지능
인공지능기계학습인공신경망딥 러닝
인공지능 - 인공지능 구현을 위한 몇 가지 기술이 존재한다.
기계학습 - 많은 매개변수를 넣어주면 모델이 스스로 규칙을 학습하는 방식의 인공지능 구현 방법이다.
인공신경망 - 인간의 뉴런 구조를 본떠 만든 기계 학습 방법론이다.
딥 러닝 - 입력층과 출력층 사이에 있는 은닉층에 인공 뉴런을 여러 겹 쌓고 연결한 인공신경망 방법론 중 하나이다. 즉, 단일층이 아닌 실제 뇌처럼 다층 구조로 되어있다. 21세기에 와서는 (인공신경망=딥러닝)이라고 이해해도 무방하다.
인지 컴퓨팅 - 기계학습을 이용하여 특정한 인지적 과제를 해결할 수 있는 프로그램 또는 솔루션을 이야기한다.
뉴로모픽 컴퓨팅 - 인공 신경망을 하드웨어적으로 구현한 것이라고 생각하면 된다.

생성형 인공지능
{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
유니모달 모델 기반
<colkeepall> 텍스트 [[소설|
소설
]] NovelAI · AI Dungeon · AI Novelist
대화형 [[챗봇|
챗봇
]] ChatGPT · Microsoft Copilot · Gemini · CLOVA X · Cue: · Inflection AI · Mistral AI · Grok
[[언어 모델|
언어모델
]] GPT · LLaMA · Gemma · Claude · Phi · Exaone · OpenELM · Qwen · DeepSeek
코드 [[코드#컴퓨터 소프트웨어|
코드
]] GitHub Copilot · Devin · Phind · DeepSeek
이미지 [[그림 인공지능|
그림
]] Midjourney · DALL·E · Imagen · Artbreeder · NovelAI Image Generation · Stable Diffusion · FLUX.1 · Gaugan2 · Dream by WOMBO · Adobe Firefly· Deep Dream Generator
[[영상 인공지능|
영상
]] Stable Video · Sora · Meta Movie gen · Lumiere · Veo · Runway AI · Kling AI
[[모델링|
모델링
]] LATTE3D
오디오
소리
[[음성|
음성
]] A.I.VOICE · DeepVocal · Voice Engine
[[음악|
음성/음악
]] Suno · Stable Audio · Udio · AIVA
멀티모달 모델 기반
대화형
+이미지
Exaone 3.5 · Samsung Gauss
+음성/이미지
GPT-4o · GPT-5 · Gemini · o1 · o3 · o4 · DeepSeek
+에이전트
Galaxy AI · Claude 3.7 Sonnet · SAIP
행위
동작
[[지능형 에이전트|
에이전트
]] Apple Intelligence · Project Astra · Operator · Google Jarvis · Manus AI
[[인공지능 로봇|
체화
]] Tesla optimus · Google RT-X · Gemini Robotics · Isaac Gr00t N1 · Helix
}}}}}}}}}

Midjourney, Kling Ai, Luma Dream machine으로 제작한 실마릴리온 영상화 트레일러

1. 개요2. 역사
2.1. 2023년 이전2.2. 2023년 이후2.3. 이력
3. 영상 인공지능 서비스
3.1. 공개 서비스3.2. 미공개 모델
4. 제작 방식5. 딥페이크와의 차이6. 활용
6.1. 영화6.2. 광고6.3. 밈

1. 개요

영상 인공지능(映像 人工知能, Video AI)은 생성형 인공지능 기술의 한 분야로 영상 데이터를 분석 처리, 생성하는 딥러닝 알고리즘을 말한다. 트랜스포머, 잠재 확산 모델 아키텍처 등을 사용한다.

2. 역사

2.1. 2023년 이전

영상 인공지능의 발전사는 크게 두 갈래로 정리해볼 수 있는데 하나는 페이스 스왑, 즉 딥페이크로 시작한 영상 조작 기술이며 다른 하나는 텍스트나 이미지 인풋을 기반으로 하는 생성형 영상 인공지능이다.

하지만 딥페이크 인공지능 모델은 영상에 이미지를 덧씌우는 형태로, 원본 영상 자체가 인공지능으로 생성되지는 않는다. 이런 유형의 인공지능 모델이나 서비스는 딥페이크로 통칭되며 생성형 영상 인공지능과는 별개의 것으로 간주되는 경향이 있다. 실질적으로 영상 인공지능이라 하면 T2V, I2V 기능을 갖춘 생성형 영상 인공지능을 일컫는 경우가 대부분이다.

2023년 이전의 생성형 인공지능 영상도 원시적이기는 마찬가지였는데 i2v나 v2v인 경우 입모양을 바꾸거나 고개를 움직이게 하는 등 그림의 일부만 움직이는 것이 고작이었다.

그게 아니면 그림 인공지능의 생성 결과물을 사람이 여러 개 이어 붙이는 방식이어서[1] 부자연스럽고 일관성이 몹시 떨어졌다.

2023년 당시 애프터이펙트를 사용해 AI필터로 가공한 이미지를 여러 장 이어붙이는 작업 방식을 소개하는 튜토리얼

2.2. 2023년 이후

생성형 영상 인공지능의 역사는 2023년 Runway AI사의 Runway gen1과 gen2가 시작이라고 할 수 있다. Runway gen1과 gen2는 자연어 프롬프트와 클릭 한 번에 꽤 긴 길이의 비교적 일관된 형태의 영상을 만들 수 있어 생성형 그림 인공지능과 비견되는 i2v, t2v 모델의 가능성을 처음으로 보여주었다고 평가된다. 2023년 하반기에는 Pika labs가 Pika 1.0을 공개, 시장에서 유이한 t2v 생성형 영상 인공지능 서비스로서 양강 대결구도를 형성했다.

Runway gen2와 Pika 1.0은 그 이전의 영상 인공지능에 비해 진일보한 결과물을 만들어 냈으나 생성되는 영상 길이가 짧기도 하거니와 퀄리티 측면에서도 CGI나 실사 촬영 등 일반적인 방식으로 만들어지는 영상에 비하면 크게 떨어졌다. 시간적 일관성은 여전히 부족하기 짝이 없었으며 결과물에 대한 통제 범위에도 한계가 뚜렸했기에 일반 대중으로부터 폭넓은 관심을 받지는 못했다.

t2v인공지능의 성능이 워낙 후달리다보니 당시에는 원본 영상에 텍스트 프롬프트를 더 해 style transfer를 해주던 Warpfusion같은 서비스가 Runway gen2와 Pika 1.0같은 t2v 피쳐를 지원하는 서비스 보다 더 자주 활용되는 편이었다. 2023년 11월 출시된 Warpfusion은 텍스트 프롬프트를 먹일 수도 있고 디퓨전 모델 기반이기는 했으나 원본영상이 반드시 필요하고 인풋과 아웃풋 모달리티가 하나로 정해져 있다는 점에서 작업 방식은 오히려 이전의 딥페이크에 가깝다고 할 수 있었다.

Warpfusion의 경우 원본 영상을 따로 넣다보니 당시의 t2v 인공지능에 비해 인체의 형체나 영상의 전반적인 전개를 잘 통제할 수 있었다. 주로 숏폼 안무 영상에 특이한 디자인이나 컨셉을 덧씌우는 용도로 쓰기는 했지만 Warpfusion으로 만드는 영상은 인공지능 그림을 하나하나 손수 이어붙인 영상들과 마찬가지로 세부적인 디테일이 콜라주처럼 정신없이 변했기 때문에 큰 인기를 얻지는 못했다.

영상 인공지능이 대중적인 인지도를 얻게 된 시점은 2024년 상반기부터였다. 이 새로운 시대의 시작을 알린 것은 OpenAI의 Sora였는데, Sora는 여러모로 DALL·E2에 비견할만한 영상 ai계의 분기점이었다고 할 수 있다. 당시 최신 모델이었던 Runway gen2에 결여 되어있는 현실성과 일관성을 갖추고 있었기 때문이다. Sora는 발표는 되었으나 일반 대중에 공개되지 않았으며 다른 영상 인공지능 개발사의 개발속도와 투자에 박차를 가하는 촉매제 역할을 하였다.

이후 Runway AI를 위시한 미국과 중국의 여러 개발사가 2024년 6월을 즈음하여 연달아 Sora에 비견되는 생성형 영상 인공지능 서비스를 공개하면서 영상 인공지능이 사람들의 생활 속에 본격적으로 침투하게 되었다. 영상 인공지능은 그림 인공지능에 비해 중국 기업들의 활약이 특히 두드러졌는데 Kling, Hailuo, Hunyuan 등의 쟁쟁한 모델들이 전부 중국 기업들의 것이다.

영상 인공지능의 2024년의 한 해 동안의 발전 추이를 보면 열띤 경쟁과 이미 어느정도 성숙해있던 기술에 힘입어 꽤나 단기간에 퀄리티와 일관성이 상승한 측면이 있다. 이는 초창기 생성형 그림 인공지능과 비교해도 매우 빠른 속도다. 영상 인공지능 서비스들이 짧은 시간 동안 비약적 퀄리티 상승을 만들어낸 탓에 기술 시연 영상 만으로도 업계의 위기감을 불러온 Sora조차 연말에 공개될 때 쯤에는 다른 상업 서비스들에 뒤쳐져 버리는 결과를 가져왔다.

2025년 현재는 비싼 가격에도 불구하고 Veo 2가 압도적인 SOTA 성능을 보여주고 있으며, Kling, Runway 등 기존의 인기 서비스들도 연달아 신버전을 발매하며 바싹 뒤쫓아가는 모양새이다.

2.3. 이력

3. 영상 인공지능 서비스

2024년 현재 서비스되는 주요 영상 인공지능 서비스로는 Runway AI의 Runway gen3, Pika labs의 Pika 1.5, 콰이쇼우 테크놀로지의 Kling AI, Minimax사의 HailuoAI , Luma labs의 Dream machine등이 있으며 공개되지 않은 것 중에는 메타의 Meta movie gen과 Open AI의 Sora가 있다.

3.1. 공개 서비스

3.2. 미공개 모델

4. 제작 방식

순수히 T2V로 제작하는 것도 가능하지만 2024년 현재까지 나온 인공지능 영상 가운데 시네마틱 비디오라고 할만한 수준의 영상은 대부분 Midjourney, Stable Diffusion, FLUX.1 등으로 고퀄리티의 그림을 먼저 생성한 후 이를 Kling, Hailuo 등 영상 인공지능의 인풋으로 사용해 텍스트 프롬프트와 image to video generation을 병행하는 방식으로 제작하는 경우가 많다.

하지만 SoraVeo 2의 경우 T2V 성능이 오히려 I2V나 T2I2V보다 뛰어나다고 한다. # 특히 베타테스트를 진행 중인 Veo 2의 경우 외부 이미지를 들여와 영상으로 변형하는 I2V 기능이 아예 없기 때문에 대개 텍스트 프롬프트만으로 영상을 제작한다.

5. 딥페이크와의 차이

딥페이크는 생성형 영상 인공지능보다 먼저 등장한 기술로, 특정 인물의 얼굴을 다른 영상에 합성하여 마치 그 인물이 실제로 해당 행동을 하는 것처럼 보이게 만드는 기술이다. 기본적으로 기존의 영상 데이터를 변형하여 새로운 콘텐츠를 만들어내는 방식으로 작동한다.

반면, 생성형 영상 인공지능은 완전히 새로운 영상을 생성하는 데 초점을 둔다. 영상 인공지능은 방대한 데이터 세트에서 패턴을 학습하고 이를 기반으로 사용자의 입력이나 프롬프트에 따라 새로운 영상을 만들어낸다. 예를 들어, 텍스트 프롬프트나 사진을 입력하면 해당 인풋을 레퍼런스 삼아 시각화한 영상을 생성하는 식이다. 기존의 데이터를 변형하는 딥페이크와 달리 완전히 새로운 콘텐츠를 창조하는 것이다.

현재는 이렇게 개념적인 구분이 존재하지만 머지 않은 미래에는 이런 구분이 희미해질 공산이 있다. 첫 번째 이유는 기술 발전으로 인한 세대 교체다. 지금의 영상 인공지능은 몇 가지 기술적 한계를 떠안고 있다. 그 중 하나는 일관되고 자연스러운 롱테이크 영상 생성. 카메라 컨트롤 등의 기술이 발전하고 있으나 일관성을 절대적으로 고수하려면 후처리나 반복 생성 후 취사선택이 필요하다. 그나마도 잦은 장면 전환 없이 자연스러운 결과물을 만들려면 영화 티저나 짧은 광고 정도의 길이가 한계다. 또 다른 주요 기술적 한계는 영상 인공지능이 제시된 프롬프트에 100% 충실한 영상을 만들지 못한다는 것이다. 개념적으로는 어떤 툴로 영상을 처음부터 끝까지 생성할 수 있다면, 같은 툴로 영상을 부분적으로 수정하는 것도 가능해야 맞다. 하지만 2025년 현재로서는 영상 인공지능으로 생성되는 영상의 모든 디테일을 통제하기는 어렵거나 사실상 불가능하다. 그래서 비용 문제를 차치하고서라도 기술적인 이유로도 여전히 딥페이크가 필요한 것이다.

그러나 현재의 기술발전 추이를 비추어 볼 때, 영상 인공지능이 가진 한계가 앞으로도 계속될 것이라고 전망하기는 어렵다. 레퍼런스 이미지를 따라 인물 영상을 생성하는 것은 이미 기술적으로 구현 가능한 영역이다. 일관성 문제이나 프롬프트 충실성 문제만 해결되면 딥페이크는 사양 기술이 되어 빠르게 사라지고 생성형 인공 지능이 딥페이크의 역할과 수요를 전면적으로 흡수할 가능성이 높다.

그리고 생각해볼만한 문제가 하나 더 있는데, 고성능 로컬 영상 모델의 등장으로 인한 검열 무력화가 바로 그것이다. 딥페이크의 악용 사례는 대개 딥페이크 모델이 로컬로 돌아가는 모델이라는 점에서 기인한다. 즉, 훈련과 운용에 있어 별다른 제약사항이 없다는 것이다. 이에 반해 퀄리티가 높은 영상 인공지능은 기업에서 구축해서 서비스하므로 상당한 수준의 검열과 제약이 걸려있고 퀄리티가 높아질수록 생성 비용도 높아진다. 추후 기술 발전으로 로컬모델이 생성하는 영상의 수준이 높아지면 실제 인물이 등장하는 그럴듯한 영상을 만드는데 기술적, 경제적 제약이 낮아진다. 영상 인공지능의 상품성과 저변 확대에는 도움이 되겠으나 이렇게 되면 그 동안 딥페이크가 초래해온 각종 사회적 논란 및 불법적 영상물 무단 생성 이슈 역시 생성형 영상 인공지능이 그대로 물려받게 된다.

6. 활용

6.1. 영화

생성형 영상 인공지능의 발전과 함께 인공지능 영화(AI film)라는 개념도 본격적으로 궤도에 오르기 시작했다. 인공지능 영화만을 위한 영화제들도 등장했으며, 한국에서도 경기콘텐츠진흥원 주도로 AI 국제영화제가 열리기도 했다.
대한민국 국제 AI 영화제 개막작 ‘아버지의 책’ 예고편

6.2. 광고

코카콜라 광고 '휴일이 온다'[3]

2024년 말을 기점으로 생성형 영상 인공지능을 광고 및 마케팅의 수단으로 삼는 기업들이 본격적으로 생기기 시작했다. 코카콜라도 그 중 하나.

2024년 11월 14일 틱톡은 게티 이미지와 협력하여 인공지능 광고 제작도구에 영상 생성 기능을 추가하기도 했다.#

6.3.



[1] 재료가 되는 그림은 텍스트 프롬프트로 바로 생성하는 경우도 있었으나 원본 영상이 따로 있거나 3D 모델링을 먼저하고 i2i로 생성한 인공지능 그림을 이어붙이는 경우도 있었다.[2] Hailuo AI는 비디오 생성 기능 업데이트 이전에 LLM과 음악 AI서비스로 서비스를 시작했다.[3] 코카콜라가 생성형 영상 인공지능을 사용해 1995년 동명의 자사광고를 재현한 광고