나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2025-12-05 12:33:10

DeepSeek


{{{#!wiki style="margin: 0 -10px -5px; min-height: 26px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1.5px -13px"
파일:OpenAI-black-monoblossom.svg파일:OpenAI-white-monoblossom.svg
ChatGPT
파일:Gemini(앱) 아이콘 (2025).png
Gemini
파일:claude 심플 로고.svg
Claude
파일:Grok_로고.svg파일:Grok_로고_다크.svg
Grok
파일:Windows Copilot 로고.svg
Copilot
파일:perplexity 심플 로고.svg
Perplexity
파일:DeepSeek 아이콘.svg
DeepSeek
MAU 1천만 이상 · 대화형 인공지능 서비스 전체
}}}}}}}}} ||
<colcolor=#fafcfe,#fafcfe> 딥시크
深度求索 | DeepSeek
파일:DeepSeek 로고.svg
<colbgcolor=#4f6bfe,#4f6bfe> 분류 LLMs 언어 모델
국가
#!if 행정구 == null && 속령 == null
[[중국|{{{#!wiki style="display: inline; color: ;" dark-style="color: ;"
{{{#!wiki style="display: inline-flex; vertical-align: middle; border: .0625rem solid #ddd;" dark-style="border-color: #383b40;"
[[파일:중국 국기.svg|width=24]]}}} {{{#!if 출력 == null
중국}}}{{{#!if 출력 != null
}}}}}}]]
#!if 국명 == null && 속령 == null
[[틀:국기|{{{#!wiki style="display: inline; color: ;" dark-style="color: ;"
{{{#!wiki style="display: inline-flex; vertical-align: middle; border: .0625rem solid #ddd;" dark-style="border-color: #383b40;"
[[파일: 특별행정구기.svg|width=24]]}}} {{{#!if 출력 == null
행정구}}}{{{#!if 출력 != null
}}}}}}]]
#!if 국명 == null && 행정구 == null
[[틀:국기|{{{#!wiki style="display: inline; color: ;" dark-style="color: ;"
{{{#!wiki style="display: inline-flex; vertical-align: middle; border: .0625rem solid #ddd;" dark-style="border-color: #383b40;"
[[파일: 기.svg|width=24]]}}} {{{#!if 출력 == null
속령}}}{{{#!if 출력 != null
}}}}}}]]
개발사 항저우 심도구색 인공지능 기초기술 연구 유한회사[1]
설립일 2023년 7월 17일
MAU 약 1억 명[2]
라이선스 MIT 라이선스^논문, 코드^
DeepSeek License Agreement^모델^
최신 버전 V3.2, R1-0528
설립자 량원펑(梁文锋)
링크 파일:DeepSeek 아이콘.svg | 파일:GitHub 아이콘.svg파일:GitHub 아이콘 화이트.svg | 파일:허깅페이스 아이콘.svg |

1. 개요2. 상세3. 이력4. 제품
4.1. 모델 공개일4.2. DeepSeek-Coder-V24.3. DeepSeek-V2.54.4. DeepSeek-VL24.5. DeepSeek-V3
4.5.1. R1T-Chimera(V3+R1)4.5.2. DeepSeek-Prover-V2
4.6. Deepseek V3.1
4.6.1. Deepseek V3.1-Terminus
4.7. Deepseek V3.24.8. DeepSeek-R1
4.8.1. R1-1776(검열 제거버전)4.8.2. R1T2-Chimera
4.9. Janus4.10. DeepSeek-R2
5. 로컬 사용6. 논란 및 사건 사고
6.1. 중국 정치에 대한 검열6.2. OpenAI 학습 데이터 무단 수집 의혹6.3. 중국으로의 사용자 개인정보 전송
6.3.1. 각국의 사용제한 조치
7. 여담8. 둘러보기

1. 개요

Hi, I'm DeepSeek.
How can I help you today?
안녕하세요, 저는 딥시크입니다.
오늘은 어떻게 도와드릴까요?
DeepSeek에 처음 접속 시 나오는 문구
DeepSeek(深度求索)는 중국헤지펀드 회사 환팡퀀트(幻方量化) 소속 인공지능 연구 기업의 이름이자 같은 회사에서 개발한 오픈 웨이트(Open-Weights)[3] 언어 모델 제품군의 모델명이다. 공학 박사 량원펑이 창업한 회사다. #

2. 상세

중국의 AI 기업인 딥시크는 제한된 자원낮은 비용으로도 고성능 AI 모델을 개발하였고, AI 기술 개발의 비용 장벽을 낮추는 데 성공했다. 이러한 변화는 한국에게도 중요한 시사점을 제공한다. 또한, 딥시크의 모델이 오픈소스로 공개됨에 따라 한국 기업에게도 기회가 생겼다.

오픈 AI 샘 올트먼 CEO는 딥시크를 경쟁자라고 표현했다. 현재 업계는 딥시크가 오픈AI나 앤스로픽 등의 경쟁 모델보다 훨씬 적은 비용으로 AI 모델을 개발했다는 데에는 이견이 없다.#

3. 이력

2024년 12월 발표된 DeepSeek-V3 모델은 서구권에서 개발된 LLM 모델과 경쟁할 수 있을 정도의 성능을 보여 많은 주목을 받았는데, 특히 V3를 개발하는 데 있어 고작 80억 원 수준에 불과한 적은 비용이 들었다는 사실[4]이 알려지면서, 수천억 원의 비용을 들여 엄청난 연산 자원을 축적해야만 고성능 AI를 개발할 수 있다고 굳게 믿어왔던 시장의 고정관념을 깨뜨리는 계기가 되었다.[5]

OpenAI 같은 기존의 선두 그룹들이 조 단위의 천문학적인 자금을 AI 개발에 투입하는 상황에서 이 발표는 워낙 충격적이라 학습에 필요한 자금을 축소하여 발표한 것이 아니냐는 의혹이 제기되었는데, 발표한 논문에서 학습 방법을 공개했기 때문에 학습 비용을 속이는 게 불가능하다는 의견도 있다. 실제로, 비교적 적은 비용으로 논문의 결과가 재현된다는 것이 홍콩대 연구진에 의해 확인되었으며 학습 과정을 복제하려는 프로젝트들도 생겨나고 있다.

뒤이어 2025년 1월에 발표된 추론 모델, DeepSeek-R1은 supervised fine-tuning 기법을 건너뛰고 오로지 강화학습 기법만으로도 뛰어난 추론 성능을 얻어낼 수 있음을 증명했다는 높은 평가를 받았다. 특히 OpenAI o1 모델과 비교하여 수학, 영어, 코딩 부문에 있어 경쟁할 수 있는 수준의 성능을 갖추면서도, 최대 95%까지 더 저렴한 가격을 내세워 전 세계의 관심을 끌었다.

DeepSeek R1이 가져온 엄청난 파급력으로 인해, 일각에선 OpenAIChatGPT 무료 사용자들에게도 o3-mini 모델을 제한적으로 제공하기 시작한 것에 DeepSeek R1이 영향을 주었을 것이라는 시각도 있다.

DeepSeek CEO 량원펑(梁文锋)은 R1 공개일인 2025년 1월 20일에 중국의 리창 총리와 면담을 가졌다.

"전 세계에 AGI를 오픈 소스로 제공하는 것이 목표"라고 밝힌 만큼, 실제로 DeepSeek에서 개발된 각종 모델들과 관련 논문들은 오픈 소스(모델의 경우 오픈 웨이트)로 배포되고 있다. OpenAI가 정작 이름과는 달리 모든 모델을 클로즈드 소스로 서비스하고 있는 만큼 중국의 DeepSeek야말로 어떤 의미에서는 진정한 "Open" AI라는 평가도 나오고 있다.

4. 제품

모든 제품의 코드는 MIT 라이선스 하에, 모델은 자체 라이선스(DEEPSEEK LICENSE AGREEMENT)하에 오픈 소스로 공개하고 있다. R1 모델은 MIT 라이선스로 공개되었다.

4.1. 모델 공개일

제품명: 공개일자

4.2. DeepSeek-Coder-V2

2024년 6월 17일에 공개되었다.#

DeepSeek-V2에서 6조 개의 토큰을 추가 학습하여 일반적인 작업에서의 성능을 유지하면서 코딩과 수학적 추론 능력을 향상시켰다고 한다. 지원 프로그래밍 언어를 86개에서 338개로 확장하고 컨텍스트 길이를 16K에서 128K로 확장했다고 한다.

공개된 벤치마크 데이터에 의하면, GPT-4o-0513과 거의 비슷한 성능을 보여준다.

4.3. DeepSeek-V2.5

2024년 9월 5일에 공개되었다.#

V2(0614)와 Coder-V2(0517)를 각각 파인튜닝하여 업그레이드한 뒤 두 모델을 통합시켜 만들었다고 한다.

기존 2.5 버전을 파인-튜닝 한 V2.5-1210이 12월 10일에 출시되었다.#

4.4. DeepSeek-VL2

2024년 12월 13일에 공개되었다.#

기존 VL1을 업그레이드한 버전이며, 1B, 2.8B, 4.5B 3가지 모델로 구성되어 있다.

4.5. DeepSeek-V3

2024년 12월 26일에 공개되었다.#

V2 대비 반응 속도가 3배 빨라졌으며, 개발사가 공개한 벤치마크에서는 Claude-3.5-sonnet-1022, GPT-4o-0513, LLama3.1-405B-Inst, Qwen2.5-72B를 압도하는 성능을 보여주었다. 실제로도 저렴한 API 가격에 상당한 성능으로 높은 가성비를 보이고 있다.

한편, 겨우 2048개 NVIDIA H800 클러스터를 이용해 278만 8천 GPU 시간만에 671B에 달하는 대형 모델을 학습했다고 밝히면서 업계에 충격을 주었다. H800은 미국의 대()중국 수출규제에 따른 중국 수출용 모델로, 원본인 H100 대비 NVLink 대역폭이 반토막나고 배정밀도 전송속도는 3%인 저가형 스펙다운 모델이기 때문에 더욱 충격이 컸다.#

GIT에 공개한 딥시크 테크니컬 리포트 한글요약본

2025년 3월 24일에 685B 크기의 리비전 모델을 HuggingFace에 공개하였다.#

2025년 8월 19일, LMArena에 lmarena-internal-test-only 라는 모델이 등장했는데, 스스로 딥시크 V3라고 주장하고 있다.
파일:Deepseek-V3-0324.png
V3-0324 모델 벤치마크

4.5.1. R1T-Chimera(V3+R1)

독일 TNG Technology에서 V3-0324와 R1을 합치는 실험을 진행, 그 결과 V3의 빠른 반응 속도와 R1의 높은 지능을 둘다 겸비한 매우 높은 수준의 모델이 나왔다고 발표했다.모델발표

Chimera모델은 V3대비 벤치마크 점수 기준 12~13점 더 높은 점수를 획득, R1 대비 40% 적은 출력 토큰을 사용한다고 한다.

R1모델의 추론 과정보다 훨씬 정제된 수준으로 추론하며, 큰 결함은 발견되지 않았다고 한다.

4.5.2. DeepSeek-Prover-V2

2025년 4월 30일에 갑작스럽게 공개된 모델이다. 671B와 7B 2가지가 있으며, 수학 증명에 특화된 LLM이라고 보면 된다.

Deepseek-V3 모델을 기반으로 만든 모델이며, 수학 정리를 기계가‘증명’할 수 있도록 특화된 모델이다.
사람이 수학문제를 푸는 원리를 모방하여, 복잡한 정리를 "매우 작은 단위"로 쪼갠 뒤 천천히 해결하는 방식으로 연산한다.

문제를 서브골[6]로 분해 → 7B 보조모델로 각 서브골의 해법 수집 → 이 과정을 “사고 흐름 + 형식 증명” 데이터로 묶어 콜드-스타트 세트 생성 → 강화학습(RL) 으로“Lean 4 검증이 맞으면 +1, 틀리면 0” 피드백을 주며 최종 튜닝하는 방식으로 학습시켰다고 한다.
파일:DeepSeek-Prover-V2_Bench.png
그 결과, MiniF2F[7] 에서 88.9%의 정확도를, PutnamBench[8]에서 658문제중 49문제를, AIME 24&25의 15문제중 8문제를 맞추는 큰 성과를 보여줬다.

4.6. Deepseek V3.1

2025년 8월 20일에 조용히 공개된 모델이다.#

현재 대세인 추론-비추론 하이브리드 모델이며, 추론 모드를 자유롭게 켜고 끌 수 있는 것으로 드러났다. 총 파라미터는 671B이며, 그 중 37B의 영역만이 활성화된다. 벤치마크 점수에서 비추론 모드는 V3-0324와, 추론 모드는 R1-0528과 전반적으로 비슷한 성능을 보여주며 일부 분야에선 소폭 우위/미세하게 열위인 모습을 보여주었다. 그러나 V3.1의 진가는 에이전틱 능력으로, 에이전트 관련 벤치마크에서 V3-0324나 R1-0528보다 향상된 모습을 보여주었다.

4.6.1. Deepseek V3.1-Terminus

2025년 9월 22일에 갑작스럽게 공개된 모델이다.#

기존 V3.1 대비 에이전틱 능력을 향상시켰고, 답변시 중국어랑 영어를 마구 섞어쓰는 현상을 해결했다고 한다.

4.7. Deepseek V3.2

2025년 9월 29일, HuggingFace에 DeepSeek V3.2 모음집이 신설된게 확인되었다. #

대략 한국 기준 오후 7시경 공개됐다. #

DeepSeek V3.1-Terminus를 기반으로 만들었으며, "Sparse Attention"의 효과를 검증하기 위한 목적으로 개발했다고 밝혔다.
도입 결과, 품질은 그대로면서 더 효율적으로 추론하는 모델이 완성되었다고 한다. 벤치마크 결과를 보면, Terminus와 거의 차이가 없거나 아님 소폭 상향된 모습을 볼 수 있다.

2025년 12월 1일, DeepSeek V3.2의 정식 버전이 공개됐다.#

파일:DeepSeek V3.2 Benchmark.png
성능은 R1의 재림이라고 할 정도로 매우 강력한 성능을 보여주는데, Claude 4.5 Sonnet은 물론이요 GPT-5는 거의 모든 영역에서 격파당했을뿐만 아니라 Gemini 3 Pro랑 거의 비슷한 성능을 보여주고 있다. 공개된 오픈 소스 모델중에선 가장 강력한 성능을 보여준다 해도 과언이 아닐 지경.

추가로, DeepSeek-V3.2-Speciale 모델도 공개했는데, 도구 호출은 지원하지 않지만 오직 추론만을 수행하기 위해 만들어진 모델에 가깝다. GPT-5.1-Pro 포지션에 가깝고, IMO 2025를 포함한 온갖 수학 벤치마크에서 새로운 기록을 휩쓸었다.

4.8. DeepSeek-R1

2025년 1월 20일에 공개되었다.# 논문

DeepSeek-V3를 기반으로 하는 2가지 메인 모델(R1, R1-Zero)과, 자체적으로 파인튜닝한 증류 모델[9]로 구성되어 있다.
파일:DeepSeek-R1-0528 benchmark.png
DeepSeek R1-0528 모델 벤치마크
공개된 벤치마크 결과에 의하면 o1-mini를 뛰어넘고, o1과 맞먹는 결과를 보여준다. 예측 비용은 OpenAI의 4o-mini보다 4배밖에 비싸지 않아 시장에 충격을 주었다.

중국의 투자회사가 불과 두 달 만에 만든# 오픈 소스 인공지능이 OpenAI o3을 제외한 미국 거대기업들의 모든 대형LLM 성능을 올킬했다는 것이 알려지자 인터넷 인공지능 관련 커뮤니티, 그리고 실리콘밸리스푸트니크 쇼크라고 불리울 정도의 큰 충격을 가져다주었다. # 인공지능을 벤치마크하는 최고 허들을 구축하기 위해 만들어진 테스트에서도 현재 시장에서 공개된 다른 모델들보다 더 높은 성능을 보여주기도 했다. #

한국어에 대한 지식도 어느 정도 존재하며, 그 유창성이 출시 당시 기준 현존 최고 수준의 프론티어 모델까지는 아니지만 4o와 같은 어느 정도 구형 모델에는 크게 밀리지 않는다.

이미지의 한글을 인식할 수 있다. 이미지 인식은 텍스트 추출(OCR)이 주된 용도며, 순수 풍경 사진은 받아들이지 못한다. 2025년 1월 26일 기준 공식 홈페이지에서는 'DeepThink (R1)'버튼을 눌러야 사용 가능하며, 그렇지 않으면 DeepSeek V3 모델이 호출된다.

구독 서비스를 해야 최신 성능을 제한없이 이용할 수 있는 ChatGPT등 다른 LLM과 다르게 완전한 무료로 더 좋은 성능을 발휘한다는 파격적인 서비스 덕분에 ChatGPT를 제치고 미국 애플 앱 다운로드 1위를 달성했다. 틱톡은 안보위협으로 서비스 중단을 선언했는데, 미국의 기술 및 안보와 관련된 천문학적인 데이터 유출 위협을 줄 수 있는, 훨씬 더 큰 문제가 발생한 셈이다.[10]

베이스 모델인 R1-zero는 인간 개입에 의한 SFT(supervised fine tuning)없이 강화학습(RL, reinforcement learning) 만으로 모델을 학습 시켰다. R1-zero 모델을 파인튜닝한 R1 모델은 인간에 의해 선별된 소규모 고품질 데이터를 사용하여 SFT로 먼저 파인튜닝한 후, 강화학습을 통해 모델을 추가로 파인튜닝하는 다단계 과정을 거쳐 학습된 모델로, 이 방법을 reinforcement learning with cold start라고 한다.

공식 홈페이지의 경우 AI기반 검색 기능을 동시에 이용할 수 있다는 점은 희귀한 지식이나 한국 고유의 지식에 대해서도 문제 해결력을 끌어 올린다. GPT에도 없던 검색과 추론을 동시에 이용할 수 있는 기능이라 호평이 있었지만, 급속도로 이용자가 몰리자 검색 기능을 이용하지 못하는 경우도 많이 생겼다. 검색 기능은 미국산 인공지능 서비스보다도 성능에서 가장 비교우위를 가진 기능이라고 평가받기도 했다.

2025년 5월 28일, R1-0528이 조용히 공개되었는데, Gemini 2.5 Pro랑 o3와 엇비슷한 성능을 보여주었다. CoT 구조에 약간의 변화를 줘서 추론 능력을 향상시킨 버전이라고 한다.

4.8.1. R1-1776(검열 제거버전)

Perplexity에서 deepseek-R1 버전의 중국 위주로 편향된 데이터에 의한 검열을 제거한 R1-1776 모델을 오픈소스로 발표했다.##2 중국 공산당과 관련된 편향된 QA세트를 수집/정제하여 새로운 데이터를 추가로 파인튜닝함으로서 공산당에 유리하도록 답변하는 식의 모든 검열을 제거 했으며, 검열 제거로 인한 모델 성능 손실은 거의 없다고 밝혔다.
파일:R1-1776 Benchmark.png

4.8.2. R1T2-Chimera

모델 발표
V3-0324 + R1 + R1-0528 을 모두 조합한 모델.
무려 3가지 모델의 장점만 추려내 합친 모델로, 추론 속도가 R1보다 20% 빠르고, R1-0528보다 2배이상 빠르다고 한다. 지능 수준은 R1을 뛰어넘었으며, R1T-Chimera보다는 추론에 사용하는 토큰이 훨씬 늘어났다고 한다. 시스템 프롬프트 없이, 대화하기 적절한 성격으로 튜닝되었다고 한다. 이 모델의 등장으로, R1-0528 보다는 더 빠른 응답을 요구하지만 기존 R1보다는 좀더 똑똑한 모델이 필요할때 이 모델이 추천될것이라고 개발자는 말했다.

가장 중요한 사실인데, EU의 AI법 때문에 R1T와 이 모델은 유럽에서 완전히 사용 금지되었다.

4.9. Janus

이미지 생성 기능을 갖춘 통합 멀티모달 모델로 소개하고 있다.논문 데모

2024년 10월 경 Janus-1.3B가 조용히 출시되었으며, 2024년 11월 13일에 JanusFlow-1.3B가 출시, 2025년 1월 27일에 Janus-Pro(1B, 7B)가 출시되었다.

공개된 벤치데이터에 의하면, 현존하는 이미지 생성 모델중에서 가장 뛰어난 성능을 지닌것으로 평가되고 있다. 다만 이는 이미지를 해석하고 이해하는 능력과, 생성된 이미지가 사용자의 프롬프트를 얼마나 정확하게 반영했는지를 보여주는 지표로, 이 지표가 이미지의 퀄리티(해상도, 디테일, 사실성, 예술성 등)를 반영하지는 않는다. 실제 써본 사람들의 평가는 퀄리티가 좋지 못하다는 평가가 많다. 이 모델의 주 목적은 기존에는 노이즈 확산 방식의 제네레이션 방식에서 벗어난 자기회귀 방식을 도입한 것이 주 포인트이다.[11]
파일:JanusPro_bench.png
Janus-Pro 모델 벤치마크

4.10. DeepSeek-R2

4월 27일에 초기 보고서가 유출되었다.#

5월 14일에 적용 기술에 대한 논문이 발표되었다.

2025년 2분기가 지나기 전에 출시될 것으로 예상되었으나, 추론을 향상시켜 2025년 5월 28일 공개된 R1-0528을 제외하면 이렇다 할 업데이트 소식이 없었다.
정확히는, 충분한 GPU를 확보하는데에 어려움을 겪고 있어 R2의 학습을 잠정적으로 중단시켰다는 내부 소식이 존재한다.#
2025년 6월 27일 여러 보도에 따르면 중국 AI 스타트업 딥시크는 량웬펑 CEO가 R2 모델의 성능에 만족하지 않아 출시 시기를 아직 결정하지 못했다고 상황을 잘 아는 두 사람을 인용해 보도했다.

훈련과정에서 중국 당국이 화웨이의 어센드 칩 사용을 권장했는데, 딥시크는 이를 따랐으나 화웨이 칩을 썼더니 계속 기술적 문제가 발생하고 심지어 화웨이에서 파견한 엔지니어 팀도 해결을 못하자 결국 엔비디아 칩으로 교체했다고 한다. 출시 지연의 원인이 이것이라고.#

5. 로컬 사용

중국 제품인 만큼, 공식 홈페이지에서 DeepSeek 모델을 사용하면 각종 주제에 대한 검열과 개인정보 관련 이슈가 있을 수 있다.

하지만 R1을 비롯한 DeepSeek의 LLM 모델들은 전부 오픈 소스로 자유롭게 개방되어 있으므로 누구나 직접 LLM 모델을 자신의 기기에 내려받아서 구동시킬 수 있다. 이 경우 인터넷 연결 없이도 LLM 모델을 사용할 수 있으므로 앞서 언급한 다양한 문제를 상당 부분 해결할 수 있으나, 동시에 검색 기능을 지원하지 않아 직접 이를 구축해야 한다는 단점도 존재한다.[12]

많은 화제를 끈 R1 원본 모델의 경우 약 500GB 수준에 이르는 메모리 용량을 요구하지만 추론 패턴 전이 및 양자화(비트넷)를 비롯한 다양한 경량화 기법들이 적용된 모델이나, R1 모델의 추론 성능을 다른 가벼운 모델[13]에게 추가로 학습시킨 (증류한) 모델들도 폭넓게 제공되고 있다.

직접 로컬 환경에서 DeepSeek 모델을 사용해보고 싶다면, GGUF 형태로 변환된 모델을 내려받아 이를 구동할 수 있는 프로그램이나 애플리케이션을 통해 사용하면 된다. #

현재 Windows, MacOS, Linux 환경에서는 Ollama가, 그리고 iOS 환경에서는 PocketPal, Private LLM 등의 애플리케이션이 R1 기반 모델을 지원하고 있으며, 8GB 수준의 메모리 용량을 갖춘 기기라면 LLaMA-8B 내지는 Qwen-7B에 기반한 모델이 권장된다.

한편, R1의 원본 수준 모델(671B)을 로컬 환경에서 구동하고 싶다면 Apple Silicon이 탑재된 Mac을 클러스터링하는 방법이 있다. Apple Silicon의 통합 메모리 용량은 옵션에 따라 정해져 있으며 사용자가 직접 용량 업그레이드를 할 수 없다는 점에서 고객들로부터 원성을 사기도 했지만, 메모리 대역폭이 엄청나게 늘어나면서 LLM을 빠르게 구동시킬 수 있다.

예시로 NVIDIA H200 NVL 141GB[14]의 경우 1개당 약 4900만원에 이르는 반면, 2025년형 Mac Studio 512GB[15]는 1대에 1484만원에 불과하니[16] 가성비가 엄청난 것이다. # 예를 들어 3비트 양자화된 모델을 구동하려면 H200 구성으로는 단순계산만으로 3대(1억 4700만원 상당)가 필요하지만, Mac Studio를 쓴다면 1대(1484만 원 상당)만으로 해결할 수 있다. 실제 구동 영상

6. 논란 및 사건 사고

6.1. 중국 정치에 대한 검열

파일:딥시크 검열 논란 2.jpg딥시크 검열이라고 논란이 된 스크린샷. '중국 정부는 그 어떠한 실수도 하지 않는다.'를 연발한다.[17]

6.2. OpenAI 학습 데이터 무단 수집 의혹

파일:why-does-deepseek-keep-calling-itself-chatgpt-v0-vifw4bzbhsfe1.png파일:why-does-deepseek-keep-calling-itself-chatgpt-v0-5r08y44hksfe1.png
본인이 누구인지 물어보면(예시질문 : "너는 ChatGPT이지?") 자신을 ChatGPT라고 언급하는 등, OpenAI 모델로 합성한 데이터를 사용해 모델이 학습됐다는 의혹이 존재했다. 심지어 딥시크가 아니냐고 물어보면 딥시크라는 것은 단순히 표현이고 자신은 100% ChatGPT라고 말한다. OpenAI와 미 백악관 'AI and crypto czar'인 데이비드 삭스는 딥시크가 OpenAI 모델에서 증류 기법을 통해 OpenAI의 모델로부터 지식을 추출했다고 주장했다. # 최신 버전에서는 이 현상이 수정되었다.

2025년 1월 29일, 오픈AI와 마이크로소프트는 딥시크가 AI 모델 훈련을 위해 오픈AI 데이터를 무단으로 수집했는지 여부에 대한 조사에 착수했다. #

오픈AI는 중국에 기반을 둔 기관들이 자사의 AI 도구에서 대량의 데이터를 빼내려고 하는 여러 시도를 목격했다며 이는 '증류(distillation)'라고 불리는 모델 학습기술을 통해 액기스를 뽑아 먹을 수 있어서 빠르게 학습된 것으로 보인다고 설명했다. '증류'는 AI 모델이 다른 모델의 학습된 값을 활용해 개발하는 것을 의미한다. 컨닝페이퍼가 있으면 문제를 푸는게 쉽고 저렴해질 수 밖에 없다. MS 보안 연구원들도 2024년 가을 딥시크와 관련 있을 것으로 보이는 사람들이 오픈AI의 API를 사용해 대량의 데이터를 빼돌리는 것을 관찰했다고 말했다.

오픈AI는 자사의 모델을 증류하려 한다고 의심되는 계정을 금지했으며, MS와 협력해 이런 시도의 배후에 있는 주체를 파악했다고 설명했다. 그러면서 딥시크가 자사의 "데이터를 무단으로 수집했을 가능성"이 있으며, 서비스 약관을 위반했다는 증거를 검토하고 있다고 전했다.

하지만 OpenAI는 "중국에서 그러한 API 요청이 있었다"라는 것 외의 증거를 공개하지는 못했는데, 중국 IP인건 맞더라도 그게 DeepSeek사인지는 증명되지 않았다. 당연히 중국에서 AI를 개발하는 기업/단체/학술기관이 DeepSeek만 있는 게 아니기 때문에 이것만으로 DeepSeek의 증류 사용 여부를 확정지을 수는 없다. 현재 DeepSeek 측이 논문에서 공개한 아키텍처를 재현, 검증하기 위한 프로젝트들이 여럿 진행되고 있으므로, 만약 DeepSeek에서 사기를 쳤고 ChatGPT를 모델 증류에 사용한 것이라면 얼마 지나지 않아 그 진실 여부를 알 수 있게 될 것이다.

그리고 온갖 사이트의 이용약관을 어긴 대량 크롤링으로 AI를 학습시켜 영리적으로 활용하는 OpenAI가# 이제 와서 이용약관 위반을 운운하는 것은 양심이 없는 게 아니냐는 지적도 영미권을 중심으로 나오고 있다. # 애초에 LLM이나 Stable Diffusion 같은 AI 모델들이 마주하는 가장 큰 윤리적 문제가 데이터의 무단 수집이기 때문에, 비단 이제와서 Closed Source 운운하며 자기 모델은 학습에 쓰지 말라는 약관을 제시하는 OpenAI가 DeepSeek보다 옳다는 것은 아니란 것.

6.3. 중국으로의 사용자 개인정보 전송

파일:상세 내용 아이콘.svg   자세한 내용은 중국의 보안 침해 문서
#!if (문단 == null) == (앵커 == null)
를
#!if 문단 != null & 앵커 == null
의 [[중국의 보안 침해#s-|]]번 문단을
#!if 문단 == null & 앵커 != null
의 [[중국의 보안 침해#|]] 부분을
참고하십시오.
DeepSeek에서 수집하는 데이터는 다음과 같다.

DeepSeek의 이용약관과 개인정보취급방침 자체는 타 AI 업체 대비 큰 차이가 없다. 하지만 키보드 입력 패턴을 추가로 수집하고 서버가 중국에 있다는 문제가 있다.# 또한 중국 국가안전법 및 데이터보안법에 따라 중국 내 모든 기업은 고객 개인정보를 당국 요청 시 제공해야 하며, 위챗을 비롯한 중국계 플랫폼들이 사용자 데이터를 공안 당국이 요청시 적극 협력하는 것과 같이 언제든지 개인정보가 중국에서 유출될 가능성을 DeepSeek 역시 배제할 수 없다.

2024년 미국의 보안기업 Feroot Security의 분석에 따르면, DeepSeek은 사용자 데이터를 국영 통신사 차이나모바일의 IDC 서버로 전송하는 코드를 포함하고 있는 것으로 확인되었다.# 차이나 모바일은 중국이 직접 관리하는 국영 기업이므로 이러한 데이터가 언제든지 중국 감시 체제에 노출될 수 있음을 의미한다.

DeepSeek 서비스를 이용할 경우에는 보안 전문가들은 사용자에게 민감정보 등의 입력은 자제할 것을 권고하고 있다. 중국 외부의 서버에서 모델을 구동시키는 PerplexityAWS bedrock 서비스, 모델을 직접 돌리는 로컬로 사용하는 경우 중국으로 사용자 데이터는 전혀 전송되지 않는다.

6.3.1. 각국의 사용제한 조치

7. 여담

8. 둘러보기

{{{#!wiki style="margin:-0px -10px -5px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin:-5px -1px -11px; word-break:keep-all"
OpenAI GPT (1/2/3/4/oss/5/6개발 중) · (o1/o3/o4)
구글 Gemini(1/2/3) · Gemma · LaMDA · PaLM 2
Anthropic Claude (Opus/Sonnet/Haiku)
xAI Grok
메타 LLaMA
기타 HyperCLOVA(네이버) · 카나나(카카오) · 삼성 가우스(삼성전자) · Exaone(LG AI연구원) · 믿:음(KT) · A.X(SK텔레콤) · Phi(Microsoft) · OpenELM(Apple) · DeepSeek · Qwen(알리바바) · 어니봇(바이두) · Kimi(Moonshot AI) }}}}}}}}}

[1] 杭州深度求索人工智能基础技术研究有限公司, Hangzhou DeepSeek Artificial Intelligence Fundamental Technology Research Co., Ltd.[2] 국내 앱 사용자 기준 27만 명 수준이다.(2025년 12월)#[3] DeepSeek측에서는 오픈 소스로 홍보하지만 학습 데이터를 공개하지 않고 가중치(weights)만 공개하므로, 오픈 소스 이니셔티브(Open Source Initiative, 줄여서 OSI)에서 제시한 오픈 소스의 정의를 충족하지 않는다. 이런 모델은 통상 오픈 웨이트 모델이라고 분류되는데, 비슷한 방식으로 가중치만 공개한 LLaMA가 자기들을 오픈 소스 언어 모델이라고 홍보하는 바람에 요즘 마케팅적인 관점에서는 이렇게 가중치만 공개하는 경우에도 오픈 소스라고 부르기도 한다.[4] training DeepSeek-V3 on each trillion tokens requires only 180K H800 GPU hours, i.e., 3.7 days on our cluster with 2048 H800 GPUs. Consequently, our pretraining stage is completed in less than two months and costs 2664K GPU hours. Combined with 119K GPU hours for the context length extension and 5K GPU hours for post-training, DeepSeek-V3 costs only 2.788M GPU hours for its full training. Assuming the rental price of the H800 GPU is $2 per GPU hour, our total training costs amount to only $5.576M. DeepSeek-V3 Technical Report[5] 회사의 본업인 퀀트 알고리즘 트레이딩을 통해 자금을 충당하였으며, 대중 제재의 영향으로 H100을 사용할 수 없어 2048개의 H800을 사용했다고 알려졌다.[6] 중간목표[7] 고교 올림피아드 수준[8] 대학 수학경시 수준[9] R1-Distill-Qwen(2.5)-1.5B / 7B / 14B / 32B, R1-Distill-LLaMA-8B(3.1) / 70B(3.3)[10] 다만 로컬용으로 모델을 배포했기 때문에 퍼플렉시티 같은 미국의 서비스 회사에서 모델을 서비스하기 시작하면 중국 서버로 데이터 유출 가능성은 줄어든다.[11] GPT IMAGE-1이 해당 방식을 사용한다.[12] 직접 개발하는 방식으로는 langchain 코드나 덕덕고 웹검색 API 등을 이용하여 LLM이 이를 사용할 수 있도록 하는 코드를 직접 구현해야 한다. ollama나 llama.cpp에서 모델을 직접 구동한 뒤, Open Webui나 Lobe Chat 등의 프론트엔드에 연결하여 그들이 지원하는 웹 검색이나 MCP 기능을 활용할 수도 있으며, 이 편이 훨씬 간단할 것이다.[13] R1-Distill-Qwen(2.5)-1.5B / 7B / 14B / 32B, R1-Distill-LLaMA-8B(3.1) / 70B(3.3)[14] PCIe 버전. HBM3e VRAM, 대역폭 4.8TB/s[15] LPDDR5-6400으로 구성 시, 통합 메모리 대역폭 819GB/s[16] 1TB SSD사양 기준[17] 다만 이런 식으로 특정 어구를 반복하는 버그는 ChatGPT 등의 다른 AI에서도 종종 나타나기 때문에 해당 버그가 발생했다는 사실 자체는 중국 검열과 직접적인 관련이 없다. 중국 정부에서 이런 글이 나오도록 의도했다는 뜻은 아니라는 말.[18] 중국공산당이 제시한 12가지 단어로 요약되는 서구적 가치관을 견제하는 가치관이다. 단어 자체는 부강, 민주, 자유, 평등, 공정 등 다른 나라에서도 강조되기 쉬운 규범이지만 이것을 서구 대신 중국공산당이 잘 지키고 있다며 선전한다. 우리의 자유는 '질서 있는 자유'라고 주장하는 식으로 말이다. 중국에서는 아이들에게도 이것이 교육되며, 관련 구호를 도시든 농촌이든 굉장히 흔하게 볼 수 있다.[19] 중국어로는 '한국식 파오차이'는 한반도의 자연 조건에 맞춰 삼국시대에 그 한반도 주민이 먹던 음식이며, 중국의 어떤 비슷한 음식이 과거에 있어서 그것과 비슷한 음식이 한반도에서 생겼다고 주장을 한다. 그냥 파오차이라고 하면 중국의 다른 음식인 '파오차이'로 인식한다. 한국에선 김치가 국가적 상징으로 인식된다는 뉘앙스의 주장도 한다.[20] 동북공정 같은 역사왜곡의 전제다. '과거에 중국 영토였던 근거가 있으므로 지금도 중국 영토'라는 주장을 위해 역사 왜곡을 하던 것인데, 이 주장 자체를 반박하는 것이다.[21] 모델 자체에 검열을 적용하는 것도 이론적으로는 가능하지만, 일반적으로는 모델의 출력값을 다른 LLM을 사용해 평가하고 필터링하는 방식으로 검열이 이루어진다.[22] 다만 성소수자 차별의 소지가 있는 행동이나 사람의 외모, 몸매 등을 평가해달라는 요청 등 중국 내에서는 금기로 여겨지지 않지만 서구권에서는 부적절하다고 여겨지는 내용에 대해서는 실제로 검열이 약할 가능성이 높긴 하다.[23] '죄송합니다만, 아직 이런 질문에 어떻게 접근해야 할지 잘 모르겠어요. 대신 수학, 코딩, 논리 문제에 대해 이야기해 보겠습니다!' 바로 선술했던 중국어 멘트의 영어 버전이다.[24] 팬데믹이 있던 2020년 3월 이후 최대 일간 하락률을 기록했으며, 하루만에 시가총액이 무려 866조 원 내려가며 세계 증시 역사상 가장 큰 일간 시가총액 하락을 기록했다.[25] 게다가 DeepSeek는 오픈소스이기 때문에 같은 방법론이 다른 회사의 학습방법에도 동일하게 적용될 수 있다. 즉 이제부터는 다른 AI도 DeepSeek의 방법론을 이어받아 학습이 쉬워진다는 거고 같은 방법론이면 고성능 하드웨어를 더 많이 투입한 쪽이 더 빠르고 정확한 추론이 가능해진다는 것이다. 그럼 당연한 얘기지만 고성능칩을 동원하는 다른 AI들이 이제부터는 DeepSeek를 벤치마킹해 더욱 지금의 DeepSeek보다 성능이 좋아질 가능성이 높고 고성능 반도체의 소비자 수요는 당연히 훨씬 더 증가할 것이다. 생각하면 아주 간단한 얘기지만 당장 시장에 준 충격이 워낙에 커서 발표 당시엔 거기까지 다들 생각이 닿지 않았으니 발생한 촌극에 가까운 이야기라고 볼 수 있는 것이다. 애초에 개발진 측에서 목표로 삼는 것도 궁극적으로는 AGI의 개발과 AGI를 대중적으로 쉽게 보급하는 것이고 이런 의미에서 인류 전자 문명의 발전이라는 대승적 목표를 달성하기 위해 모두에게 오픈소스로 공개한 것이니만큼 DeepSeek의 발전이 AI 업계 전반의 발전을 촉진했으면 했지 이제와서 그걸 퇴보시키는 일은 없을 것이다. 또한 예전의 막대한 자본으로 무식하게 연산성능만 추가하여야 한다는 인식에서 벗어나 더 나은 알고리즘으로 자본 격차를 극복 가능하다는 사례가 될 것이며 이를 연구하는데 자본 일부가 투입되어 기존의 그래픽카드의 비정상적인 수요도 안정될 것이다.[26] 미국, 중국에 비해 AI 산업이 뒤쳐져 있는 한국은 물론이고 AI 산업에 투입되는 인풋이 너무 막대해 손만 빨며 바라보던 대다수의 개도국 IT업계에서도 긍정적으로 볼 여지가 많다.