[clearfix]
1. 개요
언어 모델(LM, Language Model)은 입력값(자연어, 보통은 사용자의 문장)을 기반으로 통계학적[1]으로 가장 적절한 출력값을 출력하도록 학습된 모델이다. 규모가 더욱 커다란 언어모델(LM)을 LLM(Large Language Models)이라고 부르는데, 매개변수 규모가 막대한, GPT-4 같은 모델들이 이에 해당한다. 반대로 규모가 작은 쪽은 SLM(small Language Models)이라 하는데, 다룰 수 있는 범위가 LLM에 비해 좁은 대신 비용이 적게 들어간다.[2] LLM의 경우는 주로 메인프레임, 슈퍼컴퓨터에서 돌아가는 반면, SLM은 워크스테이션, 심지어는 일부 고성능 PC에서 실행되기도 한다.2. 구조
크게 통계학 기반과 인공신경망 기반으로 나눠 볼 수 있다. 현 시점에서는 후자가 더 대중적으로 쓰인다. 인공신경망 중에서도 비지도학습[3] 방식의 트랜스포머 아키텍처를 기반으로 알고리즘이 구현되어 있다.텍스트(자연어), 이미지(2차원), 포인트 클라우드(3차원), 오디오 등 여러 포맷의 대규모 데이터셋을 모아서 토큰화시키고 멀티모달을 구축하여 학습시키면, 파운데이션 모델이 구축된다. 이후 분야별로 별도의 파인튜닝을 거친 뒤 프롬프트를 입력하면 추론을 통해 여러 종류의 출력을 지원하는 생성형 인공지능 서비스를 만들 수 있게 된다. 모델 개발사는 본인이 서비스를 직접 구축하는 방법 외에도 서드파티 개발사에 API를 지원하여 수익을 창출할 수 있다.[4]
2023년 ChatGPT의 성공으로 인하여 큰 인기를 얻은 바 있으며, 산업계 뿐만 아니라 학계에서도 가장 화두가 되어 매일 팔로업하기 힘들 정도로 수 많은 논문들이 쏟아져 나오고 있는 분야이다.
3. 개발 방식
3.1. 폐쇄형 vs 오픈소스
구글과 OpenAI가 연구 목적 외의 기반 기술을 공개하지 않는 폐쇄형 노선을 선택하며 업계를 선두하고 있는 반면, 비교적 후발 주자라고 평가받는 메타는 오픈소스로 기반 기술을 공개하여 Vicuna, Alpaca 등 여러 파생형 모델들의 출시를 간접적으로 도왔다. 심지어 LLaMA-2는 상업용으로도 사용 가능한 라이선스일 정도로 이례적이라 큰 이목을 끌었다.[5] 또한 데이터브릭스가 인수한 모자이크ML은 단돈 25만 달러에 데이터를 외부에 보내지 않고 구축 가능한 기업용 언어모델을 위주로 보안성을 홍보하고 있다. 해당 산업에는 수요만큼 전문 인력의 공급이 많지 않은 탓에, 인재 영입에는 폐쇄형이 유리하고 생태계 확장에는 오픈형이 유리하다는 장단점이 있다.3.2. 데이터셋 vs 아키텍처
아직까지 성숙화된 산업 분야가 아니다 보니, 효율성이 좋고 강력한 성능의 대규모 모델 구축 방법론에 있어서 데이터의 퀄리티가 중요하다는 주장과 모델 자체의 아키텍처가 중요하다는 의견이 대립하고 있는 상황이다.- 앤드류 응 : 업계의 선구자 중 하나로 학계에서 가장 강력한 영향력을 미치고 있는 앤드류 응 교수는 인공지능 시스템 구축에 있어서 코드는 요리사에, 데이터는 재료에 비유하며 대부분의 성능 향상은 데이터셋에 의해서 결정되어 왔다고 주장한다. 모델 자체의 연구보다는 데이터 정리 과정에서 80% 이상이 결정된다고 한다. 일관적인 라벨링과 품질 높은 데이터 수집 등을 가장 중요한 요소로 평가했다.
- 얀 르쿤 : 트랜스포머 자체에 대한 한계점이 명확해지고 있다고 주장한다.[6] 매개변수와 토큰의 사이즈가 커지는 만큼, 모델의 퍼포먼스가 정비례하며 올라가고 있지 않는 게 사실이다.[7]
- 조지 호츠 : 상술한 르쿤과 마찬가지로 트랜스포머 빙법론 자체가 한계점에 봉착했다고 주장한다. GPT-4에 대해, GPT-3와 매개변수 수준은 비슷하지만 MoE 방식을 통해 차별점을 주었다고 주장한다. 즉, 아키텍처의 구조론이 중요하다고 하는 격이다. 또한 이 인물은 인공지능 칩의 수준은 괜찮으나, 소프트웨어가 끔찍해서 현존하는 아키텍처들의 현주소가 엉망이라고 언급했다.
- 안드레 카파시 : 데이터셋의 효율성을 입이 닳도록 중시한다. 일례로 테슬라 오토파일럿 개발 과정에서 카메라를 통해 수집되는 2차원 이미지 외에 다른 포맷들을 전부 제외시켰다. 3차원 데이터인 초음파센서, 라이다, 레이더 등 불필요하다고 생각되는 센서를 제거하여 극한의 포맷 단순화를 실현시킨 것이다. 또한 같은 타입의 센서여도 센서의 버전과 제조사별 규격이 전부 상이하여 데이터 생성 패턴이 전부 제 각각이라서 노이즈와 엔트로피가 껴서 데이터 관리가 힘들어진다고 주장한다.
- 일론 머스크 : 카파시의 성향에 큰 영향을 미친 인물이다. 테슬라 외에도 그가 새로 시작한 스타트업인 xAI를 통해서 확인이 가능한데, 공동 창업자들 대부분이 커리어 내내 어떻게 하면 대규모 신경망을 간단하고 효율적으로 짤 수 있을 지에 대하여 고민해온 사람들이다. 분산 신경망, 저전력 스케일링 등을 시도해왔다. 또한 X Corp.는 트위터 코드의 간소화를 시도하고 있으며, 이를 통해 전처리 과정이 간단한 형태의 데이터 생성을 꿈꾼다. 본인이 인수하기 이전의 트위터와 인스타그램 등을 콕 찝으며 편향된 데이터로 짜여진 알고리즘을 통해 생성된 서비스가 생성하는 편향된 정보와 가짜 정보를 비판하며 향후 본인이 출시할 TruthGPT 도입의 시급성을 강조하기도 한다. 이걸 방지하기 위해 커뮤니티 노트와 유로 인증계정으로 트위터에 스팸봇을 퇴치하고 얻은 정확하고 중립적인 데이터로 자사 모델 학습에 쓸 것으로 보인다.
4. 경쟁력
2022년까지는 미국 등 압도적으로 영어를 기반으로 학습한 모델들 위주였으나, 2023년 들어서 ChatGPT의 iOS 앱이 다개국어로 런칭되고 Bard 역시 영어 외에 일본어와 한국어를 우선적으로 런칭하는 등 비영어권을 대상으로 한 경쟁이 매우 거세지고 있다. 중국에서는 바이두, 한국에서는 네이버 등이 자체적 언어모델을 개발하였다. 특히 중국은 다른 국가와 달리, 당국 주도 펀딩을 통해 산학연의 연구가 수직화되는 케이스가 대부분이기 때문에 개발 속도에 큰 진전을 보이고 있다. 또한 인구도 많은데다 서방과 달리 사생활 침해, 데이터 프라이버시 등에 대한 반발이 적은 편이라 퀄리티 높은 데이터 수집에 유리한 편이다.
API와 플러그인을 통한 생태계 형성과 유료판매, 자체 소프트웨어 출시 등 아직까지 시장이 초창기인데도 수익화와 생태계 확장 가능성이 무궁무진하여 여러 업체들이 뛰어 들고 있다.
4.1. 유니콘 기업
인공지능 유니콘 기업 목록 [8] |
사명 | 기업 가치(USD) | 비고 |
OpenAI | 290억 | [9] |
Anthropic | 45억 | [10] |
HuggingFace | 45억 | [11] |
Inflection AI | 40억 | [12] |
Cohere | 22억 | [13] |
Lightricks | 18억 | [14] |
Runway ML | 15억 | [15] |
Jasper AI | 15억 | [16] |
Replit AI | 12억 | [17] |
Adept AI | 10억 | [18] |
Character.AI | 10억 | [19] |
Stability AI | 10억 | [20] |
Glean | 10억 | [21] |
Synthesia AI | 10억 | [22] |
Typeface AI | 10억 | [23] |
5. 주요 언어모델
자세한 내용은 분류:언어 모델 문서 참고하십시오.- OpenAI
- 마이크로소프트
- 구글
- 메타
- 코히어
- 아마존
- Titan[24]
- 모자이크ML
- MPT-7B[25]
- MPT-30B
- 팔란티어 테크놀로지스
- AIP[26]
- xAI
- Perplexity
- Sonar 8B
- Sonar 70B
- Inflection AI
- Inflection-1
- Inflection-2
- Anthropic
- Claude-2
- Claude Instant
- Mistral AI
- Mistral 7B
- Mistral 8x7B
- Mistral 8x22B
- Mistral Large
- 네이버
- 알리바바 그룹
- Qwen-VL
- 텐센트
- 훈위안
- 삼성전자
- Apple
- LG
6. 비판 및 문제점
6.1. 데이터 무단 수집
ChatGPT의 대성공 이후, 데이터 크롤링 및 스크래핑 등으로 인한 재산권 침해 등의 문제점이 수면 위로 떠오르기 시작했다.대표적으로 2023년 7월 트위터 API 사용 제한 사태로 인해 트위터 앱이 먹통이 되는 사태가 발생했는데, 일론 머스크는 사태의 원인을 지나친 수준의 데이터 크롤링이라고 규정지으며 날선 비판을 하고 있다. 트위터가 이에 대한 대책으로 로그인을 필수 사항으로 넣고, 유저 당 게시글 조회 상한선을 조정하자 ChatGPT의 웹브라우징 기능에서 트위터 관련 URL 답변이 불가능해졌고, 얼마 가지 않아 웹브라우징 기능 자체가 먹통이 되었다. 이후 스레드 등 여러 소셜 미디어 업체들이 트위터의 전철을 따르면서, 이러한 플랫폼이 없는 사업자들은 데이터를 확보하기 어려워지고 있는 추세이다. 따라서 향후 자체적으로 데이터의 생성과 평가까지 가능하도록 짜여진 모델 구축이 중요해질 전망이다. 상술한대로 플랫폼 업체들은 스크래핑과 크롤링 방어에 대대적으로 들어갔고, 데이터의 양적인 면에서도 한계에 거의 직면했기 때문이다.
OpenAI와 구글 등은 뉴스코프와 레딧 등 자사에서 크롤링 밑 스크래핑 해왔던 업체들과 공식적인 라이센스 계약을 체결하는 등의 방식으로 데이터 이슈 등을 극복하고 있다. 하지만 이 경우 지출 증가로 인해 LLM 산업의 경제성이 크게 악화될 가능성이 있기 때문에 지적받기도 한다.
6.2. 보안
이에 여러 기업들은 자사 직원들이 외부 생성형 인공지능에 자사 기밀 사항을 프롬프트에 입력하는 행위를 금지시키고 있다.클라우드 컴퓨팅 빅3 업체[27] 전부 언어모델과 생성형 인공지능을 자체적으로 구축하고 있는 상황이기 때문에 클라우드 보안에 대한 우려가 극심해지고 있다. 2010년대 들어서는 대부분의 기업들이 온프레미스 외에 클라우드 서비스를 병행하거나 클라우드만 사용하는 등 사용량이 급증하고 있는데, 이들 3사가 데이터를 영리적으로 활용할 것이라는 불안 요소가 깔려 있는 것이다.
이러한 상황에서 대안책으로 모자이크ML와 팔란티어 테크놀로지스처럼 개별 기업의 인트라넷 데이터 전용 언어모델 구축을 도우며 발전하고 있는 니치 기업들의 수요가 증가하고 있다. 또한 Apple Intelligence 등 노드의 데이터 유출을 방지하는 온디바이스 방식의 모델이 발전하고 있다.
6.3. 불확실한 모델 작동 원리
대부분의 기업들은 알고리즘을 외부에 공개하지 않을 뿐더러 은닉층이 너무 복잡해서 자사 직원들도 인과관계 형성 과정을 질서정연하게 설명할 수가 없다. 따라서 이를 통한 영리활동의 정당성과 생성형 인공지능에 프롬프트를 입력하여 출력받는 답변의 윤리성과 편향성 등에 대한 의심이 커지고 있다.2024년 5월 21일 Anthropic은 자사 홈페이지를 통해 언어모델에 대한 작동 원리를 일부 파악해냈다는 내용의 마인드 매핑 연구 결과를 공개했다. 클로드 소넷의 은닉층에서 수백만 개의 특성을 추출해 개념 지도를 만드는 방식을 사용했다.# 해당 분야에서 유의미한 방향성을 제시한 첫 번째 LLM 개발사가 등장했다는 점에서 의의를 띈다고 볼 수 있다.
6.4. 자연지능 대비 비효율성
2020년대 초반 기준으로는 지식 학습 이후 다른 지식과의 결합을 통해 지식을 확장하는 정도인 체계적 일반화 정도가 상당히 뒤쳐진다. 해당 능력이 뛰어난 자연지능(인간)과 가장 큰 차이점을 보이는 분야 중 하나다. 따라서 AGI 도달을 위해서 가장 먼저 해결되어야 할 문제점으로 뽑힌다.[28]또한 물질대사를 통해 높은 효율성을 낼 수 있는 자연지능(인간) 대비 효율성이 매우 뒤떨어진다. 인공지능 구축을 위해 막대한 크기의 공간과 컴퓨팅 자원이 필요하며, 유지를 위한 전력과 냉각수, 통신비 등의 소모량도 상당한 편이다.
LLM 구축을 위해 막대한 개발 비용을 투입하는 반면, 구글의 검색엔진 등 수익성이 높은 산업을 갉아먹고 있는데도 2020년대 초반 기준으로는 적자를 탈출하고 높은 부가가치를 창출하는 업체를 찾아보기 힘들 정도로 투자금 회수가 안되는 상황이다.[29] 이에 트랜스포머의 대안을 연구하고 있는 학자들이 늘어나고 있다.[30]
물론 아직까지는 산업계에 본격적으로 상용화된 기간이 짧기 때문에 발생하는 문제점에 가깝다.[31]
6.5. 신뢰성 검증
지금의 생성형 AI는 주어진 명령에 적합한 답변을 최대한 그럴싸하게 만드는 데 중점을 두고, 답변의 정답 유무를 스스로의 자각으로 판단하지는 못하는 단계.[32] 이를 할루시네이션이라고 말한다.챗GPT에 '다케시마'를 검색하면 '한국과 일본 간의 영토 분쟁지역'이란 설명이 나온다. 이는 미국에서 만들어진 LLM이 특정 지역의 역사를 제대로 이해하지 못해 발생한 문제.관련 기사
이에 LLM 사용자들이 사용하기 전에 의도한 대로 신뢰할 수 있고 안전하게 사용 가능한 모델이 만들어졌는지 확인하는 단계의 중요성이 강조되고 있다. 이 단계를 '신뢰성 검증'이라고 한다.- 신뢰성 검증 : LLM 기반 서비스, 애플리케이션, 제품의 성능을 극대화하고 안정성을 보장하기 위해 해당 모델의 다양한 성능 지표를 정량적으로 분석하는 과정. LLM 모델이 상용화되기 전과 후에 걸쳐 신뢰성과 정확성을 유지하기 위해 필수적. 검증 과정에 사용되는 지표는 다양한 성능 요소로 구성되며, 모델이 실제 사용 환경에서 어떻게 작동하는지를 평가함.
LLM 기반 서비스들이 늘어나서 신뢰성에 대한 우려가 높아지고 있다.이에따라 LLM 제품을 평가하고 개선을 돕는 서비스도 다양하게 제공되고 있다.
LLM 기반의 애플리케이션, 서비스, 프로덕트 등 제품을 출시하기 전 평가할 수 있는 툴들로 최근 특히 글로벌 기업의 움직임이 활발함을 확인할 수 있다.
LLM 평가 플랫폼 소개
셀렉트스타: End-to-End LLM Eval Platform
ARIZE: AI Observability and Evaluation Platform
LangChaing: LangSmith
Galileo: Run Galileo
Confident-ai: The LLM Evaluation Platform.
Aporia: AI Observability
[1] 귀납논증 기반 확률적으로 가장 개연성이 높은.[2] LLM과 명확한 구분을 짓기 위해 S가 소문자인 sLM을 쓰기도 한다.[3] 언어학적으로 매우 연관이 깊기 때문에, 모델 학습할 때도 국어 문제 풀 때 같이 문장의 빈칸 채우기, 앞뒤 문장 연관성 등등 학습 기법들이 채용됐다.[4] 예를 들어서 OpenAI는 GPT-4를 일부 파트너들에 한정하여 독점 공급하고 있다. Quora의 Poe라는 챗봇의 유로 버전은 GPT-4를 기반으로 동작한다.[5] [6] 조지 호츠, 무스타파 슐레이만 등 이러한 의견에 일치를 보이는 경우가 많아지고 있다.[7] 실제로 GPT-3.5를 기반으로 하는 ChatGPT와 GPT-4를 기반으로 하는 유료버전의 비교를 통해, 더 이상 사이즈에 비례하여 퍼포먼스가 향상되지 않는다는 것을 체감해볼 수 있다. 또한 사이즈가 훨씬 작은 타 생성형 서비스들도 ChatGPT에 크게 뒤지지 않는 퍼포먼스를 보여주고 있다[8] 2023년 8월 기준으로 15곳의 유니콘 기업이 존재한다.[9] 대화형 인공지능 플랫폼.[10] 대화형 인공지능 플랫폼.[11] 머신러닝 라이브러리 플랫폼.[12] 대화형 인공지능 플랫폼.[13] 대화형 인공지능 플랫폼.[14] 이스라엘의 인공지능 기반 영상 및 사진 편집 플랫폼. 페이스튠 앱을 개발했다.[15] 인공지능 기반 영상 생성 플랫폼.[16] 인공지능 작가.[17] 프로그래밍 협업 플랫폼.[18] 언어모델 API 제공 업체.[19] 인공지능 컴패니언 플랫폼.[20] 그림 인공지능 플랫폼.[21] 연구용 리서치 플랫폼.[22] 텍스트 투 이미지/비디오 플랫폼.[23] 어도비 직원들이 설립한 컨텐츠 생성 솔루션 업체.[24] 2023년 4월부터 아마존 웹 서비스를 통해 제공하고 있다.[25] 단돈 25만 달러로 기업별 맞춤 LLM 구축이 가능하다고 한다. 또한 사내 데이터를 외부에 공개하지 않고 자체적으로 구축하는 방식이라 보안성이 강하다.[26] 기업 맞춤 프라이빗 플랫폼이다.[27] AWS, Microsoft Azure, GCP.[28] 가장 유명한 생성형 인공지능인 ChatGPT가 해당 분야에서 상당히 떨어지는 능력치를 보여준다.[29] 막대한 액수의 투자를 받으며 유니콘 기업에 등극했음에도 만성적인 적자를 감내하지 못하여, 2024년에 들어서는 경영진 및 핵심 인력이 빅테크 기업으로 이직하고 라이센스 제공 계약을 맺는 방식의 우회매각 사례도 속출되고 있다. ADEPT, Inflection AI, Character.AI 등이 대표적이다.[30] 대표적으로 합성곱신경망인 LeNet 등을 통해 딥러닝 방식의 비전 분야를 개척한 얀 르쿤은 제파라는 트랜스포머의 대안을 연구하고 있다.[31] 소셜 미디어와 검색엔진 같은 경우에도 맞춤형 디지털 광고라는 수익모델을 만들기 전까지는 꽤나 오랜 기간 해당 기술의 파급력이나 범용도 대비 수익성이 좋지 못했다.[32] 한마디로, 잘 모르는 질문을 받아도 정답 같은 답변을 만들기 위해 의도치 않은 거짓도 불사하는 것이 생성형 AI의 한계