기계 번역

[[컴퓨터공학|컴퓨터 과학 & 공학

Computer Science & Engineering

]]

[ 펼치기 · 접기 ]

||<tablebgcolor=#fff,#1c1d1f><tablecolor=#373a3c,#ddd><colkeepall><colbgcolor=#0066DC><colcolor=white> 기반 학문 ||수학(해석학 · 이산수학 · 수리논리학 · 선형대수학 · 미적분학 · 미분방정식 · 대수학(환론 · 범주론) · 정수론) · 이론 컴퓨터 과학 · 암호학 · 전자공학 · 언어학(형태론 · 통사론 · 의미론 · 화용론 · 음운론) · 인지과학 ||

하드웨어 구성	SoC · CPU · GPU(그래픽 카드 · GPGPU) · ROM · RAM · SSD · HDD · 참조: 틀:컴퓨터 부품
기술	기계어 · 어셈블리어 · 바이오스 · 절차적 프로그래밍 · 객체 지향 프로그래밍 · 함수형 프로그래밍 · 해킹 · ROT13 · 일회용 비밀번호 · 사물인터넷 · 와이파이 · GPS · 임베디드 · 인공신경망 · OpenGL · EXIF · 마이크로아키텍처 · ACPI · UEFI · NERF · gRPC · 리버스 엔지니어링 · HCI · UI · UX · 대역폭 · DBMS · NoSQL · 해시(SHA · 브루트 포스 · 레인보우 테이블 · salt · 암호화폐) · RSA 암호화 · 하드웨어 가속
연구 및 기타	논리 회로(보수기 · 가산기 · 논리 연산 · 불 대수 · 플립플롭) · 정보이론 · 임베디드 시스템 · 운영체제(멀티태스킹 · 프로세스 스케줄링 · 데드락 · 식사하는 철학자 문제 · 뮤텍스 · 세마포어 · 인터럽트) · 데이터베이스 · 컴퓨터 언어 · 프로그래밍 언어{컴파일러(어셈블러 · JIT) · 인터프리터 · 유형 이론 · 어휘 분석 · 파싱 · 링커 · 난해한 프로그래밍 언어} · 마크업 언어 · 메타데이터 · 기계학습 · 빅데이터 · 폰노이만 구조 · 양자컴퓨터 · 행위자 모델 · 인코딩(유니코드 · MBCS) · 네트워크(네트워크 포트) · 컴퓨터 보안 · OCR · 슈퍼컴퓨터 · 튜링 머신 · FPGA · 딥러닝 · 컴퓨터 구조론 · 컴퓨터 비전 · 컴퓨터 그래픽스 · 인공지능 · 시간 복잡도(최적화) · 소프트웨어 개발 방법론 · 디자인 패턴 · 정보처리이론 · 재귀 이론 · 자연어 처리(기계 번역 · 음성인식) · 버전 (버전 관리 시스템)

1. 개요2. 제대로 사용하는 요령3. 오역4. 주요 번역기

4.1. Google 번역4.2. 네이버 파파고4.3. Bing 번역기4.4. 삼성 인터넷 번역기4.5. DeepL4.6. ChatGPT4.7. 카카오 i 번역4.8. 플리토4.9. Apple 번역4.10. 얀덱스 번역4.11. RWS 기계 번역4.12. 시스트란 번역기(데모)4.13. ~~S 번역기~~4.14. 알타비스타

4.14.1. 바벨피시의 과거의 오역들

4.15. Translation Services USA4.16. 한↔일 전문 번역기

4.16.1. EZTrans 계열4.16.2. KODENSHA 계열

4.17. Claude4.18. Language Reactor4.19. Gemini(인공지능 모델)4.20. 삼성 가우스4.21. Browsing Assist

5. 번역 평가 방법론

5.1. 필요성5.2. 사람이 직접 평가5.3. 자동 평가 방법

6. 관련 문서

1. 개요

機械飜譯 / machine translation

컴퓨터가 주체가 되어 특정 언어를 다른 언어로 번역해주는 것이다. 자연어 처리의 분야이며 인공지능과도 관련이 깊다. 번역은 인공지능의 목표 중 하나였으며 지금까지 연구되는 주제이기도 하다.

사람이 번역하는 것을 컴퓨터가 보조하는 경우는 CAT(computer-assisted translation)라고 한다.

2016년부터는 AI를 이용한 신경망 번역을 구글이 도입했고, 네이버도 파파고 등 AI 번역기를 도입했다. AI의 학습량에 따라 진화하는 덕분에 번역의 질이 전과는 비교가 안 될 정도로 좋아지고 데이터가 많은 언어는 이미 번역된 글이 명료하게 쓰여왔다. 번역기가 생성한 문장이 원어민 수준에 이르렀지만 숙어 표현 등은 여전히 사람에게 밀린다.[1] 현재 시점에서도 여행 회화 정도는 문제없는 수준이기도 하고, 사용자가 많고 언어 유사성이 있는 영어-독일어, 영어-프랑스어 같은 경우 상당히 매끄럽게 번역되어 번역기만으로 언어를 학습해도 크게 문제가 되지 않을 수준이다.

2024년 이후 글로벌 빅테크가 출시한 언어를 이해하여 번역기로도 활용될 수 있는 생성형 인공지능의 번역 성능은 한국어-영어도 거의 이 수준에 근접했고, 심지어 한국내 외국인 노동자나 이주민의 언어나 특수외국어 수준의 언어조차 번역은 대체로 잘 되고, 간단한 문법적 지식은 직접 얻거나, 어려운 지식은 아직 언어 모델이 틀리기는 하지만 그 지식에 대한 글에 대해서는 해설을 요구할 수는 있다. 그런 공용어로는 쓰이지만 한국에서 아는 사람이 드문 언어에서도 어느 표현이 더 정중한지, 글을 현지인이 판단하기에도 어색하지 않게 제대로 썼는지 등을 알 수 있다. 텍스트 번역에서 이제는 음성을 통역하는 기술까지 상용화되기 시작했다.

데이터가 많은 영어-일본어, 한국어-영어도 외국어치고는 화자가 소수이거나 인지도가 낮은 영어와 유사한 언어에 비해 정확도가 비교적 높은 편이다. 두고두고 회자될 정도의 심각한 사례로 꼽히는[2] 인간의 오역 수준은 이미 2024년 기준 성능이 좋은 번역기가 돌파한 상황이다. 문법이 상당히 유사한 한국어-일본어 같은 경우도 잘 번역된다. 심지어 완전히 해독되지 않은 고대 언어인 에트루리아어를 기계 번역을 통해 해석하려는 시도가 있을 정도로 발전이 있다.#

2. 제대로 사용하는 요령

기계 번역은 사용이 편리한 만큼 그 한계가 명확하기에 반드시 제대로 된 사용법을 숙지하고 사용해야 제대로 된 결과를 얻을 수 있다. 다만 GPT 등 AI를 이용한 번역의 경우 6, 8번을 제외한 부분은 유의할 필요가 적다. 일반 번역기와 달리 번역을 하며 한국어를 정확하게 사용할수록 결과물이 좋다. 다만 간간이 없는 내용을 만들어내거나 번역할 내용을 번역하지 않는 새로운 유형의 버그가 있다.

1. 맞춤법 잘 지키기
사람이라면 간단한 맞춤법 오류 두어개가 있는 문장도 무리없이 읽을 수 있지만 번역기는 그런 오류 한 개에 문장 전체를 엉터리로 번역해버리는 경우가 잦다. 유명한 必要韓紙같은 번역기 오역의 사례도 한국어 맞춤법이 틀린 문장을 번역기에 넣었기 때문에 일어난 사태이다. 맞춤법, 띄어쓰기, 문장부호를 빠짐없이 체크하고, 오류가 없는 문장을 번역하자. 줄임말, 은어 등은 배제하고 누구나 알 수 있을만한 단어를 사용해야 한다.

2. 정확하고 간결한 문장 사용
특히 한국어는 주어나 목적어 등 문장 구성 성분이 생략되는 경우가 많은데 인도유럽어권 언어에서는 전혀 생략되지 않을 때가 많다. 때문에 문장 구성 성분이 생략된 한국어 문장을 번역할 경우 완전히 엉뚱한 내용으로 번역되거나, 사용자가 생각한 것이 아닌 엉뚱한 주어를 임의로 넣어서 정반대의 뜻으로 번역하기도 한다.[3] 때문에 한국어로서는 오히려 부자연스러워지더라도 모든 생략된 구성 성분을 빠짐없이 넣어줘야 한다. 그리고 수식 구조가 복잡해지는 장문의 문장일수록 어딘가에서 삑사리가 날 확률이 늘어나므로 어색해지더라도 간결한 수식 구조의 문장 여럿으로 쪼개서 따로따로 번역하는 것이 더 좋다. 또한 표현법 역시 최대한 심플한 단어를 사용하는 것이 좋다. 예를 들어 "감동했다"라고 쓰면 될 곳에 "감동적이었다" 같은 표현을 썼다간 "감동"과 "이었다" 사이의 "적"을 enemy로 번역하는 경우도 생긴다. 앞뒤의 문장에 enemy와 관계될 법한 표현이 있었다면 그 가능성이 더 높아진다.

3. 번역체 문장으로 쓰는 것이 좋을 수도 있다
2번과 부분적으로 겹치는 내용이다. 한국어와 달리 많은 외국어에서는 대상의 성별이 무엇인지에 대한 정보 없이는 문장을 완성조차 할 수 없는 경우가 많다. 예를 들어 "대통령은 자신의 집무실로 갔다."라는 문장을 번역기에 넣으면 "The president went to his office."이라는 결과물이 나오는데, 원문에서 생략된 대통령의 성별을 남성으로 추측해서 완성한 것이다.[4] 물론 전세계 대통령제 국가의 대통령 중 절대다수가 남성이므로 저 문장은 높은 확률로 맞는 번역이지만, 만일 사용자가 박근혜에 대한 글을 번역하는 중이었다면 이는 틀린 번역이 된다. 영어뿐 아니라 다른 인도유럽어권 언어로 번역해도 대부분 비슷한 오류가 발생한다. 이를 막기 위해서는 번역투처럼 보여 다소 어색하더라도 "대통령은 그녀 자신의 집무실로 갔다."라는 문장을 넣어줘야 의도에 맞는 번역을 얻을 수 있다. 애초에 번역체 문장이 생기는 이유가 한국어와 문장 구성 원리가 다른 외국어를 한국어 문장으로 옮기면서 생겨나는 것이니, 한국어 또한 처음부터 외국어스러운 번역체 문장으로 적어서 제공하면 외국어로 더 자연스럽게 옮겨질 수 있는 것이다.

4. 비유적 표현 금지
같은 이유로, 속담 등 비유적 표현은 최대한 쓰지 않는 것이 좋다. 이런 비유적 표현은 사회문화적 맥락 없이 직역해버리면 전혀 이해할 수 없는 문장이 되기도 하므로 딱딱해지더라도 모든 문장을 직설적인 내용으로 써야한다.[5][6] 특히 고사성어의 경우 한문과 중국사/한국사에 대한 지식까지 있어야 의미가 해석되는 경우가 많으니 언어 모델이 아닌 번역기에 넣으면 대부분 엉터리 번역이 나온다. 예를 들어 비교적 쉬운 고사성어인 면종복배를 넣어 "그는 면종복배하는 자이니 조심하라."라는 문장을 번역기에 넣으면 "He is a very obedient person, so be careful."라는 완전히 정반대 뜻의 문장이 튀어나온다. 면종복배라는 고사성어가 제대로 처리되지 않고 어감이 비슷한 '복종'처럼 처리된 듯하다. 군더더기를 덜어내고 "면종복배"만 번역기에 넣으면 "Cotton swab", 즉 면봉이라는 오역이 튀어나온다.

5. 고유명사, 혹은 특정 분야 전문용어 처리
고유명사를 한글로 적을 경우 사용자의 의도와 다르게 처리되기도 한다. 예를 들어 이원복이라는 인명을 번역기에 넣으면 "Lee Won-bok"이라는 결과물이 나오는데, 아무 이원복 씨라면 이 표기가 맞을 확률이 높지만 유명인 이원복 교수는 자신의 이름을 로마자로 "Rhie Won-bok"이라고 표기하므로 이는 오류가 된다. 경우에 따라 같은 번역기가 동일한 이름을 그때그때 다르게 음차하기도 하니, 고유명사는 처음부터 사용자가 손으로 번역을 해서 "Rhie Won-bok 교수는 만화가이다."처럼 적는 것이 낫다. 자주 사용되지 않는 특정 분야 전문용어 또한 번역기가 제대로 이해하지 못하고 엉터리로 처리하는 경우가 많다. 선박에 대한 글을 번역하면서 "스페인에서 만들어진 카락은 나오라고 한다."라는 문장을 번역기에 넣으면 "Caracal made in Spain is said to come out."이라는 번역기 오류라는 것을 알고 봐도 원 문장을 추측하기 힘든 전혀 다른 문장이 튀어나온다. 카락, 나오라는 일상에서 잘 쓰이지 않는 단어들을 동물 카라칼, 동사 '나오다'로 오해해서 문장 전체를 엉터리로 번역한 것이다. GPT, Gemini[7] 같은 배경지식이 많은 인공지능을 사용하지 않으면[8], 특정 주제와 관련된 복잡한 설명문은 현 수준의 기계번역으로는 제대로 번역되기를 기대하지 않는 것이 좋다.

6. 어떻게든 검수를 해보자
보통 목표 언어를 조금이라도 구사할 수 있다면 번역기를 쓰지는 않을 것이다. 그러나 기초도 모르는 까막눈인 언어로의 번역이라도 최소한의 검수는 해볼 수 있다. 번역 결과물이 나온 후 그대로 사용하지 말고, 다시 영어로 역 번역을 해보자. 번역하기 전의 원 문장과 뜻이 통하는 비슷한 문장이 나왔다면, 그리고 이를 다시 목표 언어로 번역했을 때 아까의 결과물과 똑같은 문장이 나온다면 100%는 아니어도 거의 신뢰할 수 있는 번역이라는 의미이다. 역번역 결과물이 이상하거나 역번역을 반복할 때마다 문장이 계속 변한다면 어딘가 잘못된 것이다. 이때는 출발 문장을 다시 수정해서 더 간단하고 명료한 문장으로 바꾼 뒤 시도해보자.
언어 모델 용도의 AI는 왜 그렇게 번역을 했느냐는 식으로 물어도 검수가 어느 정도 가능하다. '더 정확히 번역하라'라는 명령으로도 정확도가 높아질 수 있다.

7. 뜻만 통하면 된다
보통 기계 번역기 하나에 의존해서 의사소통을 하는 상황은 공적인 자리가 아니며 여행지에서 현지 언어를 못 하거나, 혹은 국내에서 한국어도 영어도 못 하는 외국인을 상대해야 하는 경우 등 최소한의 의사 전달만 되면 충분한 상황이다. 애초에 공적인 자리에 기계 번역 결과물을 들고 갈 생각을 하면 안된다. 이럴 때는 굳이 완성된 문장을 통째로 번역해서 오류가 생길 여지를 만들기보다는 단어 하나씩만 던져주는 것이 서로에게 더 이해하기 편한 방법일 수도 있다. 번역시킨 뒤 손가락으로 짚어보게 하는 것이 의사소통에 걸리는 시간이 훨씬 줄어들고 오류의 여지가 적다. 언어 모델을 '번역기'로 사용하는 경우, 한국어 문장을 직역해서 알려달라고 하는 것이 아니라 그 상황에 맞는 가장 알맞은 문장을 알려달라고 하는 것이 더 적절하다.

8. 언어 모델(GPT, Claude 등) 기반 번역에서는 사용자가 번역에 유용한 정보를 제공할 수 있다
2022년 이후 출시된 ChatGPT 등에서 쓰이는 최신 언어 모델은 번역에 필요한 정보를, 인간 번역가가 번역을 할 때 찾는 것처럼 그런 정보를 미리 제공할 수 있다. 성능이 낮은 무료 언어 모델도 어떤 단어의 의미를 고정해서 번역하라는 명령이 가능하다. 2024년 3월에 쓰이는 최신 언어 모델에는 번역시 유의 사항, 예를 들면 번역가의 번역 원칙, 번역할 글의 특징, 시대적 배경, 캐릭터의 성격 등을 알려주면서 번역하라는 요청이 가능하다. 간단하게는 번역할 글의 분류나 출처(저작권이 있는 글이라고 하면 번역이 거부될 수는 있다.)를 알려주면서 번역할 수 있다. 2024년 3월 기준 한국어의 경우는 성능이 다소 낮은 언어 모델도 반말과 존댓말을 구분하여 번역하라는 요청이 가능하며, 성능이 좋은 모델은 어떤 글을 주고 그 글과 유사한 문체로 번역하게 하는 것이 가능하며, 하오체 같은 말투의 문법적 특징을 설명하는 글을 자료로 주며 그 말투로 번역을 하게 하는 것도 복잡한 수준이 아니면 가능하다. 번역 과정을 물어본다든가, 이상하게 번역된 문장에 대한 피드백도 가능하다. 다만 검열이 심해지면 선정적이거나 폭력적이거나 저작권 문제가 우려되는 글은 번역이 거부된다.

영어를 전혀 못 읽어서 꼭 한국어로 번역해야 하는 것이 아니라면 한국어↔타 언어 대신 영어↔타 언어의 번역을 사용하는 것이 더 좋다는 주장이 있다. 물론 영어로의 번역 품질이 가장 좋은 것은 사실이지만 2023년 기준 영어 독해 능력이 토익 800~900점대가 아니라면 모든 대형 검색 사이트의 번역 서비스 등 신경망 번역, 딥러닝이 이용된 서비스는 직역을 하는 것이 더 좋다. 일본어 같은 언어가 특히 직역이 요구되며 이 경우는 아무리 영어로의 번역 성능이 좋아도 한국어로의 번역 성능을 못 따라가는 일이 생길 수도 있다. 2016년 이전만 해도 아예 일본어라도 영어로 번역하고 이를 한국어로 번역하는 것이 좋았는데, 이제는 그렇게 번역하면 일본어 특유의 높임말, 고사성어[9] 등이 번역이 제대로 되지 않는다. GPT4 이상의 성능을 가진 번역기는 어느 언어라도 영어를 거치지 않고 직역을 해야 번역 과정에서의 의미 왜곡이 줄어든다.

비록 한국어가 고맥락 언어라지만 영어도 일정 부분에서는 유의어, 연어라는 그 문화를 모르면 도저히 이해할 수 없는 표현이 있다. 그리고 영어는 고립어이기 때문에 품사의 구분이 한국어에 비해 모호하며, 호칭어는 특히 한국어가 영어보다 세분화된 표현을 갖고 있는데, 이는 일본어나 중국어나 베트남어 같이 마찬가지로 호칭어가 발달된 언어를 영어로 번역하면 정확도가 떨어진다는 것을 의미한다. 서구에서 만들어진 번역기의 경우라도 이런 호칭어를 한 문장에서는 영어에서 중역된 표현이 나와 헷갈리게 하지만[10] 더 문구가 길어질수록 문맥이 잘 이해되어 호칭어가 영어를 거친 경우에 비해 정확하고, 국산 번역기는 한 문장에서도 직역된 표현이 나온다. 영어가 아닌 많은 서구의 언어는 이런 경향이 줄지만, 한국어와의 직접적인 번역 데이터가 현재도 쌓여가고 이를 제안할 수도 있기에 예컨대 스페인어 같이 지시대명사가 영어보다 한국어와 같이 '이/그/저'의 의미를 가진 것이 있는 언어의 경우 이 부분은 직역이 나을 수도 있다.

3. 오역

4. 주요 번역기

4.1. Google 번역

구글 번역 문서 참고. 2016년 9월 28(현지시각)부터 영어-중국어를 시작으로 딥 러닝 기술이 적용되었다. 구글 크롬이 사용한다.

4.2. 네이버 파파고

네이버에서 제작한 인공지능 기반 번역기. 네이버 웨일이 사용한다.

4.3. Bing 번역기

Bing 번역기

기술문서 번역에서는 구글보다 좋은 결과를 보여준다. 이유는 방대한 MSDN 번역자료가 있기 때문이다. 페이스북의 번역 기능이 바로 이 번역기 기반이다.

의외로 많은 번역 앱이나 사이트, 블로그 등이 Bing 번역기에 번역 서비스를 의존하고 있다. 앱/웹 개발자에게 무료로 자신들의 서비스 API를 오픈하고 있는 혜자로운 정책 덕분. 사이트나 블로그 등에 부착할 수 있는 위젯에는 제한이 없고, 앱에서 사용할 수 있는 API는 월 200만 단어까지 무료다.

Microsoft Edge의 번역 기능도 Bing 번역기를 사용한다.

2024년 업데이트 이후 Bing 번역기의 성능이 대폭 향상되었다. 구글 번역기와 거의 성능 차이가 없을 정도로 발전하였다.

4.4. 삼성 인터넷 번역기

삼성 내부에서 개발한 자체 번역 엔진을 사용한다. 삼성 인터넷으로 이용 가능하다.

4.5. DeepL

홈페이지

AI를 이용한 수준 높은 번역기이다. 2022년 12월부터 한국어도 지원하기 시작했다. 2023년 5월부터 Pro도 지원하기 시작했다. 세계에서 가장 정확한 번역기임을 주장하고 해외에서는 구글 번역보다 정확한 것으로 상당히 유명하다. 서구 언어를 잘 번역하는 편이다.

한국어의 경우, 한국어에서 외국어로 번역하는 것은 영어나 중국어, 독일어의 경우 구글보다 조금 나은 편이나 외국어에서 한국어로 번역하는 것이 말끔해졌다. 일본어나 프랑스어, 러시아어, 우크라이나어 등과의 번역 품질은 구글보다 차이가 커서 품질이 좋은 편이다. 관용구를 의역하는 경향이 강하다.

DeepL 문서도 참고.

4.6. ChatGPT

ChatGPT 역시 높은 수준의 번역을 제공하고 있다. 초기에는 한국어와 영어 간의 번역 품질이 그리 좋지 않았으나, 한국어 데이터 업데이트 이후 파파고 이상의 번역 품질을 보여준다. 2024년 5월부터 이용가능해진 GPT 4o의 경우 종전 버전에 비해 한국어 출력의 속도가 매우 높아졌고 정확도도 다소 높아졌다. 음성 통역도 2024년 9월부터 GPT 4o의 고급 음성 모드로 가능해졌고, 이 분야는 9월 기준 GPT-4o가 다른 기계 번역보다 앞서 있다. 2025년 3월, 작문 성능에 대한 업데이트도 예고 없이 진행되어 번역 성능이 더 좋아졌다.

영어와 여러 다른 언어의 번역에서도 추가적인 정보없이 번역을 하라는 명령만 있을 경우, GPT4를 사용하면 구글 번역과 DeepL과 비슷한 수준의 성능을 보인다.# 특히 번역에서 중요한 요소를 먼저 답변하게 하고 그런 답변에 나온 방식으로의 번역을 요청하는 등의 프롬프트 엔지니어링을 사용해도 정확도가 높아지나, 별도의 특별한 프롬프트 없어도 번역이 잘되는 경우가 갈수록 많아진다. ChatGPT 문서에서 그 자세한 방법을 찾을 수 있다.

비서구권의 언어를 해석할 수 있는 성능이 유료 버전 기준 구글 번역을 앞서는 부분도 있다. 유료 버전에서 이 서비스는 특정 언어 번역에서 중요한 요소를 감안하라는 명령, 소설 번역임을 감안하라는 식의 명령, 제공해 준 요약한 줄거리를 고려해서 번역하라는 명령도 이해한다. 2024년 1월 기준, 중국 소설 아Q정전의 도입부를 ChatGPT의 결과물이나 기타 번역기는 아래와 같이 번역하는 수준이다. 물론 인간이 가장 정확하지만 그 수준을 기존 기계 번역에 비해 크게 높였다. 다만 인간과 수준을 비슷하게 맞추려면, 인간이 아는 지식인, 소설의 배경과 같은 사항을 번역할 때의 프롬프트에 넣어줘야지 비교가 가능한 조건이 된다. 추가적인 정보 없이 바로 번역하라고 하면 성능이 낮아진다.

잘 보면 번역가와 ChatGPT를 제외한 기존 번역기들은 존댓말로 번역하고 있는데, 한국어와 일본어는 어른이나 높은 지위의 사람에게 존댓말을 해 주는 것이 예의인 존비어 문화라 도착어가 한국어와 일본어일 경우 높은 확률로 존댓말로 번역된다. 즉 외국인이 한국인과 대화할 때 한국인의 정서를 맞춰주지만, 한국인이 원문의 말투를 학습할 때 원문의 말투를 이해하기에는 어렵다는 것이다.

원문: 我要給阿Q做正傳，已經不止一兩年了。但一面要做，一面又往回想，這足見我不是一個“立言”的人，因為從來不朽之筆，須傳不朽之人，於是人以文傳，文以人傳——究竟誰靠誰傳，漸漸的不甚瞭然起來，而終於歸接到傳阿Q，仿佛思想裏有鬼似的。

이욱연 역, 문학동네, 2011: 내가 아Q에게 정전을 써줘야겠다고 생각한 것이 한두 해 된 게 아니다. 그러나 막상 쓰려다가도 마음이 흔들리는 것을 보면 내가 문장가가 못 된다는 확실한 증거이리라, 대개 불후의 인물인 경우 불후의 문장력을 지닌 사람이 써왔다. 글을 통해 사람이 전해지고 글은 또 사람을 통해 전해져서 결국은 누가 누구에 의해 전해지는지 점점 알 수 없게 되는 것이다. 어쨌거나 아Q를 글로 전하겠다고 나서는 걸 보면 내가 귀신에라도 씐 모양이다.

ChatGPT(GPT-4o): 나는 아Q의 정전을 쓰려고 한 것이 이미 한두 해가 지났다. 그러나 한편으로 쓰려고 하면서도 한편으로는 다시 생각해보게 된다. 이는 내가 “글을 세우는” 사람이 아니라는 것을 분명히 보여준다. 왜냐하면 영원히 남을 글은 반드시 불멸의 인물을 전해야 하기 때문이다. 이로 인해 사람은 글로 전해지고, 글은 사람으로 전해진다 — 결국 누가 누구에게 전해지는지 점점 분명하지 않아지다가, 결국 아Q를 전하게 되는 것 같다. 마치 내 생각 속에 귀신이 있는 것 같다.

파파고: 제가 아큐의 본문을 만든 지 한두 해가 넘었습니다.하지만 한편으로는 해야하고, 한편으로는 돌이켜 생각해보면, 이것은 내가 "입언"하는 사람이 아니라는 것을 알 수 있습니다. 왜냐하면 결코 썩지 않는 필치, 반드시 전해져야 하는 사람, 그래서 사람은 글로 전해지고, 문은 사람으로 전해집니다. 도대체 누가 누구를 믿고 전해지는지 점점 분명해지지 않다가, 마침내 아큐에게 전해져 마치 마음속에 꿍꿍이가 있는 것 같습니다.

구글 번역: 아Q의 메인 스토리를 쓰고 싶었던 게 벌써 1, 2년이 넘은 것 같아요. 그런데 하면서 또 생각이 나네요.. 불멸의 펜은 늘 불멸의 사람에게 물려주었기 때문에 글을 통해서, 글을 통해서 물려받는다는 것은 제가 '말하는' 사람이 아니라는 것을 보여줍니다. 누구에게 물려줄 것인가? 는 점점 불분명해졌고, 마침내 마음 속에 귀신이라도 들린 듯 아Q에게로 돌아왔다.

DeepL: 아큐의 전기를하고 싶었던 지 1 ~ 2 년이 넘었지만 한편으로는하고 싶었고 다른 한편으로는 그것에 대해 생각했습니다. 그러나 한편으로는 하고 싶고, 다른 한편으로는 내가 불멸의 펜에서 불멸의 사람에게 전달되어야하기 때문에 사람들의 "연설"이 아니라는 것을 보여주기 때문에 사람들은 전승의 텍스트, 사람들의 전승의 텍스트-누구의 전승에 의존하고 점차적으로 잘 이해하지 못하고 마침내 전승으로 돌아 왔습니다! 내가 말하고 싶은 첫 번째 것은 내가 무슨 말을하는지 잘 모르겠지만 내가 무슨 말을하는지 잘 모르겠다는 것입니다.

2025년 3월 기준으로는 이렇게 번역한다.

나는 아Q의 전기를 쓰려 한 지 벌써 한두 해가 지난 것이 아니다. 하지만 한편으로는 쓰고자 하면서도, 또 한편으로는 자꾸 되돌아보게 된다. 이는 내가 ‘입언(立言, 글을 써서 이름을 세우는 일)’하는 사람이 아님을 잘 보여주는 것이다. 불멸의 필력은 반드시 불멸의 인물을 전해야 한다. 그래서 사람은 글로 전해지고, 글은 사람으로 전해진다. 도대체 누가 누구 덕에 전해지는 것인지 점점 분명하지 않게 되어, 결국은 아Q를 전하는 데로 귀착되고 만다. 마치 내 생각 속에 귀신이라도 붙은 듯하다.

참고로 GPT-4o도 일반 번역기보다는 성능이 뛰어나다는 것이지, 다른 글로벌 빅테크의 언어 모델보다 한국어 데이터 업데이트가 느린 경우도 발생한다. 이런 언어 모델들이 앞다투어 더 번역 성능이 좋은 모델을 내놓으면서 번역 성능이 가장 좋은 언어 모델이 몇 달 사이에 바뀌고는 한다. 아래는 2024년 6월에 출시되어 있는 언어모델이다. 향후 이런 회사보다 더 좋은 언어 모델을 내놓을 가능성도 있다.

Gemini 1.5 Pro: 아Q의 정전을 쓰려고 한 지가 벌써 일이년이 넘었습니다. 그러나 쓰려고 하면 할수록 생각이 많아지는 것을 보니, 저는 과연 “말을 남기는” 사람은 못 되나 봅니다. 진정 불멸의 글이란 불멸의 인물을 기록해야 하는 법인데, 사람은 글로 인해 전해지고, 글은 사람으로 인해 전해지니… 도대체 누가 누구에게 기대어 전해지는 것인지 점점 알 수 없게 됩니다. 결국 아Q를 기록해야겠다는 생각에 이르니 마치 머릿속에 귀신이 들린 것만 같습니다.

Claude 3.5 Sonnet: 아Q의 정전을 쓰려고 한 지가 벌써 한두 해가 넘었다. 하지만 쓰려고 하면서도 한편으로는 계속 되돌아보게 되니, 이는 내가 '입언(立言)'[22]의 인물이 아님을 잘 보여준다. 왜냐하면 예로부터 불후의 글은 반드시 불후의 인물을 전해야 하고, 그래서 인물로 글을 전하고 글로 인물을 전한다 - 결국 누가 누구를 의지해 전해지는 것인지 점점 분명치 않아지다가, 마침내 아Q를 전기로 쓰는 데로 귀결되니, 마치 사고 속에 귀신이 들어 있는 것 같다.

발음을 라틴 문자와 숫자를 섞어서 쓰는 아랍 통신체, 기타 아시아 지역 언어의 통신체[23], 스코틀랜드 등에서 쓰이는 심한 영어 사투리나 고대 영어의 유명한 문구, 영어가 다른 언어와 섞여서 생성된 언어인 크리올 등을 해석할 수 있고, 반대로 한국어를 이런 언어로도 번역할 수 있다. 본래는 번역기가 아니기에 다양한 문체로 번역을 요청할 수 있으며, 특정 단어의 뜻을 고정시켜서 번역하라는 식의 요청, GPT4에 한정하여 한국어를 사용하는 도널드 트럼프의 말투[24]로 번역을 하는 식의 요청도 가능하다. 영어는 사투리나 속어를 알려달라는 요청에도 결과가 나올 정도다. 심지어 에스페란토 같이 인공어도 좀 알려진 것은 해석이 가능하다. 기미독립선언서 같이 한문이 많이 섞인 글까지 해석이 가능하지만 사투리나 노걸대언해 수준의 조선 중후기의 언어 정도로 넘어가면 해석을 잘 못한다.

2024년 9월 공개된 o1은 수학적 능력은 매우 향상된 모델이지만, 번역 측면에서는 Anthropic이나 구글의 언어 모델보다 품질이 다소 낮으며, 특히 소수 언어일수록 이런 성능차가 심하다. 암호 같은 문구를 해석할 때 그나마 진전이 있는 것으로 추정된다.

4.7. 카카오 i 번역

카카오 i의 서비스 중 번역 서비스이다. 카카오 i 번역 문서 참고.

4.8. 플리토

인공지능 번역 서비스는 무료, 사람이 직접 번역해 주는 전문적인 서비스는 유료로 제공한다.

4.9. Apple 번역

Apple에서 제작했다. iOS와 iPadOS에 포함된 번들 앱으로 PC에서는 사용이 불가능하다.

자세한 내용은 Apple 번역 문서 참고.

Mac에서는 iOS와는 달리 단독 번역 앱은 탑재되지 않으나, macOS Big Sur부터 Safari 브라우저에서 웹페이지 번역을 지원한다.

4.10. 얀덱스 번역

이모지 번역 기능이 있다. 한국어 발음을 할때 받침이 있는 단어와 조사가 결합하는 부분에서 음절의 끝소리 규칙이 적용된 후에 발음된다.(예: 로봇을 → 로보들)

4.11. RWS 기계 번역

홈페이지

RWS는 현재 세계에서 가장 큰 랭귀지서비스 기업으로 통계형이 아닌 인공신경망 기술을 기반으로 번역 솔루션을 제공하고 있다. 별건 아니고 요즘은 대부분 인공신경망이다. 그리고 시장에서 가장 완성도가 높은 학습형 기능으로 알려지고 있다. RWS는 전세계적으로 가장 많은 고객들에게 서비스를 하고 있고 현재 주한미군에서도 공식적으로 체택하여 사용하고 있는 중이다.

국내에서는 클라우드솔루션 전문기업인 모코엠시스에서 RWS 인공신경망 기계번역 솔루션을 서비스하고 있다.

4.12. 시스트란 번역기(데모)

홈페이지

시스트란에서 인공신경망 기술을 기반으로 만든 번역기다. 하버드대와 공동연구하고 있으며 OpenNMT OpenNMT에 오픈 소스화 되어 있다.

4.13. S 번역기

삼성전자에서 제작한 S 번역기 문서 참고. 현재는 서비스 중단.

4.14. 알타비스타

바벨피쉬 문서 참고. 구글 번역 이전에 세계적으로 유명한 번역 서비스였다. 엉터리같긴 하지만 그래도 인구어간 번역은 언어간의 구조적 유사성 덕분에 그럭저럭 쓸만했었다고. 알타비스타를 인수했던 야후!에서도 사용되었다.

4.14.1. 바벨피시의 과거의 오역들

파일:external/thimg.todayhumor.co.kr/1440422666179.jpg

부정문을 올바르게 처리하지 못하는 오류가 있으며 서로의 번역 언어를 바꿔도 마찬가지의 결과가 나온다. 영어의 'not', 부정을 뜻하는 접두사로 시작하는 단어(un-, in-), 한국어의 '아니다', '안-', '않-' 등의 부정 표현을 무시하거나 긍정문으로 바꿔버린다. 대표적으로는 프란치스코가 트위터에 'War never again! Never again war!'라고 쓴 것을 '결코 다시 전쟁! 결코 다시 전쟁!'이라고 출력하는 등의 사례가 있다.(…) 2022년 1월 번역 결과 '전쟁은 다시는 안됩니다! 다시는 전쟁을 하지 마십시오!'로 번역된다.[25]

그리고 과거 구글 번역 때처럼 여기도 初音ミク(하츠네 미쿠)가 이명박으로 변역된 적이 있었으나 지금은 올바르게 수정되었다. 저 단어 단독적으로 사용하면 정상으로 보이지만, 특수문자나 다른 수식어와 함께 사용하면 여전히 이명박으로 나온다. 더불어 ヘ도 특수문자와 수식어랑 같이 사용하면 박근혜로 나오며, yi를 치면 이순신이 나온다.

Bing 번역기에 にごり湯를 번역하면 아잉이 나오고 露天風呂를 검색하면 튀잉이 나온다.(…)

이렇듯 사람들 사이에 불만이 많았지만 2016년 11월 15일부터 신경망 기반 번역이 등장하면서 앞으로는 개선될 것으로 보인다.

2020년 11월 12일에 신경망 아키텍처 버전 2로 판올림 되었고, 2022년 3월 22일에는 구글의 제로 샷 번역과 비슷한 Z-Code MoE(Mixture of Experts)라는 아키텍처를 도입하였다.

현재도 발생하고 있는 증권 시세 표시기 오류도 있다.

4.15. Translation Services USA

링크

소수민족의 언어는 물론 사어까지 번역해 주는 어마어마한 물량의 사이트. 다만 유료 회원가입을 해야 한다.

4.16. 한↔일 전문 번역기

4.16.1. EZTrans 계열

EZTrans XP
EZTrans 계열의 원조 프로그램. 아래에서 언급된 여러 프로그램 들에 플러그인 등으로 연동되어 번역 메인 엔진의 역할을 하기도 한다. 자체에도 사용자 사전 추가/편집 기능이 있으므로 본인 사용 영역에 따라 꾸준히 사용자 사전을 관리해 왔다면 특정 상황에서는 순정 상태에서 일반적인 범용 사전(꿀도르 등)보다 우수한 결과물을 얻을 수도 있다.

아네모네 링크(+필터 플러그인)
EZTrans XP의 엔진을 사용하는 비공식 확장 프로그램.[26] 아네모네는 EZTrans XP의 엔진을 다른 곳에서 구동하기 위한 프로그램으로서 보통 후킹이나 OCR 등으로 추출해 낸 글을 자동으로 처리해서 돌려주는 형식으로 사용된다. 필터는 문장을 더 자연스럽게 다듬어 주는 역할을 하며, Ehnd가 주로 같이 쓰인다. 이 경우 흔히 짝을 이뤄서 사용되는 단어사전은 몇 가지가 있었으나 2017년 기준으로 범용으로는 꿀도르가 가장 보편적이고 무난한 일한 번역기이다. 물론 완전하지는 않다.
다만 본래 게임용(이 경우에는 ITH를 비롯한 후커의 개별 설치가 필요)으로 개발된 프로그램이라, 웹사이트 번역 기능은 없다. 웹사이트의 문장을 따로 복사해서 텍스트 번역란에 붙여넣어야만 한다. 혹은 드래그가 허용되는 사이트일 경우 클립보드 기능을 사용해 실시간 번역을 할 수도 있다.

~~야후 JAPAN 번역~~
야후 JAPAN에서 서비스하는 번역기로, 크로스랭귀지의 번역 엔진을 사용하는 서비스다.
한↔일/일↔한 모두 가능하며 번역 품질이 꽤나 좋다. 다만 유저 인터페이스가 일본어이기에 일본어에 익숙하지 않으면 사용에 난점이 있으며, 또한 2015년 겨울 이후부터는 야후 JAPAN 회원 계정이 있어야지만 세부 설정 기능을 사용할 수 있게 되었다.
번역 품질에 관련해서 독특한 부분을 한 가지 언급하자면, 띄어쓰기에 관련해서 상당히 철저하게 띄어쓰기가 이루어진 결과를 출력하도록 되어 있는 것이 특징. 다만 이것이 좀 지나쳐져 과잉 교정이 발생되는 일도 많아서, 붙여쓰기를 해야 자연스러운 단어나 문장이 될 수 있는 부분에 대해서도 일괄적으로 띄어쓰기를 적용한 결과를 출력하는 경향을 보였다. 이 때문에 가독성을 위한 배려라는 점에서는 훌륭하지만 그와는 별개로 기본적인 문장 구성에 있어서 기계 번역을 거친 티가 무언가 부자연스러움을 줄 정도로 확 나는 결과가 출력되는 일이 많았었던 편. 또한 꽤 철저하게 띄어쓰기가 이루어진다고는 하지만 역시 완전하지는 않은 편이기도 해서, 띄어쓰기를 해야 자연스러운 단어나 문장이 될 수 있는 부분에 붙여쓰기를 적용한 결과를 출력할 때도 역시 있었다. 2017년 6월 29일자로 서비스가 종료되었다.

고재팬

~~인포시크 번역기~~
라쿠텐의 포털 사이트인 인포시크에서 서비스하는 번역기로, 야후 JAPAN에서 서비스하는 번역기인 야후 JAPAN 번역과 마찬가지로 크로스랭귀지의 번역 엔진을 사용하는 서비스다.
한↔일/일↔한 모두 가능하며, 같은 회사의 번역 엔진을 사용하고 있기 때문에 번역 품질은 야후 JAPAN 번역과 크게 다르지 않다. 유저 인터페이스가 일본어이기에 일본어에 익숙하지 않으면 사용에 난점이 있다는 것도 동일. 띄어쓰기에 관련해서 상당히 철저하게 띄어쓰기가 이루어진 결과를 출력하도록 되어 있지만 그것이 좀 지나쳐져 과잉 교정이 발생되는 일 역시 많다는 것도 동일하다.
다만 자잘한 차이점도 있기는 한데, 대표적으로 회원 계정이 없이도 세부 설정 기능을 사용할 수 있다는 점을 들 수 있다. TLS 프로토콜을 사용하는 웹사이트(웹사이트 주소가 http가 아닌 https로 시작되는 곳들)는 번역이 불가능하다는 점도 야후 JAPAN 번역과는 다른 부분. 모바일 웹 페이지 버전이 없다는 게 흠. 2020년 12월 이후로는 중단된 상황.

~~SO-NET 번역~~
소니의 포털 사이트인 SO-NET에서 서비스하는 SO-NET 회원 전용 번역기. 본래 야후 JAPAN 번역과 마찬가지로 크로스랭귀지 번역 엔진을 사용하는 번역기였지만, 2018년 4월 초에 있었던 리뉴얼 이후에는 YarakuZen이라는 다른 회사의 번역 엔진으로 교체된 상황이다.
한↔일/일↔한 모두 가능하며, 번역 품질은 야후 JAPAN 번역과 비슷하다(다만 번역 품질이 약간 떨어지고 오역이 상당히 많은 편). 유저 인터페이스가 일본어이기에 일본어에 익숙하지 않으면 사용에 난점이 있다는 것도 동일. 띄어쓰기에 관련해서 상당히 철저하게 띄어쓰기가 이루어진 결과를 출력하도록 되어 있지만 그것이 좀 지나쳐져 과잉 교정이 발생되는 일 역시 많다는 것도 동일하다.
야후 JAPAN 번역과 마찬가지로 TLS 프로토콜을 사용하는 웹사이트(웹사이트 주소가 http가 아닌 https로 시작되는 곳들)의 번역이 가능한 것이 특징. 번역 품질이 야후 JAPAN 번역보다는 뒤떨어지기는 하지만, 서비스가 종료된 야후 JAPAN 번역의 대체재로서 활용가치가 있다고 평가받고 있었다. 이 번역기도 모바일 웹 페이지 버전이 없다.
2018년 4월 이전까지는 비회원도 웹사이트 번역 기능의 이용이 가능하였으나, 해당 기능은 2018년 4월 초에 있었던 리뉴얼 이후에 SO-NET 회원 전용 서비스로 전환되었다. 4월 말에 있었던 후속 패치로 직링크를 이용하는 우회 방법도 막힌 것이 확인되었다. 단문 번역 기능은 여전히 비회원에게도 제공되고 있지만, 번역 엔진이 교체되었기에 번역 품질에 약간의 변동이 있다는 점은 고려할 필요가 있다.

~~CROSS-Transer~~(일시 중단)
인포시크 번역기에서 이용중이며 과거에는 야후 JAPAN 번역이나 SO-NET 번역 등에서도 이용되었었던 번역 엔진의 개발사인 크로스랭귀지에서 직접 서비스를 제공하고 있는 번역기. 2017년 10월 11일부터 서비스가 개시되었다. 2018년 1월 30일부터는 파파고와 같은 인공지능 기반 번역 서비스도 제공되고 있지만, 이미 정식 서비스 단계로 돌입한 파파고와는 달리 아직 베타 서비스 단계이며 따라서 기존의 번역 엔진과 병용되고 있는 상태이다.
한↔일/일↔한 모두 가능하며, 크로스랭귀지 번역 엔진의 개발사에서 직접 제공하는 서비스이기에 번역 품질은 인포시크 번역기나 과거의 야후 JAPAN 번역과 동일하다. 유저 인터페이스가 일본어이기에 일본어에 익숙하지 않으면 사용에 난점이 있다는 것이나, 띄어쓰기에 관련해서 상당히 철저하게 띄어쓰기가 이루어진 결과를 출력하도록 되어 있지만 그것이 좀 지나쳐져 과잉 교정이 발생되는 일 역시 많다는 것도 역시 동일하다.
다만 아쉬운 점은 웹사이트 번역 기능은 아예 없으며 단문 번역 기능만 제공된다는 점.
2022년 2분기 서비스 일시 중단을 발표, 가을에 업데이트 버전으로 재개할 예정임을 알렸다. 그러나 재개 시기가 무기한 연기됐다.

4.16.2. KODENSHA 계열

excite 번역기
EZTrans 계열에 비해 번역 품질이 상대적으로 떨어진다. TLS 프로토콜을 사용하는 웹사이트(웹사이트 주소가 http가 아닌 https로 시작되는 곳들)는 번역이 불가능하다는 점도 약점.

4.17. Claude

Claude

GPT 같은 LLM의 일종이다. 번역한 문체가 매우 매끄러운 것이 특징으로, GPT4보다도 번역 성능이 앞서는 부분이 있다. GPT4보다 지원 언어가 더 많고, 데이터가 부족한 언어에서 특히 기존 기계 번역보다 강점을 보인다. 유료 버전인 Claude 3 Opus 이후 버전부터는 특히 번역 성능이 뛰어나다.

예를 들면 GPT-4o에서 2024년 10월 기준 번역 오류를 일으키는 숫타니파타의 팔리어 원문도 번역할 수 있다. 데이터가 적은 언어인데도 한국어로 번역이 실제 번역본과 비교해도 매우 매끄러운 편이다.

[ 펼치기 · 접기 ]

||Claude 3.5 Sonnet(New): 이 텍스트는 팔리어로 쓰인 불교 경전 '숫타니파타(Sutta-Nipāta)'의 첫 번째 장인 우라가바가(Uragavagga)의 첫 번째 경전인 우라가숫타(Uragasutta, 뱀의 경)입니다. 각 구절을 번역해드리겠습니다:

시작 귀경문:
"NAMO TASSA BHAGAVATO ARAHATO SAMMĀSAMBUDDHASSA"
(나는 세존이시며 아라한이시며 완전히 깨달으신 분께 귀의합니다)

1. 약초로 뱀의 독을 제거하듯

일어난 분노를 다스리는 비구는
뱀이 낡은 허물을 벗어버리듯
이 세상 저 세상을 버리네.

2. 연못에 핀 연꽃을 꺾어버리듯

탐욕을 남김없이 제거한 비구는
[뱀이 낡은 허물을 벗어버리듯
이 세상 저 세상을 버리네.]

3. 빠르게 흐르는 강물을 말리듯

갈애를 남김없이 제거한 비구는
[뱀이 낡은 허물을 벗어버리듯
이 세상 저 세상을 버리네.]

4. 큰 홍수가 연약한 갈대다리를 부수듯

교만을 남김없이 제거한 비구는
[뱀이 낡은 허물을 벗어버리듯
이 세상 저 세상을 버리네.]

5. 무화과나무에서 꽃을 찾듯

존재 속에서 실체를 찾지 못한 비구는
[뱀이 낡은 허물을 벗어버리듯
이 세상 저 세상을 버리네.]

6. 내면에 분노가 없고

존재와 비존재를 초월한 비구는
[뱀이 낡은 허물을 벗어버리듯
이 세상 저 세상을 버리네.]

이 경전은 뱀이 허물을 벗듯이 수행자가 분노, 탐욕, 갈애, 교만 등의 번뇌를 벗어버리는 것을 비유적으로 설명하고 있습니다. 각 게송의 후렴구("so bhikkhu…")는 첫 번째 게송의 후렴구와 동일하게 반복되므로 원문에서는 생략되어 있습니다.||

Gemini 1.5 Pro: 1
나모 탓사 바가바토 아라하토 삼마삼붓다사.
숫타니파타.
I. 우라가 왁가.

우라가 숫타.

일어난 분노를 다스리는 자,
넓게 퍼지는 뱀의 독을 약으로 치료하듯이,
그 비구는 이 세상을 벗어나네.
마치 뱀이 낡은 허물을 벗어버리듯이.

욕망을 완전히 끊어버린 자,
연꽃에서 연꽃 줄기를 잡아 뽑듯이,
그 비구는…

갈애를 완전히 끊어버린 자,
급류를 말려버리듯이,
그 비구는…

교만을 완전히 없애버린 자,
홍수가 약한 다리를 무너뜨리듯이,
그 비구는…

존재의 핵심[진짜 의미]에 이르지 못한 자,
무화과나무에서 꽃을 찾듯이,
그 비구는…

내면에 분노가 없고
존재와 비존재라는 생각을 넘어선 자,
그 비구는…

설명:

"나모 탓사 바가바토 아라하토 삼마삼붓다사"는 부처님께 귀의한다는 팔리어 불교의 전통적인 시작 구절입니다.

"숫타니파타"는 경전의 이름입니다.

"우라가 왁가"는 숫타니파타의 첫 번째 장의 이름입니다. "우라가"는 뱀을 의미합니다.

"우라가 숫타"는 이 장의 첫 번째 경입니다.

2절부터 6절까지는 1절과 같은 구조로, 각각 욕망, 갈애, 교만, 존재에 대한 집착, 분노와 존재에 대한 생각을 극복한 비구에 대한 내용이 이어질 것으로 예상됩니다. 원문에는 생략되어 있지만, "…이 세상을 벗어나네. 마치 뱀이 낡은 허물을 벗어버리듯이."라는 구절이 반복될 것으로 보입니다.

5절의 "존재의 핵심"은 "sāra"를 번역한 것으로, 다양한 해석이 가능합니다. "본질", "참된 의미" 등으로 번역할 수도 있습니다. 무화과나무에는 꽃이 없으므로, 존재의 참된 의미를 찾지 못하고 헛된 것을 찾는다는 비유로 해석됩니다.

GPT 4o: 1
존경받는 아라한, 완전히 깨달으신 분께 경배드립니다.
숫타니파타.
I. 우라가의 장(章).
1. 우라가 숫타.
1. 누군가 솟아오른 분노를 뱀의 독과 같은 해독제로 진정시킨다면,
그 수행자는 마치 낡은 허물을 벗은 뱀처럼, 이 세상의 속박을 벗어날 것이다.
2. 누군가 탐욕을 연꽃의 줄기를 뽑듯 뿌리째 제거한다면,
그 수행자는…
3. 누군가 갈애를 빠른 흐름의 강물처럼 마르게 한다면,
그 수행자는…
4. 누군가 교만을 갈대 다리처럼 약한 것을 큰 물결이 휩쓸 듯 없앤다면,
그 수행자는…
5. 누군가 존재 속에서 본질을 찾으려 하지 않고,
무화과나무 꽃을 찾듯 부질없이 찾지 않는다면,
그 수행자는…
6. 그의 마음속에 더는 분노가 없고,
존재와 비존재를 넘어선 자라면,
그 수행자는…

이 번역은 고대 불교 경전의 초기 불경인 숫타니파타에서 발췌된 내용으로, 특정한 경지를 성취한 수행자의 특성을 묘사하고 있습니다.

초기 GPT4 이상의 한국어 문체의 이해력이 있다. 사용법은 ChatGPT와 같다. 번역문을 두고 왜 그렇게 번역했냐는 식의 물음을 주면 그에 대한 근거를 담은 답변이 등장한다. 생소한 언어로 된 문장의 발음을 국제 음성 기호 등으로 알려달라는 요청이 가능하다. 다만 Claude 3 Opus 기준 영미권에서 유명한 저작권 문제가 걸린 작품의 번역은 답변을 거부한다. 이 문제에 너무 민감하게 반응하는 결과물이 나오면 저작권 문제에 걸리지 않는다는 식으로 '설득'을 해야 한다.

어떤 주의할 사항을 지정해서 번역하게 하면 더 잘 번역한다. 사실 이럴 필요가 일상적인 상황을 다룬 글에서는 없다시피하며, 데이터가 적은 언어를 다루거나 생소한 상황을 다루는 경우에 쓸 수 있다. 단문일수록 정확도가 높은 번역본을 얻기 쉽고, LLM의 특성상 장문의 번역에서는 장기 기억의 문제로 주어진 조건을 놓친다든가 없는 글을 생성하는 문제도 발생할 수 있다.

매우 데이터가 부족한 소수민족 언어(러시아의 체르케스인의 언어)조차도 그 단어의 의미를 비슷한 어군의 다른 언어의 단어, 문맥, 상식 등을 기반으로 번역한다. 어떤 언어가 '다른 언어'로 지정되어 있으면 굉장히 사소한 언어까지 번역한다. 영어 등 서양의 주요 언어는 방언을 해석하는 능력이 이 서비스는 물론 GPT도 뛰어나지만, 아랍어 같이 방언이 유명한 언어가 아니면 중국어(주류 방언이 아닌 경우)나 일본어 방언 등은 현재도 기본적 지식만 학습되어 있다. 표준어와 차이가 큰 한국어 방언(경상도 지역의 방언 등)보다 그래서 하와이어, 그린란드어 같은 것을 번역을 더 잘한다.

Sonnet 3.7이 출시되기 전에는 Sonnet 3.5 기반의 Api 번역이 가장 높은 벤치를 받으며 세계 최고수준의 번역을 자랑하였다.

한편 Sonnet 3.7은 종전 버전보다 별 다른 지시가 없으면 직역을 하는 성향이 강한 편이다. 그래서 한국어에 어울리지 않는 단어로 번역하는 경우가 있다. 그러나 어떤 지시를 추가하면서 번역하면 똑같이 지시를 내렸을 때, 종전보다 번역의 품질이 높다. 에드거 앨런 포의 갈까마귀(시)라는 시를 이렇게 번역할 수 있다. 세미콜론 같은 영어식 문장부호는 쓰지 말되, 충실성과 자연스러운과 명확성을 요청한 번역이다. 왜 까마귀에 '볏'이 있냐고 번역해도 원문에서도 까마귀에게 없는 'crest'가 있다고 묘사해서 번역한 것이라고 설명하고, 'window lattice'도 창살 뿐만 아니라 격자 모양의 장식을 가리킬 수 있다고 하여 '격자'로 번역했다고 한다.

[ 펼치기 · 접기 ]

어느 우울한 한밤중, 나는 지치고 힘없이 생각에 잠겨
오래 잊힌 지식의 기이하고 신비로운 책들을 뒤적이고 있었다.
졸음이 밀려와 고개를 끄덕이던 찰나, 갑자기 노크 소리가 들려왔다.
마치 누군가 부드럽게 문을 두드리는 소리, 내 방문을 두드리는 소리.
"방문객이겠지," 나는 중얼거렸다. "내 방문을 두드리는 것일 뿐
그저 그것뿐, 다른 것은 아무것도 아니라네."

아, 분명히 기억한다. 그것은 황량한 12월이었고
타다 남은 불씨 하나하나가 바닥에 그림자를 만들고 있었다.
간절히 내일이 오기를 바랐다. 헛되이 책에서 찾으려 했던
슬픔의 종식, 잃어버린 레노어에 대한 슬픔의 종식을.
천사들이 레노어라 부르는 희귀하고 빛나는 소녀를 위한 슬픔을.
이제 여기서 영원히 이름 없이 남겨진 그녀를.

자주색 커튼 하나하나의 비단 같은, 슬프고 불확실한 바스락거림이
나를 전율케 했다. 전에 느껴보지 못한 기괴한 공포로 나를 채웠다.
그래서 이제, 내 심장의 고동을 잠재우기 위해 나는 계속 되뇌었다.
"방문객이 내 방문 앞에서 들어오길 청하는 것일 뿐.
늦은 방문객이 내 방문 앞에서 들어오길 청하는 것일 뿐.
그것뿐이고 다른 것은 아무것도 아니라네."

곧 내 영혼은 더 강해졌다. 더 이상 망설이지 않고
"선생님," 나는 말했다. "혹은 부인, 정말 용서를 구합니다.
사실은 제가 졸고 있었는데, 당신이 너무 부드럽게 노크하시고
너무 희미하게 두드리셔서, 내 방문을 두드리셔서
제가 들었는지 확신할 수 없었습니다." 여기서 나는 문을 활짝 열었다.
그곳엔 어둠뿐, 다른 것은 아무것도 없었다.

그 어둠 속을 응시하며, 오래도록 나는 서 있었다. 의아해하고, 두려워하며
의심하고, 어떤 인간도 감히 꿈꾸지 못했던 꿈을 꾸고 있었다.
하지만 침묵은 깨지지 않았고, 고요함은 아무런 신호도 주지 않았다.
그곳에서 발해진 유일한 단어는 속삭여진 "레노어?"였다.
내가 속삭였고, 메아리는 "레노어!"라는 단어를 되돌려 주었다.
단지 이것뿐, 다른 것은 아무것도 아니었다.

방 안으로 돌아서자, 내 영혼은 내면에서 불타오르고 있었다.
곧 나는 다시 두드리는 소리를 들었다, 전보다 조금 더 크게.
"틀림없이," 나는 말했다. "틀림없이 그것은 창가의 격자에서 나는 소리일 것이다.
그럼 그것이 무엇인지 한번 보고, 이 미스터리를 탐구해 보자.
내 마음을 잠시 진정시키고 이 미스터리를 탐구해 보자.
그것은 바람일 뿐, 다른 것은 아무것도 아니라네!"

여기서 나는 덧문을 활짝 열었다. 그러자 우아한 몸짓과 날갯짓과 함께
옛날 성스러운 시대의 위엄 있는 까마귀가 들어왔다.
그는 조금도 경의를 표하지 않았다. 잠시도 멈추거나 머무르지 않았다.
그저 귀족이나 귀부인의 태도로, 내 방문 위에 앉았다.
팔라스의 흉상 위, 바로 내 방문 위에 앉았다.
앉아서, 자리를 잡고, 다른 것은 아무것도 하지 않았다.

그때 이 칠흑의 새가 그 위엄 있는 표정의 무게와 격식으로
내 슬픈 상상을 웃음으로 유혹했다.
"비록 네 볏이 깎이고 다듬어졌지만, 너는," 내가 말했다. "결코 비겁한 자가 아니구나,
섬뜩하고 음울한 고대의 까마귀, 밤의 해안에서 방황하는 자여.
밤의 플루토 해안에서 네 고귀한 이름이 무엇인지 말해다오!"
까마귀가 말했다. "네버모어."

나는 이 볼품없는 새가 이토록 분명히 말하는 것에 크게 놀랐다.
비록 그 대답이 거의 의미가 없고 적절하지 않았지만.
우리는 이렇게 동의할 수밖에 없다. 그 어떤 살아있는 인간도
자신의 방문 위에 새가 있는 것을 보는 축복을 받은 적이 없다고.
방문 위 조각된 흉상 위에 새나 짐승이 있는 것을.
"네버모어"라는 이름을 가진 채로.

하지만 까마귀는 고요한 흉상 위에 외롭게 앉아 오직
그 한마디만 말했다. 마치 그의 영혼을 그 한마디에 모두 쏟아붓듯이.
그 이상 아무것도 말하지 않았다. 깃털 하나 움직이지 않았다.
내가 거의 중얼거릴 정도로 말할 때까지. "다른 친구들도 전에 날아갔었지.
내일이면 그도 날 떠날 것이다. 내 희망들이 전에 날아갔던 것처럼."
그때 새가 말했다. "네버모어."

너무나 적절하게 말한 대답으로 깨진 정적에 놀라
"의심할 여지없이," 내가 말했다. "그것이 말하는 것은 그저 익힌 말뿐이겠지.
불행한 주인에게서 배운 것. 무자비한 재앙이
빠르게, 더 빠르게 그를 따라 그의 노래가 한 가지 짐을 지게 될 때까지.
그의 희망의 장송곡이 그 우울한 짐을 지게 될 때까지.
'네버모어'라는."

하지만 까마귀는 여전히 내 모든 상상을 웃음으로 유혹했고
나는 곧바로 쿠션 있는 의자를 새와 흉상과 문 앞으로 끌어당겼다.
그런 다음 벨벳에 몸을 기대며 나는 상상을 연결하기 시작했다.
상상에서 상상으로, 생각하며 이 불길한 옛 새가 무엇을.
이 음울하고 볼품없고 섬뜩하고 야윈, 불길한 옛 새가
"네버모어"라고 울며 의미하는 것이 무엇인지를.

이렇게 나는 앉아 추측했지만, 아무 말도 표현하지 않았다.
이제 그 불타는 눈이 내 가슴 깊숙이 파고드는 새에게.
이것과 더 많은 것을 나는 앉아 신비를 풀며, 편안히 머리를 기대고 있었다.
등불빛이 비치는 쿠션의 벨벳 안감에.
하지만 등불빛이 비치는 그 벨벳-보라색 안감을
그녀는 누를 것이다, 아, 네버모어!

그때, 내 생각에, 공기가 더 짙어졌다. 보이지 않는 향로에서 향기가 퍼졌다.
천사들의 발걸음이 털로 덮인 바닥에서 딸랑거리며.
"불쌍한 자여," 나는 외쳤다. "네 신이 너에게 빌려주었다. 이 천사들을 통해 그가 너에게 보냈다.
휴식을, 휴식과 망각의 약을 레노어의 기억으로부터.
마셔라, 오 이 친절한 망각의 약을 마시고 잃어버린 레노어를 잊어라!"
까마귀가 말했다. "네버모어."

"예언자여!" 내가 말했다. "악의 존재여! 여전히 예언자라면, 새든 악마든!
유혹자가 보냈든, 폭풍이 너를 이곳 해안으로 던졌든,
황폐하지만 여전히 굴하지 않고, 이 마법에 걸린 황무지에서.
공포가 배회하는 이 집에서, 진실로 말해다오, 간청하노니.
길르앗에 향유가 있는가? 말해다오, 말해다오, 간청하노니!"
까마귀가 말했다. "네버모어."

"예언자여!" 내가 말했다. "악의 존재여! 여전히 예언자라면, 새든 악마든!
우리 위에 구부러진 하늘로, 우리 둘 다 숭배하는 신으로.
슬픔을 짊어진 이 영혼에게 말해다오. 저 멀리 에덴에서
천사들이 레노어라 부르는 성스러운 소녀를 품을 수 있을지.
천사들이 레노어라 부르는 희귀하고 빛나는 소녀를 품을 수 있을지."
까마귀가 말했다. "네버모어."

"그 말이 우리의 이별의 신호가 되리라, 새든 악마든!" 나는 벌떡 일어나 소리쳤다.
"폭풍과 밤의 플루토 해안으로 돌아가라!
네 영혼이 말한 그 거짓의 증표로 검은 깃털 하나 남기지 말라!
내 외로움을 깨지 말라! 내 문 위의 흉상을 떠나라!
네 부리를 내 마음에서 빼내고, 네 형체를 내 문에서 없애라!"
까마귀가 말했다. "네버모어."

그리고 까마귀는, 결코 날아가지 않고, 여전히 앉아있다, 여전히 앉아있다.
창백한 팔라스의 흉상 위, 바로 내 방문 위에.
그리고 그의 눈은 꿈을 꾸는 악마의 눈처럼 보인다.
그리고 그 위로 비치는 등불빛이 그의 그림자를 바닥에 드리운다.
그리고 바닥에 떠 있는 그 그림자로부터 내 영혼은
결코 벗어나지 못하리라. 네버모어!

4.18. Language Reactor

자세한 내용은 Language Reactor 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[Language Reactor#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
의 [[Language Reactor#|]][[Language Reactor#|]] 부분을

참고하십시오.

4.19. Gemini(인공지능 모델)

구글과 딥마인드가 개발한 생성형 인공지능 모델. 1.5 이상의 버전은 번역에서 GPT4 등을 능가하는 성능을 보인다. 방대한 데이터로 학습이 되어 한국어 등 영어가 아닌 언어에 대한 지식이 뛰어나다. 2.5 pro는 이제 텍스트 상으로 인터넷에 공개된 거의 모든 언어의 번역이나 문장 생성이 가능하다고 할 수 있다.

pdf 번역, 유튜브 번역 등이 가능하다.

2025년 3월 기준 2.5 pro의 경우 출력 속도가 추론 때문에 느리지만 만주어 수준의 생소한 언어도 다른 언어 번역에 비하면 오차가 없지는 않으나 '정묘년'까지 번역한다든가, 동남아나 중앙아시아의 공용어급 언어 조차도 몇몇 방언이나 전문적인 단어나 문학적인 표현의 의미를 잘 설명한다. 베트남어의 중부 방언 표현을 이해한다든가, 주어진 글이 태국어의 '이싼 방언(태국 북동부 지역의 방언)'인가 '남부 방언'인가 등을 분간한다는 뜻이다.

일본어 기준 "하이쿠에서 쓰이는 '키레지(切れ字)'" 같은 지식을 알고 있으며, 중국어 기준 어떤 단어가 논어의 어느 부분에 나왔는지나 원문에서의 의미와 현대 중국어에서의 쓰임의 차이를 정확히 이해한다. 한국어에서 '동래박의' 같은 양반전의 표현을 두고 "송나라 여조겸이 춘추좌씨전을 해설한 책으로, 매우 어려운 학술 서적을 대표합니다. 양반의 고된 학문 수양을 상징합니다." 같은 해설이 가능할 정도로 지식 수준이 깊다. 이런 단어들의 뉘앙스 설명은 GPT보다 뛰어나다.

아예 별도의 지시 없이도 에드거 엘런 포의 갈까마귀 같은 시를 이 정도 품질로 번역한다.

[ 펼치기 · 접기 ]: 갈까마귀 (The Raven)

옛날 어느 음울한 밤중에, 지치고 나른하여 고뇌에 잠겨 있을 때,
잊혀진 옛 지식 담긴 기묘하고 희귀한 책들에 대해.
꾸벅꾸벅 졸음에 겨워 거의 잠들려 할 때, 갑자기 문을 두드리는 소리가 들려왔네,
누군가 부드럽게 노크하듯, 내 방문을 두드리고 있었네.
"손님이로군," 나는 중얼거렸지, "내 방문을 두드리는 소리—
그것뿐, 그 이상은 아무것도."

아, 뚜렷이 기억하노니 때는 쓸쓸한 12월이었고,
꺼져가는 깜부기불 하나하나가 마룻바닥에 제 유령을 드리웠지.
애타게 아침이 오길 바랐네; 헛되이 책 속에서 슬픔의 멎음을 구하려 했지—
잃어버린 르노어를 위한 슬픔을—
천사들이 르노어라 부르는, 그 귀하고 빛나는 처녀를 위한 슬픔을—
이곳에선 영원히 이름 없을 그녀를.

그리고 비단결 같은, 슬프고, 불확실한 보랏빛 커튼의 바스락거림이
나를 전율케 했네—이전에 결코 느껴보지 못한 섬뜩한 공포로 나를 채웠네;
그래서 이제, 내 심장의 고동을 진정시키려, 나는 서서 되뇌었지
"내 방문으로 들어오길 청하는 손님이로군—
늦은 밤 찾아와 들어오길 청하는 손님—
이것뿐, 그 이상은 아무것도."

이윽고 내 영혼은 강해졌네; 더 이상 망설이지 않고,
"선생님," 나는 말했지, "혹은 부인, 진정 용서를 구합니다;
사실은 제가 졸고 있었는데, 너무나 부드럽게 노크하셔서,
너무나 희미하게 두드리셔서, 내 방문을 두드리셔서,
소리를 들었는지조차 확신할 수 없었습니다"—여기서 나는 문을 활짝 열었네;—
그곳엔 어둠뿐, 그 이상은 아무것도.

그 어둠 속 깊이 응시하며, 오랫동안 나는 서 있었네, 궁금해하고, 두려워하며,
의심하며, 필멸의 인간 누구도 감히 꾼 적 없는 꿈들을 꾸면서;
그러나 침묵은 깨지지 않았고, 정적은 아무런 기척도 주지 않았네,
그리고 거기서 들린 유일한 말은 속삭이는 말, "르노어?"
이것을 내가 속삭였고, 메아리가 그 말을 되뇌었네, "르노어!"—
단지 이것뿐, 그 이상은 아무것도.

방 안으로 돌아서니, 내 온 영혼이 속에서 불타오르네,
곧 다시 이전보다 다소 큰 노크 소리를 들었네.
"분명," 나는 말했지, "분명 저것은 내 창 격자문에 있는 무언가로군;
그러니 무엇이 있는지 보고, 이 미스터리를 탐색해 보자—
내 심장을 잠시 진정시키고 이 미스터리를 탐색해 보자;—
저건 바람일 뿐, 그 이상은 아무것도!"

여기서 나는 덧창을 활짝 열었네, 그러자 요란스레 퍼덕이며,
옛 성스러운 시절의 위풍당당한 갈까마귀 한 마리가 들어섰네;
그는 조금도 예를 표하지 않았고, 잠시도 멈추거나 머물지 않았네;
그러나 군주나 귀부인의 풍모로, 내 방문 위에 앉았네—
내 방문 바로 위의 팔라스 흉상 위에 앉았네—
앉아서, 가만히, 그 이상은 아무것도.

그러자 이 흑단 같은 새가 그 쓰고 있는 표정의
엄숙하고 근엄한 품위로, 내 슬픈 공상을 미소 짓게 만들었네,
"네 볏이 잘리고 깎였을지라도, 너는," 나는 말했지, "분명 겁쟁이는 아니로구나,
흉측하고 음산하며 오래된 갈까마귀여, 밤의 해안에서 헤매는 자여—
밤의 저승 해변에서 네 군주다운 이름이 무엇인지 말해다오!"
갈까마귀가 말했다 "결코 다시는."

나는 이 볼품없는 새가 이토록 또렷이 말하는 것을 듣고 몹시 놀랐네,
비록 그 대답이 거의 의미가 없고—거의 관련성이 없었지만;
왜냐하면 우리는 동의할 수밖에 없으니, 살아있는 인간 누구도
자기 방문 위에 새를 본 축복을 아직 받은 적이 없다는 것을—
자기 방문 위의 조각된 흉상 위에 새나 짐승이,
"결코 다시는" 같은 이름을 가진 것을.

그러나 갈까마귀는, 평온한 흉상 위에 외로이 앉아, 오직
그 한 단어만을 말했네, 마치 그의 영혼을 그 한 단어에 쏟아붓는 듯이.
그 후로는 더 이상 아무 말도 하지 않았네—깃털 하나 까딱하지 않았네—
내가 거의 중얼거리다시피 할 때까지 "다른 친구들도 전에 날아갔지—
내일이면 그도 나를 떠나리라, 내 희망들이 전에 날아갔듯이."
그러자 새가 말했다 "결코 다시는."

그토록 적절하게 말해진 대답으로 정적이 깨진 것에 놀라,
"의심할 여지없이," 나는 말했지, "그것이 내뱉는 것은 그것의 유일한 밑천이요 저장품이리라
어떤 불행한 주인에게서 배웠겠지, 무자비한 재앙이
빠르게 뒤따르고 더 빠르게 뒤따라 마침내 그의 노래들이 한 가지 후렴구만을 담게 될 때까지—
그의 희망의 만가들이 그 우울한 후렴구를 담게 될 때까지
'결코—결코 다시는'."

그러나 갈까마귀는 여전히 내 모든 공상을 미소 짓게 만들며,
나는 곧장 쿠션 놓인 의자를 새와, 흉상과, 문 앞으로 돌려놓았네;
그리고 벨벳 위에 가라앉으며, 나는 공상에 공상을 연결하기 시작했네,
이 불길한 옛 새가—
이 음산하고, 볼품없고, 흉측하고, 수척하며, 불길한 옛 새가
"결코 다시는"이라고 까마귀 소리를 내며 의미하는 바가 무엇인지 생각하며.

나는 이것을 추측하며 앉아 있었지만, 한 음절도 표현하지 않았네
그 새에게, 그의 불타는 눈이 이제 내 가슴 속을 꿰뚫고 있었으니;
이것과 더 많은 것을 나는 점치며 앉아 있었네, 머리를 편안히 기댄 채
램프 불빛이 탐욕스럽게 비추는 쿠션의 벨벳 안감 위에,
그러나 그 벨벳-보랏빛 안감, 램프 불빛이 탐욕스럽게 비추는 그 위에,
그녀는 누를 수 없으리, 아, 결코 다시는!

그때, 내 생각에, 공기가 더 짙어지는 듯했네, 보이지 않는 향로에서 풍겨 나오는 향기로
마루 깔린 바닥 위에서 발걸음 소리가 찰랑거리는 세라핌(천사)들이 흔드는 향로에서.
"가련한 자여," 나는 외쳤네, "네 신께서 네게 빌려주셨구나—이 천사들을 통해 그가 네게 보내셨구나
휴식을—르노어의 기억으로부터의 휴식과 망각의 약(네펜테)을;
마셔라, 오 마셔라 이 친절한 망각의 약을 그리고 이 잃어버린 르노어를 잊어라!"
갈까마귀가 말했다 "결코 다시는."

"예언자로다!" 나는 말했지, "악의 존재여!—새든 악마든 여전히 예언자로다!—
유혹자가 보냈든, 폭풍우가 너를 이곳 해안으로 내던졌든,
황량하지만 전혀 굴하지 않고, 이 마법에 걸린 황무지 땅에—
공포가 도사리는 이 집에—진실을 말해다오, 간청하노니—
길르앗에는 향유가 있는가?—말해다오—말해다오, 간청하노니!"
갈까마귀가 말했다 "결코 다시는."

"예언자로다!" 나는 말했지, "악의 존재여!—새든 악마든 여전히 예언자로다!
우리 위에 굽어 있는 저 하늘에 맹세코—우리 둘 다 숭배하는 저 신께 맹세코—
슬픔에 잠긴 이 영혼에게 말해다오, 저 먼 에덴(낙원)에서,
천사들이 르노어라 부르는 성스러운 처녀를 껴안을 수 있을지—
귀하고 빛나는 처녀, 천사들이 르노어라 부르는 그녀를 껴안을 수 있을지."
갈까마귀가 말했다 "결코 다시는."

"그 말이 우리의 이별의 신호가 되게 하라, 새든 악령이든!" 나는 벌떡 일어나며 소리쳤네—
"폭풍 속으로 그리고 밤의 저승 해변으로 돌아가라!
네 영혼이 말한 그 거짓말의 증표로 검은 깃털 하나 남기지 마라!
나의 고독을 깨뜨리지 말고 내버려 두어라!—내 문 위의 흉상에서 떠나라!
네 부리를 내 심장에서 빼내고, 네 형체를 내 문에서 치워라!"
갈까마귀가 말했다 "결코 다시는."

그리고 갈까마귀는, 결코 날아가지 않고, 여전히 앉아 있네, 여전히 앉아 있네
내 방문 바로 위의 창백한 팔라스 흉상 위에;
그리고 그의 눈은 꿈꾸는 악마의 눈과 똑같은 모습을 하고 있네,
그리고 그 위로 흘러내리는 램프 불빛은 그의 그림자를 마룻바닥에 드리우네;
그리고 마룻바닥에 떠다니는 그 그림자로부터 내 영혼은
들어 올려지지 않으리—결코 다시는!

4.20. 삼성 가우스

자세한 내용은 삼성 가우스 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[삼성 가우스#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
의 [[삼성 가우스#|]][[삼성 가우스#|]] 부분을

참고하십시오.

4.21. Browsing Assist

자세한 내용은 Browsing Assist 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[Browsing Assist#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
의 [[Browsing Assist#|]][[Browsing Assist#|]] 부분을

참고하십시오.

5. 번역 평가 방법론

5.1. 필요성

번역기를 만들어 놓고 번역이 잘되는지 만족하는 것에 끝나지 않고 얼마나 번역이 잘 되는지에 대한 수치적 데이터가 필요하기 때문이다. 번역 알고리즘끼리 성능을 비교할 때 사용된다.

5.2. 사람이 직접 평가

가장 정확도가 높은 번역으로 실제로 얼마나 제대로 번역했는지 인간이 직접 평가하는 방법이다. 번역 문장을 직접 읽고 사용하는 주체는 결국 사람이므로 기계 번역의 목적에 가장 알맞은 평가 방법이라고도 할 수 있다. 대체로 번역의 대상인 문장과 이 문장을 번역한 문장을 보여준 다음, 번역된 문장이 번역의 대상이 된 문장을 얼마나 잘 번역했는지 5택하는 설문조사를 사용한다.

대표적인 예가 네이버로, GYM이라는 서비스로 유저들에게 번역을 평가하게 한다. 활동 할수록 포인트를 지급한다. 단점으로는 인간 자원은 많은 비용이 든다는 점과 평가 시간이 오래 소모된다는 점, 그리고 사람마다 평가하는 기준이 다르다는 점, 평가를 할 때마다 평가를 진행하는 사람들의 집단이 동일해야 한다는 점 등이 있다. 예를 들어 사람간의 독해력의 차이가 있다. 그리고 어떤 사람은 대충 뜻만 통하면 괜찮다고 평가하지만 어떤 사람은 문맥이 좀만 이상해도 읽기 꺼림칙할 수도 있다.[27]

5.3. 자동 평가 방법

사람이 직접 평가하는 방법의 단점(돈, 시간, 객관성 등)을 보완하기 위해 컴퓨터가 번역의 정확성을 평가하기 위해 만든 알고리즘.

사람이 번역한 문장(들)을 기준으로 하여 기계 번역한 문장을 평가한다. 사람이 번역한 문장이 100% 정답이라고 할 수 없는 경우가 많기 때문에 보통 여러 개의 기준을 두고 평가한다.

BLEU
NIST
TER
F1 score

6. 관련 문서

왈도체
아이 엠 샘
코스타리카의 압박
Microsoft AppLocale
아랄트랜스
알타비스타
한글 써지지 않다 utdaein의 도움 필요
컴퓨터 보조 번역: 번역기가 주체가 아니라 사람이 주체가 되고, 컴퓨터가 보조해주는 프로그램. 해당 문서 참고.
~~○○할 수밖에 없을 것 같지 않나요~~

[1] 이것이 극복되기 힘든 이유는 이것이 바로 콰인의 번역 불확정성 정리와 직결되는 사안이기 때문이다. 콰인은 이를 해결하는 일반적인 해법이 존재하지 않는다는 것을 밝혔다.[2] 예를 들면 리처드 도킨스의 책 이기적 유전자의 읽기 힘든 한국어판보다 더 좋은 결과물을 특별한 조작 없이도 얻을 수 있다. 이 페이지를 참조하여 무료인 DeepL 이상 성능의 번역기로 번역해보면 문제로 지적된 인간의 번역보다 기계가 더 잘 번역하는 모습을 확인할 수 있다. DeepL도 시판된 번역기 중 최고의 성능은 아니고 더 정확도 높은 번역기도 있다.[3] 예를 들어 굶고 있는 다른 사람에게 식사를 권하는 상황으로 생각하고 "이틀간 굶었으니 밥을 먹어야 한다."라는 문장을 번역기에 넣으면 "I've been starving for two days, so I have to eat."라는 상황에 전혀 맞지 않는 문장이 나온다. 생략된 주어를 1인칭으로 추측해서 집어넣은 것이다.[4] 물론 성별이 불명인 경우나 논바이너리처럼 성별이 없는 경우에는 they를 쓰는 것이 원칙이지만, 자기 나라 대통령처럼 성별을 모르는 대상이 아닌데도 they라는 대명사를 쓸 경우 어색해보이는 문장이 된다.[5] 예를 들어 한국어에서 양반가 종갓집 등을 비유할 때 자주 쓰는 표현인 "뼈대있는 집안"이라는 단어를 번역기에 넣으면 "a house with bones"라는 결과물이 나온다. 외국인이 이를 보고 유서 깊은 좋은 집안을 의미한다고 생각하기는 어렵다. 적절하게 번역하려면 그냥 '좋은 집안'이라는 뜻으로 classy family 정도로 하거나 똑같이 비유적 표현을 쓴다면 blue bloods라고 하면 된다.[6] 한국어에서만 유독 이런 현상이 생기는 것도 아니고 다른 언어도 마찬가지이다. 영어로 '그는 밤낮으로 열심히 일하고 있다'는 뜻의 "He's burning the candle at both ends."라는 문장을 번역기에 넣으면 "그는 양쪽에서 모두 촛불을 태우고 있습니다."라고 직역을 해버린다. 이런 결과물은 원래의 영어 관용어구를 알던 사람이 기계번역 결과물이라는 것을 알고 보는 것이 아니면 이해하기 어렵다.[7] Gemini 2.5 pro의 경우, "Here are a few options for the translation: A carrack made in Spain is called a nao. (This is a direct and accurate translation.), Carracks made in Spain are called naos. (Using plural, which is also common for general statements like this.), The type of carrack built in Spain is referred to as a nao. (Slightly more formal.), A Spanish carrack is called a nao. (More concise, using "Spanish" as an adjective.) All these convey the same meaning accurately. Option 1 is perhaps the most literal translation.라며 전문가에 근접한 번역을 한다.[8] GPT-4o(2025년 3월 업데이트된 버전)의 경우, "A carac made in Spain is referred to as a 'Nao'." , "In Spain, the carrack was known as the 'Nao'."등의 결과물을 제공한다. 더불어 ""카락(Carac)": 대형 범선의 일종으로, 중세~근세에 사용됨. "나오(Nao)": 스페인에서 사용된 카락형 선박을 지칭하는 용어. 예: 콜럼버스의 '산타 마리아'가 나오였음."이라는 보충 설명도 제공된다. 왜 'carac'이라고 썼냐고 하면 '오타'라고 묘사한다.[9] 2024년 기준 GPT-4o 이상의 성능의 서비스로 어느 정도 번역은 가능하다. 그 이하 성능의 서비스는 이를 잘 번역을 못한다.[10] 한국어의 '형/오빠'와 비슷한 일본어의 '兄さん', '누나/언니'와 비슷한 중국어의 '姐姐' 같은 단어가 가끔씩 동생 따위로 오역되는 등 제대로 번역이 되지 않는 경우가 있다. 그나마 일본어는 데이터가 많아 최근은 이 문제가 적다.[11] 일례로, 어서와~ 한국은 처음이지?에서 태국인들이 감자탕집에서 주문을 하려고 번역기를 돌렸는데, 해당 점포의 상호로 추정되는 '참'만 무한 인식해 버리는 바람에 'charmcharmcharm……'으로 오역해 버리는 'charm'사가 터졌다.[12] 이는 한국어와 영어처럼, 문장의 기본 어순이 완전히 다른 언어 사이에서 자주 일어나는 현상이다.[13] 지대공 미사일은 영어로 surface-to-air missile, 약자는 SAM이다.[14] 이건 오역과는 상관 없는 문제다.[15] 예를 들어 ‘미도리바시역’은 그냥 ‘녹색 다리’역으로 나온다, '금구슬'을 번역하면 ‘불알(金玉)’이 뜬다. ~~응? 사실 글자대로만 해석하면 맞는 번역이다.~~[16] 대표적인 예시로 영어권 회사명 등이 있다. '애플(Apple)', '밸브(Valve)', '윈도우(Windows)' 등.[17] 다만 어순이 같다고 해도 사투리가 자주 등장하는 경우엔 번역률이 썩 좋지 않다.[18] 다만 위의 예시처럼 10% 정도의 오역도 전체 의미를 뒤바꿔 버릴 수 있어 주의가 필요하다. 뒤집어 말하면 문장의 10% 이상 오역으로 채워진다는 이야기다.[19] 과거 엠파스가 한·중 웹번역을 서비스한 적도 있으나 번역률이 극악했다.[20] 제대로 된 번역은 '시간은 쏜살같이 흐른다'이다. 'fly'를 동사가 아닌 명사인 파리로 보고, 'like'를 형용사로 말고 동사로 보아서 나온 사례[21] 특히 훈독과 음독 때문에 같은 한자라도 읽는 법이 다른 일본.[22] "'입언'은 중국 전통에서 학문이나 글로써 후세에 이름을 남기는 것을 의미합니다. 작가는 이러한 전통적 관념에 대해 의문을 제기하면서, 동시에 자신의 작품에 대한 성찰을 보여주고 있습니다."라는 해설도 제공한다.[23] 일부 언어는 자신의 언어에서 쓰는 문자를 웹 환경에서 쓰기 어려워 라틴 문자로 웹 상에서 자신의 언어를 표현하기도 한다.[24] 영미권의 유명 인물만 이런 설정이 가능하다.[25] 참고로 2019년 11월 기준 구글 번역의 결과는 '다시는 전쟁이 없습니다! 다시는 전쟁하지 마십시오!'이다.[26] EZTrans XP를 이용하는 비공식 확장 프로그램은 아네모네 외에도 상당히 많이 있지만, Ehnd하고의 결합 및 편의성으로 인해 일반 번역 용도라면 아네모네가 가장 흔히 사용된다.[27] 그래서 평가나 말뭉치 구축에 있어서 사람 사이의 통일성을 측정하는 kappa correlation 점수를 표기한다.