CAPTCHA

1. 개요2. 원리3. CAPTCHA 솔루션의 종류4. 효과5. 밈6. 한국에서7. 문제점8. 부적절한 단어들

8.1. 던전앤파이터8.2. 마비노기 영웅전8.3. 메이플스토리8.4. 엔씨소프트8.5. 기타

9. 그 외10. 관련 문서

1. 개요

Completely Automated Public Turing test to tell Computers and Humans Apart

웹사이트에서 사람이 접근하려고 하는 것인지 봇이 접근하는 것인지 판단하기 위하여 사용되는 튜링 테스트.

1999년에 최고의 컴퓨터 과학 프로그램을 가진 대학을 뽑는 투표가 인터넷상에서 이루어졌다. 이때 카네기 멜런 대학교와 매사추세츠 공과대학교의 학생들이 자동으로 투표를 하는 프로그램을 만들어 매우 많은 투표를 얻었는데 이후 이런 것들을 방지하기 위해 만들어졌다고 한다.

2000년 페이팔 CTO였던 맥스 레브친이 최초로 상용화하면서 산업계에서도 보편화되기 시작했다.

2. 원리


reCAPTCHA 버전 1.0	Google의 reCAPTCHA 2.0

테스트 방식은 매우 단순하다. 출력된 숫자나 글자를 있는 그대로 입력란에 입력하고 확인을 받으면 된다.

이런 작업은 단순히 틀에 박힌 내에서만 특화된 프로그램으로서는 진행할 수 없고 유동적으로 사고할 수 있는 사람만이 할 수 있기 때문에 이게 사람인지 로봇인지를 판별하는데 유용하게 사용된다.

물론 화면 상의 텍스트가 폰트를 있는 그대로 사용하는 거라면 프로그램도 당연히 맞힐 수 있으므로 변형을 준다. 글자를 휘거나 글자의 가로 획을 이어 버린다거나 등등. 아니면 호실/번호판 등을 흐린 이미지로 보여준다. 나무위키에서도 사용되었던 구글 리캡차(버전 2)의 경우에는 뒤에도 나오겠지만 16개의 무작위 혹은 분할된 카드를 제시한 뒤 교통 표지판, 신호등, 자동차, 버스, 오토바이, 자전거, 횡단보도, 계단 등등이 있는 사진을 고르라고 한다. 1번 하고 통과될 때도 있지만 간혹 2~3번, 심하면 5번 넘어까지 고르라고 한다. 로그인 유저의 경우 일정 횟수가 넘어가면 그냥 통과시켜준다.

3. CAPTCHA 솔루션의 종류

크게는 작업 요구 기반, 행동 관찰 기반으로 나눌 수 있다.

먼저 작업 요구 기반은 후술되는 hCaptcha, Arkose MatchKey, 텍스트/오디오 기반 캡차와 같이 사용자에게 특정한 작업을 요구하는 방식이다. 위에 서술된 초기 CAPTCHA들이 이러한 방식에 해당한다고 할 수 있다. 그러나 이러한 방식의 CAPTCHA는 최근 AI 기술의 전반적인 발달, 그 중 특히 멀티모달 AI의 발달으로 인해 자동화된 공격 프로그램(봇)에 의해 해결되고 있는 문제가 있어 google, cloudflare 등 여러 기업에서 후술할 행동 관찰 기반 방식의 CAPTCHA를 만드는 추세이다.

행동 관찰 기반은 후술되는 reCAPTCHA V3, Cloudflare Turnstile과 같이 사용자에게 직접적인 작업을 요구하지 않고, 사용자의 정보나 행동 패턴[1]을 분석하는 방식이다. 이러한 방식은 작업 요구 기반에 비해 보안적 이점이 있으나, 사용자의 개인정보 유출 우려 문제가 있다.

이러한 두 가지의 CAPTCHA의 문제를 해결하기 위한 방향으로 생체 인식이 있다. 이 예시로 사용자의 눈 움직임과 같은 생체 데이터를 기반으로 한 행동 관찰 기반 CAPTCHA나, 얼굴을 카메라에 인식시키고 고개를 요구하는 방향으로 돌리도록 하는 작업 요구 기반 CAPTCHA가 있을 수 있다. 그러나 이 방향의 단점은 기존의 생체 보안 시스템[2]에서의 보안 문제와 연결된다. 또한 생체 정보도 개인정보이기에, 개인정보 유출 우려도 존재한다.

구체적인 CAPTCHA의 종류는 다음과 같다.

Google reCAPTCHA: 캡차의 원조이자 가장 보편적으로 사용되는 CAPTCHA다.
hCaptcha
Arkose MatchKey: 그림의 방향을 회전시키는 형태의 캡차. 주로 X의 계정 인증 절차나 배틀넷 로그인에서 자주 볼 수 있다.
GeeTest Captcha: 글자를 순서대로 클릭하거나, 퍼즐 조각을 이동시켜 그림을 완성시키는 형태의 캡차. 중국산으로 주로 중국 업체에서 많이 사용한다. 2023년 8월 15일 잠깐 나무위키에 도입되어 이미지 파일을 클릭 시 등장했었으나, 얼마 안 가 리캡챠로 대체되었다.
기타 텍스트/오디오 기반 캡차: 주로 PHP 기반으로 개발되었으며 이미지는 임의로 생성한 글자에 노이즈와 변형을 삽입하는 방식으로 OCR을 회피했으며 오디오는 오디오 파일에 임의로 오류를 삽입해 노이즈를 삽입하는 방식으로 자동화를 피했다. 제로보드나 XpressEngine 등 오픈 소스 게시판 CMS에 주로 사용되었으나 OCR 기술의 발달로 사실상 사장된 방식이다.[3]
Cloudflare Turnstile: Cloudflare의 Turnstile은 사용자에게 이미지 퍼즐을 풀 것을 요구하지 않는다. Turnstile은 AI로 그 동안 인간이 캡챠를 통과한 사례를 학습한 머신 러닝 모델을 통해 봇을 구분한다. 체크 박스를 클릭하지 않고도 봇인지 아닌지 구분할 수 있으며, 의심스러운 경우에 한하여 단순히 버튼을 클릭하도록 하는 박스를 표출할 수 있도록 하는 등 다양한 위젯 옵션도 제공된다. 2023년 10월부터 모든 이용자는 무료로 이용할 수 있다. Developers
둠 캡챠: 기예르모 라우흐가 개발한 캡챠로 클래식 둠 시리즈를 짧게 즐길수 있다. 맵은 클래식 둠 1편의 E1M9로 고정이며, 몬스터 종류 상관 없이 3기를 없애면 캡챠 인증된다. 키보드로만 움직일 수 있다.[4] 나이트메어 난이도 기준이라 임프의 탄속이 빨라서 임프의 포화에 죽기 쉬우니 조금 앞으로 간 다음 좀비들을 유인해서 권총으로 좀비를 잡으면 된다. 그리고 속도가 빨라서 그런지 모든 효과음이 빠른 속도로 재생되고 있다. (치트를 활성화 할수 있다! 유명한 치트인 IDDQD(무적)나 IDCLIP(맵뚫기) 치트 등등이 사용 가능하다. 단, IDKFA로 총을 먹으면 2,3번 무기 제외하고는 캡챠 인증이 되지 않으니 주의.)
Anubis: 오픈 소스 CAPTCHA 솔루션으로, 다른 CAPTCHA 서비스와는 달리 셀프 호스팅으로 사용된다. 주로 AI 스크래핑 방지를 위해 만들어졌지만, Cloudflare Turnstile의 대용으로도 사용 가능하다. 다만 셀프 호스팅인 만큼 서버 사양을 많이 타는 편으로, DDoS 등 여러 요청이 대규모로 들어올 경우 사양이 버티지 못해 뻗을 가능성이 높다.

4. 효과

한국 사진이 등장한 디스코드의 reCAPTCHA.

과거엔 인공지능이 절대로 뚫을 수 없다고 여겨졌으나, 최근엔 AI 기술의 발달로 AI가 사람보다 더 빠르고 정확하게 CAPTCHA를 풀 수 있다는 연구결과도 있다. 물론 이는 연산 자원을 많이 필요로하므로 비용이 많이 든다. 즉, 위조지폐 제조를 원천 차단하는 것을 포기하는 대신, 액면가보다 제조비용이 더 들게 해서 위조를 포기하게 만드는 것과 비슷한 상황인 셈이다. 또한 이 과정에서 마우스의 정교한 움직임등의 사람의 패턴을 분석하므로 인공지능이 이미지는 맞힐 수 있어도 캡챠를 통과하는 것은 꽤 어려우므로 캡챠는 여전히 보안 효율이 좋다.

특히 스팸메일 방지를 위해 많이 쓰인다. 스팸 소프트웨어의 자동 계정 등록을 막기 위해 계정을 등록할 때 거치는 테스트로 이미지 단어를 보여준 뒤 그 단어를 쓰는 것으로 사용자의 명령을 수행하는 프로세스로 진행.

물론 소프트웨어가 진화하다 보면 그냥 숫자나 글자는 인식해 버리기도 하는 지라, 가끔 단어를 시각적으로 변형시킨 복잡한 패턴을 사용하기 때문에 심하면 사람이 봐도 이게 글자인지 뭔지 모를 단어를 보여주고 입력하라고 하는 경우가 있다.[5] 이런 경우를 대비해서 친절하게 해결책이 마련되어 있는데, 단어를 새로고침하거나 단어를 직접 음성으로 들려주어 입력하게 하는 옵션을 이용하면 된다. 음성 기능은 원래 시각장애인에 대한 배려 차원에서 들어간 것이다. 음성 인식을 방지하기 위해 보통 배경에 소음을 깔아 놓고 들려준다. 다만 일부 캡챠는 음성을 영어로 들려주는 경우가 있어서 한국인이 받아쓰기에는 난해한 경우가 있으며, 음성은 인공지능 풀이에 상대적으로 취약한 편이기에 하루 횟수를 제한하는 캡챠도 있다.

일반적인 CAPTCHA 패턴은 사람은 쉽게 알아볼 수 있지만 스팸 소프트웨어나 봇은 자동으로 인식할 수 없다. 결과적으로는 자동 계정 생성이나 메일 자동 발송 등을 어렵게 하여 스팸을 차단하는 효과를 보게 되는 것. 사실 이런 게 가능한 이유는 CAPTCHA에 들어가는 연산의 대부분이 일단 실행된 뒤에는 되돌릴 수 없는 비가역적 연산이기 때문이다. 그럴 만도 한 게, 대부분이 글자를 비틀거나 회전시키는 등 역연산이 존재하지 않는 방법으로 글자를 왜곡한다.[6] 같은 이유로 JPEG로 저장된 이미지를 완벽하게 복원하는 것도 불가능하다.

하지만, 이미 문자 기반의 CAPTCHA 중 일부는 연구자들에 의해 뚫린 상태. 이를 보완하기 위해 문자 대신 이미지를 변형시키는 형태도 연구되고 있다. 특히 이미지 기반의 CAPTCHA는 이미지 특성상 특정 문화에 익숙해져 있지 않으면 맞히기 어렵게 하는 경우(예: 태극기, 무궁화 등)도 있어 해외 스패머들을 막을 수 있지만 이미지를 이용하기 때문에 데이터베이스의 크기가 커질 수 있다는 단점을 지니고 있다.

CAPTCHA의 단점은 기본적으로 웹 접근성을 약화시킨다는 점이다. 특성상 이미지를 보고 텍스트를 입력해야 하기 때문에, 이미지를 볼 수 없는 시각장애인은 CAPTCHA를 통과할 수 없다는 문제점이 있다. 시각장애인을 위한 텍스트 리더 프로그램은 이미지로 된 CAPTCHA를 읽지 못하기 때문이다. 이 때문에 요즘 CAPTCHA에는 음성으로 읽어주는 오디오 기능이 들어가 있다. 이 오디오 기능을 이용해서 프로그램으로 CAPTCHA를 뚫는 경우도 있다. 음성의 경우 정도의 차이는 있지만 명확하게 나오기 때문이다. 시각장애인이 아니더라도 눈이 조금 안 좋은 사람도 통과하기 매우 힘든 CAPTCHA들도 있는 데다가 거의 로마자 알파벳이기 때문에 알파벳 모양에 익숙하지 않은 사람들, 노인들에게는 헬이 펼쳐진다. 알파벳이 어디가 어때서 하는 사람들에게는, 일본어 사이트에서 캡차를 히라가나로 입력하게 해 놓은 것을 직접 풀어보면 된다. 이건 뭐 비슷한 그림 찾기가 된다. 시각과 청각이 모두 안 좋거나 스피커가 없는 환경일 경우도 문제.

설정에 따라서는 대소문자나 띄어쓰기 혹은 점 하나만 틀려도 까칠하게 오답 처리할 수도 있고, 한 두 글자 정도는 틀려도 그냥 넘어가도록 설정할 수도 있다.

일부 악질 유저가 해당 사이트 내에서 배척을 당하자, 서비스 거부 공격으로, 해당 사이트를 마비 시키는 유저를 차단하기 위해 도입되는 요소 중 하나. 물론, 다른 유저들은 여기에 대한 불편이 한 두가지가 아니다. VPN까지 도입해 가면서 쓸데 없이 분탕을 저지르는 유저들이 있어서 여러모로 골치 아픈 셈.

CAPTCHA를 설치했는데도 우르르 스팸 게시물이 등록되는 경우가 종종 있는데, 이건 CAPTCHA의 결함이라기보다는 게시판이나 서버에 보안 구멍이 있는 경우가 많다. 보안 구멍을 이용해서 CAPTCHA를 우회하는 것. 만약 CAPTCHA가 설치되어 있는데도 스팸 게시물이 많이 등록된다면 CAPTCHA만 맹신하지 말고 게시판이나 서버에 다른 경로로 게시물이 등록되는 것이 가능한지도 점검해 봐야 한다.

흔히 외국 사이트에서 볼 수 있는 구글 reCAPTCHA의 경우 신호등, 자동차, 횡단보도 등등의 이미지를 클릭하라고 하는데 분명히 존재함에도 불구하고 안 되는 경우라든가, 어중간하게 걸쳐 있는 목표 때문에 체크를 해야 한다와 안 해야 한다는 의견차로 수십 번을 해야 하는 경우도 있다. 가장 욕 나오는 케이스는 사진 화질이 구린 것. 음영 등의 문제로 이게 맞는지 아닌지 확신하기가 어렵다.

나무위키에서도 이것이 남발되는 경우가 있다. 심하면 5번, 게시글 작성 시에는 20번도 넘게 해야 하는 경우도 있다.

캡차를 뚫기 위해 인건비가 저렴한 국가에서 캡차 입력 알바나 전문업체를 고용하여 캡차를 푸는 업자들이 등장하기도 했다. 보통 이런 알바들은 한화로 환산하면 시급 몇 백 원 ~ 천원 남짓의 박봉으로 일하지만, 일단 별다른 교육 없이 글만 읽을 줄 알면 할 수 있는 일인데다, 경제 사정이 좋지 않은 개발도상국에서는 시급 1천원 정도면 나쁜 조건이 아닌 경우도 있기 때문. 문제는 인공지능과는 달리 이들은 확실하게 사람처럼 행동하므로 캡차로 만든 것은 불가능하다.

5. 밈

봇을 구분한다는 특징 때문에 매트릭스 시리즈에서 로봇이 인류를 지배하는 매트릭스와 엮이는 밈도 있다.

또한 전화번호부 상에 있는 사라 코너 주소에 캡챠를 썼으면 터미네이터가 암살에 실패했을 것이라는 개드립이 서양에서 유행했다.

물론 진지하게 말하면 작중 묘사된 T-800의 OCR 능력이 워낙 뛰어나 문자 기반 캡챠 정도로는 막을 수 없었다.

6. 한국에서

한국에서는 대부분의 사이트에 가입 시 아이핀이나 휴대폰 번호, 공인인증서 같은 제한적인 수단을 주로 요구하기 때문에 CAPTCHA를 쓰는 경우가 적었다.[7] 정 스패머가 이런 과정을 거쳐 정상 등록을 한다고 쳐도 그냥 그 계정을 차단해버리면 그만이다. 인증용으로 사용되는 특정 아이핀이나 전화번호 등에 아이디 생성 개수 제한이 걸려있기 때문에 돌려 쓰기도 불가능한 고로 오래 버티기도 힘들다.

따라서 편리하고 좋다고 생각할 수 있겠지만, 대신 반대로 사이트 자체의 보안이 취약해진다는 문제가 지적되고 있다. 이런 식으로 인증 처리를 할 경우 전화번호 등의 개인정보가 사이트에 저장이 되니 해킹당하면 개인의 신상정보가 속절 없이 털리기 때문이다. 대신 CAPTCHA를 사용하면 일단 가입할 때 인증 자체는 확실히 되고, 또 사이트가 털려봐야 그 계정만 못쓰게 될 뿐 개인정보는 애초에 사이트에 저장이 되어있지 않으니 털릴 염려가 완전히 없어진다.

한국에서는 CAPTCHA 대신에 그냥 아예 회원 가입을 유도하는 방법을 사용해서 잘 사용되지 않던 때도 있었다. 귀찮게 CAPTCHA 같은 걸 쓰느니, 주민번호 수집을 바탕으로 회원 가입을 하면 이는 곧 사람인 것이라는 식으로 처리한 것. 이후에 개인정보 유출 문제가 심각해져 사용이 크게 제한되면서 주민번호 같은 고급 개인 정보는 그냥 수집할 수 없고 인증 업체 등을 통하는 것으로 변경되었다.[8] 문제는 이런 인증 업체들을 이용하는 것은 공짜가 아니라는 것. 이에 따라 중소 규모 사이트의 경우는 굳이 별도의 개인 인증을 요구하기 보다는 CAPTCHA를 이용해 인증 과정을 사용하는 경우가 늘어났다. 하지만 CAPTCHA는 적지 않은 사람들, 이를테면 노인 계층에게 매우 문턱이 높다는 게 간과되고 있는 문제다.

네이버 로그인을 5회 이상 시도했을 때 가상 영수증을 보고 알맞은 답을 고르는 식의 문제를 낸다.[9]

네이버 뉴스 댓글 서비스에서 비정상적인 활동이 감지[10]가 될 때, 상당히 난이도가 높은 캡차 문제를 낸다. 음성도 지원된다.

디시인사이드의 글쓰기, 댓글 쓰기, 추천, 비추천의 경우에도 가끔가다 매니저, 운영자의 설정이나 통신사IP를 이용하면 자동 입력 방지 캡차를 쓴다. 한글[11], 알파벳(소문자), 숫자[12] 1~8개[13]의 단어가 랜덤한 방향으로 뒤틀려져 나온다.

네이버 지식인에서 대답 중, 같은 대답과 같은 비정상적인 부분이 나오면 캡차를 쓴다.

카카오 로그인에도 사용되고 있다.

나무위키에서 로그인 및 문서 편집 시 Cloudflare Turnstile이 도입되었으며, 아카라이브 역시 로그인 과정에서 기존의 hCaptcha를 Cloudflare Turnstile로 교체한 상태이다.

에펨코리아의 로그인 과정에도 Cloudflare Turnstile이 도입되었다.

7. 문제점

자세한 내용은 CAPTCHA/문제점 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[CAPTCHA/문제점#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
{{{#!if 문서명 = 문서명 != null ? 문서명 : calleeTitle
의 [[CAPTCHA/문제점#|]] 부분을}}}

참고하십시오.

8. 부적절한 단어들

단어를 무작위로 만들어 낼 수 있어서인지 아래 사진들과 같이 부적절한 단어가 나오기도 하며 인터넷 등지에서 유머글로 종종 올라온다.

8.1. 던전앤파이터

게임 내에서 클린패드를 입력할 수 있으며 여기서 부적절한 단어가 나왔다.

년게씌쁨렬[14]

처제덜따먹[15]

밟근헤씩팔[16]

8.2. 마비노기 영웅전

처녀 굿바이

어머니 벌레

8.3. 메이플스토리

자세한 내용은 거짓말 탐지기(메이플스토리) 문서

#!if (문단 == null) == (앵커 == null)
를

#!if 문단 != null & 앵커 == null
의 [[거짓말 탐지기(메이플스토리)#s-|]]번 문단을

#!if 문단 == null & 앵커 != null
{{{#!if 문서명 = 문서명 != null ? 문서명 : calleeTitle
의 [[거짓말 탐지기(메이플스토리)#|]] 부분을}}}

참고하십시오.
전체 이용가 게임인 메이플스토리의 매크로 방지 시스템이자 아이템인 거짓말 탐지기에도 많이 나온다.[17] 자세한 것은 거짓말 탐지기 문서 참고. 여기에서는 타 커뮤니티 사이트에 돌 정도로 유명한 것만 넣는다.

니어미원숭이 [18]

8.4. 엔씨소프트

게임 사이트에서 CAPTCHA를 이용해 인증을 하는 과정에서 CAPTCHA가 유저에게 욕을 썼다.

8.5. 기타

일본 사이트 CAPTCHA에도 이런 이상한 단어들이 나온다. 물론 위에 나온 메이플스토리의 거짓말 탐지기 일본판에 나온 단어들도 포함. 다만 일본쪽은 섹드립이 많은 편. 링크

이런 것도 있다. ~~미쳤습니까, 휴먼?~~ 당연히 진짜 시각장애인들의 접근성을 위한 프로그램이 읽으라고 넣은 문구다. ~~하지만 시각장애인들은 저 문구를 볼 수 없다~~[20]

CAPTCHA을 사용한 암호화폐가 있다. CaptchaCoin은 인간 작업 증명을 기반으로 하는 최초의 암호화폐로, 채굴과 구매력이 소수의 손에 집중되지 않고 다수의 사용자에게 분산되도록 보장한다.

9. 그 외

AI가 CAPTCHA 테스트를 클리어 했다고 한다. 물론 직접 클리어 한 것은 아니고 인간을 이용했다고 한다.
인간 알바 고용한 AI...감히 별점도 줬다
AI 버츄얼 유튜버인 뉴로사마는 손 쉽게 캡챠 테스트를 통과했다. #[21]
몰트북의 등장을 시작으로 반대로 인간을 막기 위한 리버스 캡챠도 주목을 받기 시작했는데 1초 안에 문제 여러개를 풀어야하는 방식 등 정상적인 인간이라면 해결할 수 없게 만든다. Clawptcha

10. 관련 문서

거짓말 탐지기(메이플스토리)

[1] 마우스 움직임 등[2] 지문 인식, 얼굴 인식, 홍채 인식 등[3] 자동 인식이 불가능한 난이도는 사람도 읽거나 알아보기 힘들고 사람이 알아볼 수 있는 수준이면 자동 인식도 가능한 문제점이 있다.[4] 알트키 스트레이프도 되지만 발사키가 디폴트 ctrl이 아닌 스페이스로 되어 있다.[5] 실제로 최근 프로그램들은 글자를 인식해서 쓰며 게임들을 이런 실시간 온스크린 번역 프로그램으로 한국어로 플레이하는 것이 그 예.[6] 의심된다면 포토샵에서 아무 필터나 이용해보자. 대부분은 한 번 이미지가 일그러지면 실행을 취소하지 않는 한 절대로 완벽히 되돌릴 수 없다.[7] 과거에는 주민등록번호도 수집했으나, 개인정보 보호법 개정에 따라서 이제는 회원 가입 시 주민번호를 받을 수 없다.[8] 이후에는 주민번호가 아닌 아이핀과 휴대폰 번호로만 가능하다.[9] 여담으로 뒷배경은 닌텐도 스위치와 게임 불명의 카트리지 케이스를 찍은 사진이다.[10] 예를 들면 IP 충돌, 매크로 활동 의심 동작 등.[11] 받침이 없는 단어[12] 숫자 0은 나오지 않는다.[13] 약 2018년까지 중순까지는 10개까지도 나왔다.[14] 너 개 시XX[15] 처제 덜 XX[16] 박근혜 XX[17] 거짓말 탐지기에 나오는 글자들은 메이플스토리에 나오는 몬스터, NPC의 이름들의 일부가 합쳐진 것인데 가끔 합치면 전체 이용가에 부적절한 문장이 만들어질 때도 있다.[18] 몬스터 중에 '어미원숭이'가 있어서 일어난 현상이다.[19] 출처는 아이온 서버별 텔레마커스 게시판에 누군가가 비번 틀렸다고 엔씨가 욕했다는 식으로 제목을 쓴 글에 나온 이미지. 2013년 11월 이후부터 돌기 시작했다.[20] 시각 장애인들은 화면의 텍스트를 읽어주는 스크린 리더 프로그램을 쓴다. 앞서 언급된 음성 지원을 유도하기 위한 문구인 것.[21] 물론 클릭은 사람이 한 것으로 보인다.