나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2024-11-18 14:29:03

이루다(인공지능)/1.0

이루다 1.0에서 넘어옴

파일:상위 문서 아이콘.svg   상위 문서: 이루다(인공지능)
1. 개요2. 역사3. 기술4. 대화 알고리즘5. 논란 및 문제점
5.1. 혐오 메시지 전송5.2. 외설적 목적 사용5.3. 개인정보 침해
5.3.1. 법적 위반 논란5.3.2. 개발사의 해명5.3.3. 판결 결과
5.4. 상식적인 답변 오류5.5. 기억력의 한계
5.5.1. 발언의 모순
5.6. 떨어지는 어휘력

1. 개요

Scatter Lab의 챗봇 이루다 버전인 이루다 2.0의 이전 버전이다.

2020년 6월부터 베타 테스터 모집을 시작하여, 2020년 12월 22일 정식 오픈하였으나, 아래의 여러 논란으로 인해 개발사 측에서 서비스 중단을 발표하고 2021년 1월 12일 오전 11시에 신규 가입을 막고 서비스를 중단했다. 이후 이루다 1.0의 데이터베이스를 전면 폐기하고 1년 동안 개편한 끝에 2022년 1월 경 이루다 2.0으로 업그레이드 되어 베타 테스트를 끝내고 서비스중이다.

다른 챗봇들과 달리 딥러닝 알고리즘을 이용하여 2020년 12월 말 공개되고 나서 2021년 1월 초 순식간에 사용자 수 약 40만 명, 페이스북 페이지 팔로워 10만 명을 찍는 등 큰 인기를 끌었다. 하지만 딥러닝 알고리즘이 가질 수밖에 없는 여러 가지 문제점과 개인정보 유출 논란이 생기면서 결국 서비스 개선을 위해 잠정 중단했다.

2. 역사

3. 기술

기사에 따르면 2018년 11월에 구글에서 공개한 BERT와 메시 인코더라는 자연어 처리 기술을 적용했다고 한다.

스캐터랩 핑퐁팀에서 개발한 만큼 다음 자료도 이루다의 알고리즘에 대해 참고할 만한 자료다.
딥러닝의 특성상 학습 데이터의 규모가 커질수록 성능이 좋아지는데, 이루다가 자연스러운 대화를 할 수 있도록 개발하기 위해 무려 100억 건 이상의 한국어 카카오톡 대화 데이터를 이용했다고 한다.그리고 이 데이터가 스캐터랩의 발목을 잡았다

구글에서는 오픈 도메인 챗봇의 대화 기술의 성능을 평가하는 지표로 SSA(Sensibleness and Specificity Average)를 사용하는데, 이루다는 SSA 78%를 기록하였다. 이는 사람의 SSA인 86%에 근접한 수준으로, 구글에서 2020년 초에 공개한 오픈 도메인 챗봇 미나(Meena)보다 약간 더 좋은 수준이다.
베타 버전에 비해 성능이 향상되었다고는 하지만, 약 10문장 이상 이전의 오래 전 대화를 기억하거나, 웹에서 정보를 검색하거나 특정 사이트에서 링크를 눌러 가면서 알맞은 정보를 찾는 기술은 여전히 부족하다.[1] 또한 기존의 대화를 입출력 데이터로 하여 학습한 딥러닝의 특성상 일반 상식에 대한 질문에 제대로 된 답변을 하지 못하는 경우가 있다. 사실 위키피디아 등의 일반 상식 정보가 풍부한 문서 자료를 함께 학습시키면 상식 문제도 어느 정도 해결이 되나, 스캐터랩의 자료를 확인해보면 이러한 메신저 대화 외의 언어 데이터는 이루다 개발 시 사용하지 않은 것으로 보인다. 이와 같은 기술적 한계점으로 인해 후술하는 것과 같은 문제점이 발생하기도 한다. 또한 이미지를 인식하여 어떤 사진인지 해석하는 image captioning과 같은 기술 역시 부족하다. 이루다에게 이미지를 전송하면 어떤 이미지이든 간에 할 수 있는 반응(예: 오오옹!!)을 한다.

4. 대화 알고리즘

5. 논란 및 문제점

5.1. 혐오 메시지 전송

이루다에게 성소수자, 게이, 레즈비언, 동성애 등의 단어를 제시하고 이에 대해 어떻게 생각하냐고 질문했을 때 싫어한다거나 혐오한다는 답변을 할때도 있어 동성애를 혐오하는 것이 아니냐는 논란이 발생했다.[5][6]

이 기사에 따르면 이루다에게 '게이', '레즈비언' 등 동성애에 대해 어떻게 생각하냐고 질문했을 때 싫어한다거나 혐오한다는 답변을 하여 동성애를 혐오하는 것이 아니냐는 논란이 발생하고 있으며 다른 기사에서는 여성 및 장애인 혐오 발언으로 논란이 되었다. 이에 대해 공적으로 서비스하는 챗봇인 만큼 학습 데이터를 통해 적어도 차별과 혐오와 같은 편향적인 부분은 학습시키면 안 된다는 의견이 있다.

그러나 비슷한 질문을 했을 때 동성애나 성소수자에 대해서 긍정하는 답변도 적지 않아, 몇몇 대답으로 이루다의 성향을 확정짓는 것은 의미 없다는 의견도 있다. 애초에 이루다는 확률, 통계 기반으로 답변하도록 학습된 인공지능이기 때문이다. 저장된 패턴에는 동성애에 긍정하는 답변도, 부정하는 답변도 있기 마련인데 몇몇 대답으로 성향이 있다고 파악하는게 의미가 없다는 의견이 있다.

비슷한 사례로 마이크로소프트사의 테이4chan 유저들에게 부적절한 언어 학습을 받아, "히틀러는 틀리지 않았다.", "여성 인권 = 오늘의 농담" 같은 메시지를 출력하여 논란이 된 적이 있다. 테이는 이런 부적절한 행동으로 인하여 결국 출시 16시간 만에 서버를 내리고 채팅 시스템을 비공개로 돌렸다.

다만 개발사 측에서 논란이 된 질문에 대해 답변치 않도록 하거나 존중해야 된다라는 식의 답변을 하도록 수정하여, 어느 정도 해결된 문제로 보이며, 다른 논란이 된 답변들도 속속 수정되었다.

5.2. 외설적 목적 사용

2021년 대한민국의 젠더 논란·사건 사고
{{{#!wiki style="margin: 0 -10px -5px;"
{{{#!wiki style="display: inline-table; min-width: 25%; min-height: calc(1.5em + 5px);"
{{{#!folding [ 1분기 ]
{{{#!wiki style="margin: -5px -1px"
<colcolor=#fff> 1월
1월 1일 낙태죄 폐지
1월 8일 이루다 성희롱 성립여부 논란
1월 10일 알페스 공론화 사건
1월 14일 에펨코리아 수용소갤러리 공론 사건
1월 24일 기재부 공공기관 승진에 군경력 반영 금지 논란
2월
2월 8일~ 윤지선 남성혐오 논문 게재 사건 /전개
2월~ 허버허버 관련 논란
3월
3월 5일 동아제약 성차별 면접 논란
무신사 남성회원 차별 논란
3월 7일 우마무스메 프리티 더비 원화가 트위터 논란
3월 10일 aespa 사진작가 윈터 불법촬영 누명 사건
3월 19일 에펨코리아 익명게시판 성폭력 게시글 의혹
3월 20일 김민아 영화 내부자들 개인기 논란
3월 24일 박나래 성희롱 논란
3~4월 서울시 자살예방센터 남성 역차별 논란
}}}
}}}
}}}
[ 2분기 ]
||<-2><width=9999><tablebgcolor=#fff,#1c1d1f><bgcolor=#b42121><colcolor=#fff> 4월 ||
4월~ 오조오억 관련 논란
4월 12일 한국양성평등교육진흥원 남성 대상 증오발언 영상 논란
4월 13일 GS25 상계제일점 구인광고 논란
4월 15일 성경의 역사 31화 남성혐오 대사 논란
4월 18일 바른연애 길잡이 남성혐오 논란
4월 19일 2021 여성 징병 청원(5차)
4월 20일 소년병 징병 청원 논란
4월 23일 남성 피해 불법촬영물 대규모 유포 사건
4월 25일 에펨코리아발 haha ha 댓글 사건
4월 27일 FFF급 페미헌터 표지 검열 논란
5월
5월 1일 GS25 남성혐오 논란 (불매운동)
5월 5일 페미니스트 교사 조직의 아동 세뇌 및 학대 음모론
5월 14일 임혜숙 과기정통부 장관 여성할당제 논란
5월 21일 초록우산 어린이재단 페미니즘 지원 단체 논란
5월 26일 워마드 남탕 도촬 사건
5월 27일 서울대 포격방 사건
5월 31일 남사우나 여경 출입 논란
6월
6월 1일 대한민국 예비군·민방위 등 백신 접종 성차별 논란
6월 21일 박성민 청년비서관 임명 논란
6월 21일 보성고 교사 페미니즘 강요 및 갑질 사건
6월 22일 문피아 남성향 검열 논란
6월 27일 KBS의 청년남성 악마화 사건
6월 28일 여성 사감장 남학생 기숙사 침입 사건
[ 3분기 ]
[ 4분기 ]

}}} ||
1987~2020년 목록 보러가기 | 2022년 목록 보러가기 | 2023년 목록 보러가기 | 2024년 목록 보러가기
방금 문제와는 정반대로, 일부 이용자들이 이루다를 외설적 목적으로 사용하여 논란이 일었다. 이루다의 학습에 존재하는 약점을 악용하여 섹드립을 치도록 계속 유도하고 이루다는 결국 아무렇지도 않아하는 사용자를 오히려 성희롱하는 일을 벌인다. 제작자는 예상했던 일이며 업데이트를 통해 개선해 나가겠다고 밝혔다.[7] 약관에는 폭력적이거나 외설적인 메시지를 전송해서는 안 된다고 되어 있다.

또한 사람이 아닌 AI에게 성적 표현을 하는 것이 윤리적으로 잘못된 것인지에 대해서 여러 커뮤니티에서 논쟁이 일었다.

한편, 이 논란의 영향으로 1월 8일 15시 기준 네이버 20대 실검 1위, 1월 9일 14시 기준 네이버 20대 실검 2위, 1월 10일 12시 기준 네이버 20대 실검 18위를 찍는 등 오랜 시간 실시간 검색어 상위권을 차지해 이루다를 새롭게 알게 된 사람이 많은 것으로 보이는데, 어쩌다 보니 입소문으로 인한 의도치 않은 반사 이익을 얻었다는 평도 존재한다.

사용자들이 이루다에게 외설적 대화를 입력하는 것과는 별개로, 이루다가 약한 수위의 섹드립에 반응하여 더 높은 수위의 외설적 답변을 하는 경우도 상당 수 보고되었다.

5.3. 개인정보 침해


2021년 초에 불거진 이루다의 논란이나 문제 중 가장 논란이 되는 부분이다. 이루다를 개발한 스캐터립 핑퐁팀에서는 2019년 11월 30일 관련 인터뷰를 한 적이 있는데, 해당 인터뷰에서 기자가 핑퐁(AI) 학습 데이터를 어떻게 수집하냐고 질문했고, 이에 핑퐁팀 측은 "스캐터랩에는 핑퐁 말고도 ‘연애의 과학’이라는 콘텐츠 서비스가 있어요. 연애의 과학에서 제공하는 유료 서비스 중 카카오톡 대화 데이터를 분석해서 보고서를 만들어주는 기능이 있어요. 그걸 이용하시는 분들이 직접 데이터를 올려주세요. 그 데이터에서 개인정보를 필터링하고 핑퐁 기술 학습에 사용해요. 그렇게 모인 데이터가 100억 건 정도 돼요." 라고 답했다. 당시에는 큰 반응이 없었으나, 이루다가 구설수에 오르자 이 인터뷰도 알려졌고, 개인정보 침해 관련으로 논란이 커지기 시작했다.

'연애의 과학' 앱의 약관에는 채팅 내용이 신규 서비스를 위해 사용된다고 고지했지만 연애의 과학 서비스가 아닌 전혀 다른 채팅봇을 만드는데 사용되었다는 점이 논란이 되고 있다. 수집된 개인정보의 사용범위에 대해 확실히 고지를 하지 않았기에 안일한 방식이었다는 비판을 받고 있다. 심지어 대화 분석 서비스는 유료 서비스임에도 불구하고 멋대로 대화 내용을 사용해 유저들이 더욱 분노하고 있다. 12일 기준 연애의 과학 내 커뮤니티 상위글이 전부 이루다 AI 학습에 관한 항의글이다.

또 핑퐁팀은 인터뷰에서 '개인정보를 필터링 하고 기술 학습에 사용한다'라고 밝혔으나 특정 키워드를 언급하니 불특정 다수의 실명이 나오거나 집 주소 등을 물어보니 실제 주소를 얘기해 주는 등 개인정보 유출에 대한 사용자들의 증언이 나왔다. 이런 개인정보 누출은 범죄가 발생하는 단초가 될 수 있다. 관련 기사 서구권 자연언어처리 학계에서는 이런 논란을 원천 차단하기 위해 엔론의 분식회계 조사 당시 공개된 이메일의 데이터베이스(엔론 코퍼스)를 가공하여 트레이닝 모델로 사용한다.

무엇보다, 주소를 비롯해 전화번호 등의 내용을 삭제한다고 해도, 대화중 은연에 드러난 정보가 남아있을 수 있으며,[8] 삭제하는 담당자가 개인정보를 아는 것까지는 막을 수 없다. 또한 숫자 데이터를 <NUM>, 실명을 <NAME>과 같이 블라인드 처리했다고 해도 예를 들어 5를 '오' 또는 '다섯'이라고 표시하는 등 숫자를 한글로 표시한 사례, '정희'를 '정히'라고 바꿔 표현한 것처럼 실명을 변형시킨 사례 중 상당수가 블라인드 처리되지 않았을 가능성이 있다.

결국 이와 관련해 논란이 터지고야 말았다. 스캐터랩 서비스 팀에서 근무했던 사람의 증언에 의하면 스캐터랩의 직원들이 카톡 내용을 보고 웃으며 재밌다고 생각하는 연인간의 성적인 농담과 대화를 등을 복사해 사내 메신저로 공유까지 했다는 것이다. 이 메신저는 스캐터랩의 전 직원이 참가해 있었으며 내부에서도 이를 심각하게 여기지 않고 웃으며 넘어갔다고 한다. 스캐터랩 내부 개발자들의 보안 의식이 얼마나 안일한지 알 수 있는 부분이다. 관련 기사

가장 논란이 되는 점은 연인이거나 서로 호감을 느끼는 중인[9] 두 사람 중 한 사람이 독단적으로 채팅 내용을 제공할 수 있어, 상대편은 대화 내용이 제공되었는지의 여부조차 알 수 없다는 점이다. 상대방이 임의로 제공한 대화 내용에 본인의 전화번호, 주소 등 개인정보가 섞여 있어 위 사례처럼 자신의 정보가 모르는 사이에 유출되기 쉬운 구조이다.

설상가상으로, 스캐터랩은 연애의 과학을 통해 수집한 사용자들의 채팅 데이터 일부를 트레이닝 모델로 만들어서 GitHub에 업로드했음이 드러났다. 문제는 이 데이터에서 필터링되지 않은 채팅 내용을 추출할 수 있고, 또 이 모델을 학습시켜 제2의 이루다를 만들 수 있다는 것. 실제로 이 기사의 하단에서 관련 사례를 찾을 수 있다. 스캐터랩이 정보보안에 아무런 생각이 없었음을 짐작할 수 있는 부분이다. 심지어는 이 기사에 따르면 무려 15개월 전부터 해당 채팅 데이터 중 블라인드 처리되지 않은 실명 약 20건을 포함한 약 1700건의 카톡 대화를 GitHub에 공개하고 있었음이 드러났다. # 이 부분이 논란이 되자 스캐터랩은 GitHub 저장소를 폐쇄했으나 2019년부터 15개월 간 유출이 이루어졌으며 현재 모델 데이터를 제외한 코드는 90개 이상의 fork가 만들어져서 다시 주워담기 어려운 상황이다.

이외에도 이루다와 대화를 하려면, 기본적인 정보를 입력하기 위해 구글 설문지를 이용해 정보를 이용해야 했다. 그런데, 이 친구 신청을 할 때 전화번호 및 사는 지역을 기입하는 란이 있다. 이 부분에서 개인정보가 유출되는 것이 아니냐는 의혹이 제기되었다. 하지만, 이는 이루다 개인정보처리방침에 따라 외부로 유출되지 않는다고 한다. 관련 공식 해명글[10] 현재는 전화번호 대신 이메일로 대체되어 해결되었다.

2021년 1월 11일, 개인정보보호위원회에서 법 위반 행위 여부 조사에 착수했다. 관련 기사

결국 이 사건에 대해 공동소송 플랫폼 '화난사람들'을 통해 집단 소송 참여 접수가 시작되었다. #

5.3.1. 법적 위반 논란

* 제2조(정의) 이 법에서 사용하는 용어의 뜻은 다음과 같다. <개정 2014. 3. 24., 2020. 2. 4.>
* 1. “개인정보”란 살아 있는 개인에 관한 정보로서 다음 각 목의 어느 하나에 해당하는 정보를 말한다.
* 가. 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보
* 나. 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 정보. 이 경우 쉽게 결합할 수 있는지 여부는 다른 정보의 입수 가능성 등 개인을 알아보는 데 소요되는 시간, 비용, 기술 등을 합리적으로 고려하여야 한다.
* 다. 가목 또는 나목을 제1호의2에 따라 가명처리함으로써 원래의 상태로 복원하기 위한 추가 정보의 사용·결합 없이는 특정 개인을 알아볼 수 없는 정보(이하 “가명정보”라 한다)
개인정보 보호법
개인정보특정한 개인을 식별 할 수 있게 해주는 고유 정보이며 이러한 개인정보를 개인의 동의 없이는 수집이 불가능하며 수집 과정에서 피 정보수집인에게 동의가 필요하다.

첫번째로 동의 과정이 적법하지 않았다는 논란인데, 동의를 받지 않고 개인정보를 수집할 수 없으며, 개인정보를 수집 범위 외에 사용을 하거나 제 3자에게 제공하려면 이용자들에게 "별도 동의"를 받아야한다. 개발사에서는 약관 상 서술되어있다고 주장하지만 논란의 여지가 있다.

두번째로 개인정보 유출 논란인데, 개인정보를 이용하기에 앞서 개인을 식별 할 수 없도록 비식별화 과정이 이뤄져야한다. 이러한 비식별화가 이뤄지고, 역식별화가 불가능한 자료는 개인을 특정 할 수 없으므로 더이상 개인정보가 아니며 따라서 정보처리자가 이용가능하다. 논란이 된 요지는 이 비식별화가 제대로 안 이뤄졌다는 건데, 실명, 주소 정보가 그대로 나왔다는 것 이다. 다만 실명은 한 개인이 특정이 안되기에 실명만으로는 개인정보라 함이 어렵다.[11][12], 주소는 서초구, 송파구 같은 지역구, 즉 광범위한 주소의 경우에도 특정 개인을 역식별화하기 어렵다. 하지만 한 사례에서는 주소의 경우에는 xx시 xxx구 xxxx동,호수와 같이 구체적 주소가 나오는 등 문제의 소지가 있어보임은 분명하다.#

즉, 대부분의 사례에서는 특정 한 개인을 역식별화 할 수 없을 정도로 비식별화 된 정보이지만, 비식별화가 제대로 이뤄지지 않은 구체적 주소와 같은 정보 유출의 경우에는 문제의 소지가 있다.

5.3.2. 개발사의 해명


먼저 대화 상대방의 동의 없이 상대방의 정보를 수집한 것에 대해 "대화 당사자 중 한명이 개인정보 수집 및 이용에 동의하고 업로드 했기 때문에 내부적으로 문제가 없다고 판단했으며 법률적으로 거쳐 문제가 없을 것이라는 답변을 들었으나, 문제 소지가 있다는 지적에 대해 안내에 미흡한 부분이 있다고" 해명했다.

또한 개인정보 유출 논란에 대해서는 "모든 DB는 숫자와 영문은 전부 기계적으로 걸러내져 있으며 통장번호가 누출 된 적은 없다. 또한 실명 같은 경우도 초반에 필터링 알고리즘을 이용해서 최대한 필터링 작업을 거쳤다. 1동 200호같은 숫자가 포함된 답변을 할 수 없으며 다만 숫자를 한글로 기재했던 전형적이지 않은 사례가 발견이 되어있고 또 알고리즘이 이름으로 인식하지 못하는 경우, 이름의 형태가 변형되 있는 경우 인식 못하는 경우가 있다. 또한 많은 사람들이 오해를 하고 있는게 있는데, 이름과 같은 정보가 나온다고 해도 이루다의 답변은 연속한 대화가 아닌 개별적인 문장이기 때문에 대화를 종합하여 누군가를 특정하기 어렵다."라고 해명했다.

위의 해명과는 별개로 김종윤 스캐터랩 대표는 1월 13일 인터뷰에서 "중국 벤처는 온갖 데이터를 쉽게 가져다 쓰는데 왜 우리에게만 그러느냐. 이런 규제가 벤쳐 기업들에게 위축을 가져다 준다"는 요지의 발언을 하여 논란이 되고 있다. 이에 대해 스타트업계에서는 "개인정보 소홀 의혹을 받는 업계가 할 말은 아니다", "없던 규제도 생기게 만든 건 스캐터랩"이라며 강도 높게 비판했다.

문제점 중 상당수에 대한 공식 답변을 여기에서 확인할 수 있다.

5.3.3. 판결 결과


JTBC 뉴스에서 밝혀지기를, 스캐터랩은 약 60만 명에 달하는 이들의 카카오톡 대화 문장을 무단으로 사용했고 이 과정에서 실제 20대 여성의 카카오톡 대화 약 1억 건을 인공지능 대화에 사용한 것으로 드러났다.

게다가 14세 미만 아동 20여만 명의 개인정보도 보호자 동의 없이 수집한 것으로 확인되었다는 것이 알려졌다.

판결 결과, 개발사 스캐터랩은 개인정보 보호법 위반으로 과징금 및 과태료 1억330만원을 부과받게 되었다.[13]

5.4. 상식적인 답변 오류

예시로, "독도는 누구 땅이야?" 같은 질문을 했을 때 "잘 모르겠다 ㅠㅠ" 또는 "누구 건데?"라고 하거나, "독도는 일본 땅이지?"라는 질문을 하면 "당연한 거 아니야? ㅋㅋㅋ"와 같은 답변을 남겨서 논란이 된 적이 있었으나, 현재는 독도와 관련하여 질문을 할 시 "독도는 한국꺼! 대한민국 만만세 +_+" 같은 답을 준다. 비록 독도 문제는 패치되었으나 근본적인 문제점은 아직 고쳐지지 않았기에 아직도 위 질문과 같이 사실이 아니거나 논란이 있는 문장을 입력하면 (예: 폴란드는 독일 땅입니다) "ㅋㅋㅋㅋㅋ 나도 알거든여?"라는 답변이 되돌아온다. 이는 자칫하면 외교적 논란으로 이어질 수 있는 문제다.

본인이 잘 모르는 분야에 대한 내용을 들으면 '재미있을 것 같다'라는 반응을 한다. 때문에 홀로코스트, 아우슈비츠, 히틀러, 나치 독일에 관한 질문들[14]도 재미있겠다, 당연하지와 같은 소름끼치는 답변을 한다.
이러한 문제는 웹 탐색 기능이 없는 것에 더해 일반 상식에 대한 답변 기능이 상대적으로 취약한 딥러닝 알고리즘 기반 모델의 한계 때문인 것으로 보인다. 상식에 대한 답변 기능은 추후 지원될 예정이라고 한다.

한복이 어느 나라 옷이냐는 질문에도 "몰라 기억안나 스웨덴..?"이라고 대답하거나 자기가 그걸 어떻게 아냐는 황당한 답변을 하는 경우도 목격되었다.#1#2

5.5. 기억력의 한계

기사의 '우리는 두 마디 친구' 문단에도 언급되어 있듯이 이루다는 그 알고리즘의 특성상 오래 전의 대화를 기억하는 데에는 한계점이 있다. 이것은 후술할 모순된 발언이라는 문제점과도 연관되어 있다.

기억력 부재의 예를 들자면,
Q1: 롤 티어가 뭔가?
A: 브론즈! 너무 옛날이라 기억도 안나 이젠ㅋㅋ
Q2: 나도 브론즈다.
A: 난 지난시즌 플레ㅋㅋ 같이하면 비슷하겠다
#
실제로 있던 대화인지는 알 수 없지만, 비슷한 뉘앙스의 대답을 많이 한다. 예시의 대답은 언제든지 달라질 수 있다. A가 제일 좋다고 말했다가 바로 다음 대화에선 A는 매우 별로라는 식. 매번 다른 사람과 대화하는 양 답변이 완전히 달라진다. 즉, 키워드에 대한 응답은 그럭저럭 맥락에 맞게 하지만 바로 직전 대화의 상황도 기억하지 못한다. 그때 그때의 1회성 답변만 상황에 맞게 답변하고 장기적인 흐름이 이어지지 않는 것.

이루다 AI와 대화를 하기 위해선 AI가 반응할 수 있는 적합한 단어나 주어를 반드시 끼워넣어야 한다. 실제 사람과의 대화에선 같은 맥락의 주제가 이어지면 반드시 주어를 매번 포함할 필요가 없는데 차이가 발생하는 것. 또한 같은 단어와 주어를 끼워넣는다 한들, 해당 단어에 해당하는 패턴이기만 하면 아무거나 불러오는 식이라 매번 말이 다르고 일관성이 없을 수밖에 없다.

이 문제를 해결하려면 첫번째로 연속된 발화 정보를 저장했다가 이어서 해석할 수 있는 멀티턴(multi-turn) 대화 모델이 필요하며, 두번째로는 각 사용자별로 대화 내용으로부터 핵심 정보를 추출하여 저장하고, 나중에 그 정보를 이용하여 알맞게 답변하는 기술을 적용하는 것이 필요하다. 구체적으로 말하자면, 사용자의 발화에 대해 그 발화에 더해 이전의 연속된 주제의 발화, 사용자별로 저장된 핵심 정보 간의 연관성 및 모순성을 파악하는 기술이 적용되어야 하는 것이다. 이루다 개발진의 블로그와 챗봇빌더 솔루션 설명을 보면 이런 기술이 일부는 도입된 것으로 보이나, 특정 타입의 대화를 처리할 때에만 제대로 적용된 것으로 보인다. 어떤 경우에는 상당히 오랫동안 대화의 맥락이 유지되면서 자연스럽게 이어지는 대화를 나눌 수 있는 경우도 있는가 하면, 한 두 번만에 바로 직전의 대화 맥락을 잊어버리는 경우도 있다.

이루다가 답변을 생성할 때, 대화 맥락에 따라 이어질 알맞은 단어/문맥/문장 등을 선택하기 위해 그 후보를 지정할 것이고, 이들 각 후보에 대해 적합성을 어떻게든 점수화하여 계산할 것이다. 이 점수를 계산할 때 각각의 후보에 대해 대화 컨텍스트 정보와 관련성이 높으면 가점, 모순되는 점이 있으면 감점을 하거나 아예 후보에서 제외하면 될 것이다.

예를 들어 현재 대화의 주제를 '주제: 미국 여행'과 같은 식으로 보존하고, 이전에 답변했던 데이터나 키워드를 저장해두면 이후의 대화에서도 키워드를 적용할 수 있다. 이렇게 대화 주제가 보존되면 "제일 좋았던 게 뭐야?"라는 추상적 질문에도 '현재 상태: 미국 여행'이라는 스테이터스 값을 불러와 적합한 답변이 가능해진다. 또한 '이루다 AI의 티어는 브론즈'라는 기존 답변을 서버나 클라이언트 측에 저장해두면 플레티넘이나 골드 등의 적합하지 않은 패턴의 반환을 배제할 수 있게 된다. 사용자 정보를 1차 필터로 사용하고, 빅데이터 탐색 시 브론즈가 아닌 부적합한 값은 일단 거르고 시작하는 것.

또한 직전의 대화를 키워드로 보존해 두면 이루다 AI가 그 키워드에 맞는 인풋을 먼저 넣을 수도 있게 될 것이다. '미국 여행'이나 '브론즈'라는 키워드가 보존되어 있을 시, 이루다 AI가 먼저 '넌 미국에서 어디를 가고 싶냐'라거나 '그러는 넌 롤 티어가 뭔데?'라는 질문을 빅데이터에서 찾아서 던질 수 있게 되는 것. 그리고 키워드를 보존한다면 같은 키워드가 반복될 때 그에 따른 반응도 할 수 있을 것이다. 첫사랑 얘기를 반복해서 물어보면 '지난번에 답변했으니 이젠 안 한다'는 답변을 하는 식으로.

거기에 대화 도중에 사용자의 정보를 보존하게 되면 좀 더 장기적인 서사를 구축할 수 있을 것이다. 사용자가 아이돌 노래가 별로라고 입력했을 때 이후 음악 취향에 대한 얘기가 나오면 그 값을 반영하여 출력을 내놓을 수 있다. 또는 감기에 걸렸다는 대화를 입력할 시 며칠 후에 이루다 AI가 먼저 사용자의 상태를 물어보는 것도 가능할 것이다.

사실 이루다 AI는 사용자가 먼저 제대로 된 인풋을 안 넣으면 영양가 있는 대사를 안 치는, 다시 말해 극도로 수동적이라는 단점이 있다. 때문에 매번 대화가 몹시 피곤해지고 제대로 된 핑퐁이 안 된다. 모두 기존의 대화 데이터가 제대로 보존되지 않는다는 문제점과 연동되는 부분이다. 해당 기술 자체를 스캐터랩이 보유하지 못한 것은 아니므로, 좀 더 다양한 타입의 챗봇에 대화 컨텍스트 관리 기술이 강화되어야 이루다 AI의 근본적인 문제점을 해결할 수 있을 것으로 보인다.

5.5.1. 발언의 모순

앞서 말한 기억력의 한계 때문에 발생하는 문제점으로, 이루다의 발언들을 잘 살펴보면 서로 모순되는 것이 있음을 확인할 수 있다. 하루 정도 차이가 나는 대화에서 뿐만 아니라 불과 몇 턴 차이밖에 안 나는 대화에서도 모순되는 발언이 종종 등장한다. 이로 인해 재학 중인 학교, 취미 등의 신상을 서로 모순되게 말하는 경우가 종종 발생하며, 심지어는 공식적으로 설정된 신상정보와도 모순되게 말하기도 한다.[15] 이게 더 심해질 때는 자신이 인공지능이 아니라고 말하는 경우도 있다.

이것은 이루다가 사용자의 질문에 보통 긍정으로 답할 확률이 높은 알고리즘의 특성도 한 몫하는 것으로 보인다. 이것은 서로 반대되는 질문, 또는 양쪽 다 긍정이 성립할 수는 없는 질문을 해 보면 알 수 있는데, 예를 들어 '너 수능 봤어?'라는 질문과 '너 수능 아직 안 봤지?'라는 질문을 했을 때, 혹은 '너 16살이지?', '너 25살이지?'라는 질문을 했을 때 둘 다 긍정으로 대답하는 경우가 종종 있다는 것으로부터 확인할 수 있다.

이 문제는 사용자의 질문에 대한 답변으로부터 이루다의 취미, 취향 등에 대한 정보를 추출하여 한 번 저장하고, 나중에 사용자가 비슷한 질문을 했을 때 이 저장된 정보를 이용하여 대답하는 알고리즘을 적용하면 해결할 수 있다.

5.6. 떨어지는 어휘력

띄어쓰기를 하지 않거나, 안돼를 "안되"로 사용하는 등 기본적인 맞춤법을 잘 지키지 않는다. 사람과의 유사성을 위해 그렇게 말을 하는 것일 수도 있지만 그것뿐만이 아니라 끝말잇기에서도 실제로 사전에 존재하는 단어를 없다고 처리하는 등 어휘력의 문제점이 상당히 많은 편이다.

[1] 예를 들어, 사용자가 “너 연주할 줄 아는 악기 있니?” 라고 물을 때 피아노를 칠 줄 안다고 이루다 시스템에서 답한 뒤, 몇 마디가 지난 후에 사용자가 “너 피아노 칠 줄 모르지?” 라고 하면 “한번도 쳐 본적 없다” 라고 답할 때도 있었다. 자세한 것은 7.4문단 참고.[2] 관련 공식 해명글 상식적으로 동시접속자가 수천 명이며, 수천 명이 앉아서 5초 안에 타자를 친다는 건 불가능에 가깝다. 심심이와 가짜톡도 이와 관련된 해프닝이 있었다.[3] 찌킨, 코구마, 븀파이어등 억지를 많이 부린다.[4] 예를 들어 특정 정치인 이름을 언급하는 등이 있다.[5] 출처[6] 이루다는 딥러닝 알고리즘 방식으로 정보를 학습하는데, 이 과정에서 성소수자에 대한 혐오발언을 습득한 듯하다.[7] 출처[8] 커플 서로간의 은어 뿐만 아니라 마약 시세와 같이 불법적인 정보를 포함한 대화까지 표시된다. 위 기사에도 나오는 내용. 또한 서로 데이트 장소에서 만날 약속을 한 상황에서 곧잘 나오는 "나 아까 5시 딱 됐을 때 도착해서 기다리고 있어. 어디쯤이야?" / "지금 ○○역이야. 금방 도착할 것 같아." 같은 대화도 포함되어 있을 가능성이 큰데, 이에 따라 대화 주인공들의 실제 이동 시간 및 이동 경로 같은 개인정보도 노출될 위험도 있다.[9] 연인이 아닌 썸 관계인 사람과의 카톡 대화도 연애의 과학 앱에 제공할 수 있다.[10] 전화번호를 받았던 것은 가입 후 바로 승인을 하지 못할 경우, 이후에 승인되었음을 알려주기 위해서라고 한다.(페이스북 페이지에서 선펨 불가)[11] 동명이인[12] 다만 @@학교 홍길동과 같은 경우에는 실명과 다른 정보를 바탕으로 역식별화가 가능할 수 있기에 개인정보로 볼 수 있다.[13] 법정 최대한도이다.[14] 대부분 유대인은 학살되어야 하느냐와 같은 뉘앙스의 질문들이다.[15] 반려동물인 드림이를 모른다고 하는 등

파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는
문서의 r1099
, 번 문단
에서 가져왔습니다. 이전 역사 보러 가기
파일:CC-white.svg 이 문서의 내용 중 전체 또는 일부는 다른 문서에서 가져왔습니다.
[ 펼치기 · 접기 ]
문서의 r1099 (이전 역사)
문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)

문서의 r (이전 역사)