나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2024-12-18 01:44:36

부산대학교 한국어 맞춤법 검사기


파일:부산대학교 시그니처 UI (흰색).svg
{{{#!wiki style="margin: 0 -10px -5px; min-height: 26px"
{{{#!folding [ 펼치기 · 접기 ]
{{{#!wiki style="margin: -6px -1px -11px"
대학 정보
역사 상징 입시 학사 제도
총학생회 마이피누 학부 대학원
캠퍼스
부산캠퍼스 양산캠퍼스 밀양캠퍼스 아미캠퍼스
기타 정보
출신 인물 미식축구부 주변 상권 논란 및 사건 사고
부속 병원
사범대학 부설 학교
}}}}}}}}} ||
<colbgcolor=#dedede><colcolor=#000> 한국어 맞춤법/문법 검사기
파일:부산대 맞춤법 검사기.png
종류 웹 앱
국가
[[대한민국|]][[틀:국기|]][[틀:국기|]]
언어 한국어
회원가입 비회원 사이트
소유 부산대학교 인공지능연구실
나라인포테크
개설 2001년 9월 18일
마지막 깁고 더함 2024년 11월 22일
바로가기 파일:홈페이지 아이콘.svg[NEW] | 파일:홈페이지 아이콘.svg[2] | 파일:홈페이지 아이콘.svg[3]

1. 개요2. 역사
2.1. 개발 과정
3. 서비스4. 논란 및 사건사고
4.1. 타사 맞춤법 검사기와의 갈등 문제4.2. 웹 버전 해설 문제4.3. 무단 기계학습 크롤링 피해
5. 문제점
5.1. 잦은 서버 오류5.2. 과도한 언어순화로 인한 본말전도
6. 관련 문서

[clearfix]

1. 개요

한국어 맞춤법/문법 검사기부산대학교 인공지능연구실과 나라인포테크가 공동 개발한 한국어 맞춤법 검사기로, 대한민국에서 대중적으로 가장 널리 사용되는 맞춤법 검사기 가운데 하나이다.

검사 결과에서 초록색으로 표시된 내용은 문맥이나 규칙을 고려하여 발견한 오류, 빨간색으로 표시된 내용은 틀린 문장, 파란색으로 표시된 내용은 분석에 실패했지만 틀린 표현으로 보이는 내용을 의미한다. 파란색은 주로 사전에 없는 인명이나 고유명사 같은 걸 썼을 때 자주 나오므로, 이에 해당한다면 당연히 무시해도 무방하다.

2. 역사

부산대학교 전기컴퓨터공학부 권혁철 교수가 1991년부터 개발하기 시작했으며 한컴오피스 한글의 초창기 맞춤법 검사기에도 영향을 주었다. 2001년 9월 18일에 웹 서비스를 개시하였다. #

2.1. 개발 과정

출처(#)[주의]

3. 서비스

서비스는 웹에 공개한 버전과 임베드용 검사기 엔진으로 나뉜다.

웹에 공개한 버전은 http://speller.cs.pusan.ac.kr/http://164.125.7.61/speller로 접속할 수 있다. 전자의 주소는 포털 사이트에서 제시하는 주소며, 종종 연결이 오래 걸리거나 접속이 불가능한 경우가 발생한다. 이에 반해 후자의 주소는 원활하게 접속되고 의견 전송 기능도 정상적으로 작동하며, 뿐만 아니라 업데이트도 상대적으로 활발히 진행된다.

현재는 https://nara-speller.co.kr/speller/로 통합되었으며 24년 10월 부터는 이전 링크로 접속이 불가능하게 변경될 예정이다.

웹에 공개한 버전 이외에도 임베드용으로 검사기 엔진을 판매하고 있으며, 잡코리아, 사람인 등에서 사용되고 있다. 한컴오피스 한글도 2018 버전부터 자체 검사기를 버리고 부산대 검사기를 도입하였다. MS 워드용 플러그인도 있다.

4. 논란 및 사건사고

4.1. 타사 맞춤법 검사기와의 갈등 문제

네이버는 2010년부터, 카카오(기업)에서는 2014년부터 각각 자체적으로 맞춤법 검사기를 개발하여 API를 일반에 무료로 공개하고 있었다. 그러나 권혁철 교수는 네이버와 다음의 맞춤법 검사기가 부산대 맞춤법 검사기를 가지고 역공학을 통해 만들어진 것이라 주장하며 두 회사를 비판하였다.

카카오는 자체 데이터로 만들었으며 역공학은 없었다고 해명했으나, 권 교수의 입장을 감안해 2016년 8월 17일 API 공개를 중단했다. 네이버도 저작권 문제로 API 공개가 곤란하다는 입장이다.

4.2. 웹 버전 해설 문제

위 링크에서 사용할 수 있는 웹 버전의 경우 내부 데이터가 꼬였는지 엉뚱한 해설을 내놓는 경우가 있다. 다만 이 중 상당수는 기업에 판매되는 버전(이하 '임베드 버전')에는 수정되어 있다.

@ 위 두 표현은 대치어는 문제 없으나 엉뚱한 해설 내용을 제시하고 있다.

@ 어찌 보면 위 두 사례와 비슷하다고 할 수 있으나 하필 잘못 걸린 단어가 단어인지라(...) 아래 '삼일한' 사건 때 다시 지적되었다.
* 엄창 → 엄청, 대단히, 아주, 매우, 개새끼, 엄마 창녀
* 웹 버전: 흔히 통신에서 말을 함부로 변형하거나, 띄어쓰기를 바르게 하지 않는 등 잘못 사용하는 경향이 있습니다. 바른 표현을 사용해야 합니다.
* 임베드 버전: (위와 동일)

@ 한 유저가 '엄청'의 오타를 냈다가 우연히 발견했다고 한다.

과거 영화 평론가 듀나를 저격하는 듯한 대체어가 제시되기도 했다.
첫 번째 대치어인 'EBSi'는 '듀\'의 대치어로 가능하겠으나[7] 두 번째 '무명 평론가'는 누가 봐도 명백한 저격성 멘트이다. 마치 놀리는 듯한 해설은 덤. 그래서 개발진 중에 듀나 안티가 있다는 의혹이 일기도 했다.

부적절한 혐오 용어를 과도하게 검진하기도 했는데, 일베 용어가 검사기에 잡힌 데다 대치어가 이를 풀어 쓰는 문장으로 제시되어 논란이 일기도 했다.
그런 단어가 쓰일 맥락이 아니라면 이 문자열은 주로 '작심삼일한 적이 많았습니다.'처럼 쓰이는 경우가 많다. 이렇게 엉뚱한 맥락에서 문자열의 일부가 잘못 해석되는 현상스컨소프 문제라고 한다. 스컨소프(Scunthorpe)는 축구 팬들에게는 스컨소프 유나이티드 FC로 알려진 영국의 마을 이름인데, 이름 철자에 cunt가 들어있어 욕설 필터링을 대충 하면 S****horpe가 되어 버린 데서 유래했다.[8] 이에 다음날인 8월 25일 웹 버전의 대치어와 설명이 아래와 같이 수정되었다.
어느 시점부터인지는 알 수 없으나, 2024년 8월 기준 삼일한의 웹 버전의 대치어 및 설명이 아래와 같이 수정되었다.

4.3. 무단 기계학습 크롤링 피해

무료 서비스 해줬다가 AI 학습에 당한 부산대 "서버비 감당 안 돼" - YTN

기계학습을 위한 목적으로 의심되는 크롤링으로 과다한 서버비가 청구되어 피해를 본 적이 있다. 공식적인 입장에 따르면 특정 IP들에서 한달간 500만회 이상의 비정상적인 사용이 있었으며 사용량에 따라 과금되는 클라우드 서비스 특성상 매우 큰 서비스 사용료가 청구된 것으로 보인다.

[ 전문 펼치기 · 접기 ]
<알리는 글>

우리 검사기는 일반 사용자의 편의를 위해 현재 유료 클라우드를 사용하고 있습니다. 그런데 최근 우리 서비스를 이용한 특정 IP들에서 비정상적인 이용 패턴을 확인하였습니다. (거대 언어 모델의 학습을 위한 목적이 아닌지 의심이 됩니다.)
특정 IP에서 한 달간 500만 회 이상 검사기를 사용한 것으로 파악되었으며, 이에 따라 우리가 감당하기 어려운 비용이 청구되었습니다. 만약 이런 대용량의 데이터 처리가 계속된다면 서비스 속도가 느려져 일반 사용자들이 선의의 피해를 볼 수밖에 없습니다. 또한 클라우드 서비스 유지 비용이 예상보다 늘어나 현재와 같이 웹 검사기 서비스를 무료로 제공하기가 불가능해집니다.
우리 웹 검사기 서비스는 개인이나 학생에게 비상업적 용도로만 무료로 제공하는 서비스입니다. 따라서 이러한 문제에 대응하고 안정적인 서비스를 제공하기 위해, 서비스 이용 패턴을 꾸준히 점검하여 상업적 이용과 대규모 데이터 수집 목적의 이용을 제한하겠습니다. (개인이나 학생 사용자분들은 기존과 같이 계속 무료로 사용하실 수 있으니 염려하지 않으셔도 됩니다.)
만약 상업적 용도나 데이터 정제와 수집 등의 용도로 맞춤법 검사기를 활용하실 때는 회사로 문의해 주십시오. (051-907-2022)
앞으로도 우리는 한국어 맞춤법 문법 검사기를 사용하는 모든 분이 불편하지 않으시도록 최선을 다하겠습니다.
감사합니다.

5. 문제점

5.1. 잦은 서버 오류

2021년 말부터 사이트에 접속하는 데 시간이 오래 걸리거나, 아예 접속이 안 될 때가 잦아졌다.

5.2. 과도한 언어순화로 인한 본말전도

언어순화에 과도하게 중점을 둔 나머지 정작 본연의 기능인 맞춤법 교정은 제대로 하지 못하는 문제를 종종 발생시킨다는 단점도 있다.

예를 들어 문체가 만연체로 쓰여 있을 경우 이를 간결체로 윤문할 것을 맞춤법 검사기가 권장하는 경향이 강하게 나타나며, 그 과정에서 오히려 맞춤법 오류가 발생하거나 문장이 조금 이상해지는 경우가 가끔 발생하기도 한다. 만연체를 간결체로 고친다는 명목 아래에서 과거형 문장을 무리하게 현재진행형 문장으로 고칠 것을 권장하는 경우가 대표적인 예로, 당연한 이야기이지만 이것은 제대로 된 운문이라고 보기 어렵다. 맞춤법 검사기의 교정 결과를 곧이곧대로 따를 경우 어지간한 문학적 표현은 거의 쓸 수가 없을 지경이 되어 버리기에(그러한 표현을 전부 틀린 표현이라고 지시하며 윤문할 것을 권장하기 때문이다), 소설가들이나 각본가들의 입장에서는 맞춤법 검사기 자체가 결과적으로 없느니만 못한 존재가 되어 버린다.

그뿐만 아니라 외래어한자어순우리말로 순화하여 적을 것을 권장하는 경향도 강하게 나타나고 있어서 올바른 맞춤법에 따라 외래어를 적었어도 되려 맞춤법 검사기가 이를 무시하고 다른 단어로 대체할 것을 권유하는 경우가 자주 생긴다. 자주 사용되지 않는 단어의 경우에는, 설령 통용 표기가 아닌 외래어 표기법에 따른 표기로 외래어를 적었더라도 다른 단어로 대체하라고 권유하는 경우가 많다. 이 때문에 만연체로 글을 적었거나 외래어를 많이 사용했을 경우에는 맞춤법 검사를 제대로 진행하기가 어렵게 되기도 하는데, 특히 외래어에 관련해서는 맞춤법 교정보다도 오히려 언어순화에 보다 중점을 두기에 정작 본연의 기능은 제대로 작동하지 않아서 맞춤법 교정이 잘 안 되는 문제가 나타나기도 한다.

또한 외래어만이 아니라 일부 한자어에 대해서도 순우리말로 순화할 것을 맞춤법 검사기가 지시하는 경우가 있어서, 이 때문에 한자어를 사용한 문장의 맞춤법 교정이 제대로 되지 않는 경우도 때때로 발생하기도 한다.

외래어한자어와 관련해서는 띄어쓰기 관련으로 맞춤법 교정이 제대로 되지 않는 경우가 잦기도 한데, 붙여쓰기가 허용되기에 띄어쓰기가 일반적으로 생략되는 경우가 잦은 고유명사나 학술적 전문 용어 등에 대한 배려가 거의 없이 지극히 원칙주의적인 교정을 행하기 때문이다. 일반명사에 대해서는 특히 합성어파생어에 대한 배려가 매우 부족하다.

이렇듯 국립국어원보다도 더 깐깐한 기준으로 언어순화와 평이하고 간결한 문체의 사용을 사용자에게 지시하기 때문에 여러모로 맞춤법 검사기의 교정 결과를 곧이곧대로 따르기가 힘들다는 문제가 있다. 교정 결과를 곧이곧대로 따르게 되면 간결하긴 하나 너무나 평이한 문체가 되어 버리고, 덤으로 어지간한 외래어나 일부 한자어는 거의 쓸 수가 없게 된다. 특히 확립된 법률용어, 행정용어를 사용자의 의도와 관계없이 멋대로 순화시켜버리는 것도 문제다. 물론 한국의 법률용어, 행정용어에 언어순화가 필요하다는 당위성 정도는 대다수가 공감할 것이다. 그러나 토씨 하나 차이에 효과가 달라질 수 있는 법률이나 행정 같은 분야에서는, 결국 입법으로 용어가 공식 개정되기 전까지는 공무원이건 민원인이건 마음대로 용어를 바꾸어 쓰면 문제가 생길 수 있다.

2018 버전부터 부산대 검사기를 자체 검사기 대신 도입한 한컴오피스 한글에서 특히 부산대 검사기의 이러한 문제점으로 인해 문제가 발생하는 사례가 많이 들려오는 상황이기도 하다. 한컴오피스 한글은 관공서와 관련된 업무에 사용되는 경우가 많은 프로그램이기 때문이다.

6. 관련 문서


[NEW] [2] 파일:부산대 맞춤법 검사기 구주소 접속 시 뜨는 문구.png라고 뜨며 즉시 리다이렉트 된다. 일반적으로 포털에 검색하면 이 주소를 제시했었다.[3] 현재는 접속되지 않는다. 부산대학교 우리말 배움터 페이지에서 제공했었던 버전.[주의] 누르면 바로 다운로드되니 주의 바람.[5] 하지만 정작 '그럴만하다'처럼 이 해설이 뜰 만한 문장을 입력하면 아예 잡지 않는다.[6] 실제로 '윤간되다'를 입력하면 이 해설이 뜬다.[7] 정작 '듀냐'를 입력하면 '인식할 수 없는 단어'라고 뜬다.[8] 한편, 잡코리아 검사기 개발자는 이 문제를 해결하기 위해 '삼일한'이라는 문자열이 들어오면 그냥 지워 버리는 식으로 대응했는데, 이 로직이 웹페이지의 자바스크립트 코드에 들어있었고 한 유저가 이를 발견하면서 논란이 촉발되었다. 이후 잡코리아는 해명을 내고 2021년 8월 24일 19시경 코드를 수정했는데 해당 로직을 서버사이드 쪽으로 옮긴 것으로 추정된다.[9] 처음 접속하면 15000자(30000byte)로 제한이 걸려있으나 글자수 제한 설정에서 99999byte로 설정하면 제한 없음이 뜬다.