나무모에 미러 (일반/밝은 화면)
최근 수정 시각 : 2024-09-08 22:45:03

내용 분석


1. 개요2. 역사와 목적3. 방법
3.1. 양적 내용분석3.2. 질적 내용분석
4. 내용분석의 확장5. 의의와 한계, 유의점6. 같이 보기


內容分析
Content analysis

1. 개요

사회적 소통의 내용(content)을 체계적으로 검토하여 의미를 도출하는 양적 혹은 질적인 분석 방법.

사회과학 현장에서 '내용' 을 분석해야 할 경우에 쓰이는 분석방법으로, 한쪽 끝으로는 담론 분석(discourse analysis)과도 맞닿아 있으며, 반대쪽 끝으로는 데이터 마이닝(data mining)이나 빅데이터 분석 같은 4차 산업혁명의 최전선과도 맞닿아 있는 광범위한 방법론이기도 하다. 일상적인 수준에서도 내용분석이 적용될 수 있는 연구주제는 많다. 왜 이 드라마는 저 드라마보다 더 언어폭력이 심하다는 심의 결과가 나왔을까? 이 대통령이 저 대통령보다 더 자화자찬을 많이 하는 게 사실일까? 이혼의 위기에 처한 부부 간의 대화는 서로 건강하게 다투는 부부 간의 대화와 무엇이 다를까? 경제가 어려워질수록 TV예능 속에서 먹방 장면들이 더 많아진다고 볼 수 있을까? 황금시간대 광고 중에서 선정적인 장면을 포함하는 광고들은 총 몇 퍼센트일까?

윤영민(2019)[1]은 내용분석을 "명백한 미디어·커뮤니케이션 콘텐츠에 대한 객관적, 체계적, 수량적, 재연 가능한 연구 방법"(p.8)이라고 정의하고 있다. 분석의 대상이 되는 것은 명백한(manifest) 내용이며, 이를 통해 내포된(latent) 의미를 이끌어낸다는 것이다. 또한 윤영민(2019)은 Kerlinger(2000)[2]의 문헌과 마찬가지로 내용분석이 객관적이고 체계적이며 정량적인 것이라고 이해하면서 추가로 재현성을 들고 있다. 물론 하술할 질적 내용분석처럼 내용분석이 반드시 정량적일 필요는 없으나, 이는 내용분석에 관련된 많은 교재들이 양적 혹은 질적 접근 중 하나만을 배타적으로 다루고 있음을 보여준다.

최성호 등(2016)[3]은 내용분석이 텍스트의 의미를 체계적으로 추론할 수만 있다면 양적이냐 질적이냐를 구분하는 것은 무의미하다고 본다. 이들은 서로가 서로를 보완하는 방식이라고 이해하는 균형 있는 방법론적 시각이 필요하다고 요청한다. 현실적으로 많은 질적 연구자들은 양적 내용분석을 '전후맥락을 고려하지 않는 단순한 빈도분석일 뿐' 이라고 비판하는 경향이 있으며, 반대로 많은 양적 연구자들은 질적 내용분석에 대해서 '주먹구구식이고 비체계적인 해석' 이라고 비판한다는 것이다. 편의상 본 문서에서도 두 접근방법을 나누기는 하였으나, 내용분석의 지향점은 두 방법을 융합하는 데 있다.

Skalski 등(2017)[4]은 현대 들어 뉴 미디어의 범람과 함께 점점 유사 내용분석이 많아지고 있다고 진단한다. 예를 들어 구글 트렌드를 활용하는 것은 빈도분석의 형태를 띠는 내용분석과도 유사하며, 특히 트위터 트렌드나 실시간 검색어, 인기 검색어 등의 기능을 활용하는 것도 광범위한 내용분석일 수 있다. 또는 위에서도 언급했던 빅데이터 분석을 비정형 데이터(unstructured data)에 적용할 수도 있고, 심지어는 특허 등록된 기업 로고 디자인의 변화 양상을 연구하는 경우도 있다. 이런 것들이 내용분석인 것과 아닌 것의 경계를 점차 흐릿하게 한다는 것이다.

콜로라도 주립대학교설명에 따르면, 내용분석은 내용 자체가 존재함에 관심을 갖는 개념적 분석(conceptual analysis)과, 그 내용들 간의 관계에 관심을 갖는 관계적 분석(relational analysis)의 두 종류로 나누어질 수 있다. 이것은 상기 양적 내용분석과 질적 내용분석의 구분법에 곧바로 대응되는 것은 아니다. 일례로 관계적 분석은 언뜻 질적인 것처럼 보이지만, CSU에서 설명하는 내용으로 미루어 보면 그보다는 텍스트 분석(text analysis)의 성격을 갖는 것으로 보인다.

내용분석은 언론학 또는 신문방송학이라고도 알려져 있는 커뮤니케이션학에서 가장 논의가 깊게 이루어졌으며 권위 있는 교과서들도 이쪽에서 주로 나오고 있다. 물론 정치학이나 심리학, 사회학, 보건학, 상담학, 교육학, 사회복지학, 경영학, 정책학 같은 다른 사회과학 분야들이나 심지어는 비평계에서도 종종 쓰이기는 하지만, 커뮤니케이션학이야말로 내용분석의 터줏대감이라 할 수 있다. Lovejoy 등(2014)[5]은 1985~2010년 사이의 커뮤니케이션학 주요 학술지들에서 전체 게재논문의 23%가 내용분석을 활용했다고 보고했다. 윤영민(2019)의 문헌에서도 이 분야 최대 학술지인 JMCQ(Journalism and Mass Communication Querterly)를 기준으로 할 때 내용분석 활용 논문의 비중은 계속 증가 추세라고 하였으며, 국내에서도 2017년경 빅데이터가 소개되기 전까지는 내용분석을 활용한 논문의 게재가 늘고 있었다고 하였다.

학계 밖에서도 내용분석은 큰 관심을 얻고 있다. 구글은 엔그램 뷰어(Ngram Viewer) 서비스를 통해 전세계 출판문헌들의 내용을 데이터화했는데, 이는 연구자들뿐만 아니라 일반인들에게도 내용분석의 접근성을 크게 높였다. 빅카인즈는 국내 언론사 보도내용들을 모두 데이터화하는 서비스로, 기본적인 내용분석에 더하여 워드 클라우드(word cloud), 의미망(semantic network)까지도 자동으로 만들어서 제공한다. 무엇보다도 내용분석은 데이터 마이닝 기술과 결합되면서 뉴 미디어 시대 마케팅 수단으로 자리잡고 있다. 대표적으로 감성분석(sentiment analysis)이 있는데, 이것은 SNS 상에서 온라인 마케팅을 할 경우 소비자들의 자사 제품 리뷰를 긍정적 혹은 부정적으로 나누어서 분석하는 것으로, 내용분석이 바이럴한 측면을 분석하기에 적합한 도구가 될 수 있음을 보여준다.

2. 역사와 목적

내용분석의 첫 시초는 문헌마다 제각각이다. 가장 오래 전까지 거슬러 올라가는 경우에는 근세 즈음까지 가기도 하고, 수도원이나 인쇄소 등에서 필사본 또는 인쇄물을 검토하던 것을 내용분석의 효시로 거론하기도 한다. 하지만 현대적으로 정립된 연구방법론으로서의 내용분석의 역사는 간신히 백여 년 정도 되었을 따름이다.

모두가 동의하는 것은 내용분석의 본격적인 출발이 양적 텍스트 분석방법에서 시작되었다는 것이다.[6] 1920년대에는 미국 커뮤니케이션학 연구의 여명기라고 할 수 있었는데, 이때 신문과 잡지의 보급이 크게 이루어지다 보니 미디어 속 텍스트에 담긴 정보가 어떻게 나타나는지를 확인할 필요가 있었다는 것이다. 윤영민(2019) 역시 1929~1932년에 수행된 페인 펀드(Payne Fund) 연구를 내용분석의 시작으로 거론한다. 이때 크게 확산된 영화라는 문화 콘텐츠가 어린이들에게 자칫 부정적 영향을 끼칠 수 있다는 사회적 우려가 나타났고 이에 영화의 장르, 주제, 인물 묘사, 줄거리 등을 코딩하는 현대적 연구 활동이 나타났다는 것이다.

20세기 초는 그 이외의 이유로도 내용분석이 출현할 수밖에 없는 환경이었다는 문헌도 있다. Wimmer & Dominick(2013)[7]에서는 내용분석이 여러 사회과학적 분석방법들과 마찬가지로 세계대전의 영향을 받아 크게 발전하였다고 지적한다. 2차대전 당시 커뮤니케이션학 역시 군사학의 한 형태로서 활용되었으며, 추축국들의 방송 내용을 분석함으로써 적 군대의 이동경로를 추적하는 데 쓰였다는 것이다. 적들의 방송국들이 송출하는 프로파간다 내용을 감청해서 아군의 전략을 수립하는 것이 이미 하나의 내용분석이 되는 것이다.

학문의 세계에 내용분석이 받아들여진 것은 그보다 조금 이후였다. 최성호 등(2016)은 'content analysis' 라는 단어가 처음으로 등장한 것은 1941년영국에서였다고 확인하고 있다. 학계의 대중매체 연구에서 처음으로 내용분석이 의미 있게 도입된 사례는 1952년의 《Content Analysis in Communication Research》[8]에서였으며, 이후 내용분석은 점점 그 입지를 넓혀 갔다. 1958년에는 처음으로 컴퓨터(계산장치)가 활용된 내용분석이 시도되었고, 1967년에는 내용분석만을 다루는 첫 학회가 설립되었다고 한다. 그러나 CSU에 따르면 초기에는 천공 카드로 코딩된 데이터를 빈도분석하는 데 그쳤으며 그나마도 소규모 데이터만 소화할 수 있었고 실수가 발생하기도 쉬웠다고 한다. 아무튼 기술은 발전을 거듭하여, 내용분석을 위해 개발된 첫 질적 분석 소프트웨어1991년의 아틀라스티(ATLAS.ti)였다고 한다.

내용분석의 가장 일반적인 목적은 소통되는 내용을 기술하고 그 의미를 해설하는 것이다. 윤영민(2019) 및 Wimmer & Dominick(2013)은 이러한 기술적(descriptive)인 분석을 가장 전통적인 것으로 소개하고 있다. 여기서는 각 내용들을 선행문헌이나 이론적 조망 혹은 코더 간에 협의한 기준에 따라 범주화(categorized)된[9] 방식으로 코딩하여, 각각의 분류된 내용들의 비율을 비교하거나 그 종단적 변화를 검토한다. 한 예를 들자면 슬래셔 장르 영화에서 묘사되는 폭력을 유형별로 분류하는 것 등이 있다.

두 문헌뿐 아니라 최성호 등(2016)에서도 거론하는 다른 중요한 목적으로, 변인 간 관계를 진술하는 가설을 검증하는 것이 있다. 특히 이것은 양적 내용분석에서 두드러지며, 내용분석은 그 자체로 분석방법인 것이 아니라 단순히 빈도분석을 위한 코딩의 기술이 될 수 있다. 가설검증을 위한 내용분석은 흔히 "출처 A와 출처 B 사이에서 송출되는 메시지 사이에는 내용적 차이가 있을 것이다" 같은 가설에서 활용된다. 대표적인 예로 헤비메탈블루스 사이에는 "죽여라" 메시지의 빈도에 얼마나 차이가 있는지를 살펴볼 수 있다. 좀 더 현대적으로는 방탄소년단이 어째서 서구 여성들에게 호응을 받았는지를 노래가사 메시지의 차이에서 설명하는 것도 가능할 것이다. 즉, 방탄소년단의 메시지는 기존 서구권 남성 팝스타들의 메시지와는 내용적인 '차이' 가 존재한다는 가설이다.

내용분석 문헌들에서 공통적으로 언급하는 목적 중에 그 내용이 소통되는 맥락과 현실을 검토하는 것이 있다. 모든 내용들은 그것이 생산될 때 시대적 맥락의 영향을 받으며, 소비될 때에도 맥락으로부터 자유롭지 못하다. 내용의 조류를 분석하면 그 시대만이 갖는 가치관이나 유행이 드러나 보일 수 있다. 물론 반대로 현실과 괴리된 내용이 무엇인지도 판단할 수 있다. 내용이 항상 현실의 부조리를 투명하게 반영하지는 않으며, 가장 대표적인 사례가 바로 조폭미화물이다. 또한 영화 속 등장인물들의 인종 비율이 그 장르적 배경에 어울리는 비율인지에 대한 내용분석도 밀접한 관련이 있다. 더 나아가면 이러한 내용의 확산이 당시 사회에게 어떤 영향을 주고받는지 같은 주제도 중요한 연구주제이며, 사회적 소수자들의 매체 노출빈도 및 묘사방식을 연구할 경우 사회 정의를 위한 비판적(critical) 공헌을 할 수 있다. 유명한 예로는 레즈비언들이 각종 매체에서 애연가로 등장하며 불행한 최후를 맞이한다는 클리셰가 있다.

Wimmer & Dominick(2013) 및 이도영(2016)[10]은 본격적인 미디어 연구를 하기 위한 사전 선행연구의 의미로 내용분석을 제안하기도 한다. 특히 전자의 문헌은 본조사가 미디어 수용자 연구일 경우에 적합하다고 설명하며, 후자의 문헌은 질문지법으로 본조사를 실시할 경우에 선행문헌 검토의 기초적 근거가 될 수 있다고 설명한다. 그러나 이때 내용분석은 단순히 요약(summary)의 의미만을 갖지는 않는다. 여기서도 내용분석은 여전히 체계성을 갖고 텍스트를 가공 및 해석하는 활동이어야 한다. 단지 그 목표가 주어진 연구문제를 해결하는 밑작업이 되어야 할 뿐이다.

3. 방법

3.1. 양적 내용분석

Wimmer & Dominick(2013) 및 윤영민(2019), Glaser & Laudel(2012)에서는 양적 내용분석의 구체적인 절차를 논의하고 있는데, 그 순서를 통합하여 단순하게 말하자면 ① 분석에 필요한 단위(unit)와 개념(concept)들을 명확하게 정의하고 연구문제를 도출하는 개념화 단계, ② 내용을 어떻게 분류하고 코딩할지 코더 간에 합의된 도식(scheme)을 만드는 분류체계 설계 단계, ③ 관사나 세미콜론 등의 문장부호를 제거하고 텍스트를 분할하는 데이터 탐색 단계, ④ 본격적으로 내용을 코딩하는 범주별 코딩 단계, 마지막으로 ⑤ 코딩 결과를 통계분석하고 의미를 해석하는 분석 및 해석 단계로 정리할 수 있다.

각 단계마다 문헌마다 강조하는 몇 가지 유의점들이 있다. 우선 내용분석은 다른 연구방법들과 달리 단위에 관련하여 매우 많은 혼동의 여지가 있어 주의가 필요하다. 즉 각 단위들이 서로 어긋남에도 불구하고 이 단위를 가지고 저 단위를 설명하려 할 수 있다는 것이다. 내용분석의 단위에 대하여 윤영민(2019)은 다음과 같이 정리하였다.

윤영민(2019)에 따르면, 특히 문제가 되는 것은 각 단위가 다른 단위들과 달라지게 되는 경우이다. 특히 기록단위와 표집단위, 분석단위가 전부 어긋나는 경우도 발생한다. 예컨대 분석단위는 신문사이고 표집단위는 신문기사인데 기록단위는 기사 속의 문장 하나하나가 될 수도 있다. 코딩을 하다 보면 여기서 혼동을 일으켜서 잘못된 분석이 이루어질 수 있다는 것이다. 더미표(dummy table)를 미리 제작하여 참조하는 것은 좋은 대안이 될 수 있다. 비슷한 맥락에서 Wimmer & Dominick(2013) 역시 분석단위의 모호성을 지적하고 있다. 위의 사례에서 분석단위가 신문사인 것은 그나마 나은 편에 속한다. 연구주제에 따라서는 분석단위가 '폭력적 형용사' 처럼 애매모호한 경우도 있다. 이럴 경우 코더들의 충분한 훈련과 합의가 없다면 코딩 과정에서 온갖 오해가 발생하게 된다.

문헌마다 소개하는 순서는 다 다르지만 표본의 표집 역시 내용분석에서는 특별한 주의의 대상이 된다. Wimmer & Dominick(2013)은 종단적 내용분석의 경우 약 12~14일 간격으로 층화추출법 혹은 판단추출법을 쓸 것을 권장하고 있다. 반면 체계추출법은 종종 부적절한 경우가 있는데, 대표적인 예로 매주 주말마다 특집호를 구성하는 간행물이 있다면 그 간행물을 주말마다 추출할 수는 없기 때문이다. 현실적으로 가장 많이 쓰이는 추출법은 판단추출법이며, 외신기사들을 분석하기 위해 언론사들을 무선표집하지 않고 간단히 NYT, WP, CNN 등을 선정하는 경우가 그 사례다. 한편 윤영민(2019)은 내용분석에서의 표집이 단위의 어긋남을 유발할 수 있으며 표집된 자료의 대표성과 연구적합성을 논하기 힘들다고 하였다. 내용분석으로 표집된 자료는 연구자가 아닌 제3자가 제3의 목적으로 생산한 자료이기 때문이라는 것.

분류체계를 어떻게 도출해야 할지에 대해서도 주의가 필요하다. Wimmer & Dominick(2013)은 분류체계를 선정하는 두 가지 방식이 있다고 하였다. 첫째는 좀 더 귀납적인 방식으로, 탐색적 분석을 통해서 맨땅에서부터 분류를 새롭게 도출하는 발현적 코딩(emergent coding)이다. 둘째는 좀 더 연역적인 방식으로, 기존에 존재하는 이론적 조망이나 선행연구에서 사용한 체계를 근거로 하여 분류체계를 가져오는 선험적 코딩(priori coding)이다. 그러나 어느 쪽을 택하든 간에, 중요한 것은 모든 분류가 상호배제성 규칙(exclusivity rule)과 망라성 규칙(exhaustivity rule)을 만족해야 한다고 하였다. 이것은 질문지법 연구에서도 문항의 각 보기들을 선정할 때 똑같이 통용되는 규칙이기도 하다.

본격적으로 코딩이 시작되었다 하더라도 여전히 유의해야 할 점들이 있다. 내용분석은 매우 심한 노가다(…)를 유발하기 때문에 일반적으로 2~3명, 혹은 그 이상의 코더들이 코딩을 수행하게 된다. 윤영민(2019)은 코딩 과정의 엄격성을 보장하기 위한 조치들을 제안하고 있다. 우선 ① 블라인드 코딩(blind coding)을 도입하여 각 코더들이 연구가설을 모르게 함으로써 코더 편향을 방지하는 것이 있다. 특히 여기서는 연구설계자 본인이 코딩에 참여하는 것을 금지하는데, 그 이유는 연구설계자가 코더 간에 공유되는 지침에 포함되지 않는 자기만의 지침을 갖고 있기에 상이한 기준을 적용하게 된다는 것이다. 또한 ② 코더 간의 논의와 협업을 통해 코딩의 질이 높아진다는 발상은 "결코 사실이 아니다"(p.171)라고 단언하는데, 결과의 재현성이 떨어지고 코더 간 권력관계가 발생하여 한쪽이 다른 쪽의 해석에 무조건 순응한다는 것이다. 마지막으로 ③ 유독 이질적인 코딩 패턴을 보이는 코더에 대해서는 코드북을 개선하거나 추가훈련을 진행해 보고, 그래도 안 되면 그 개인의 가치관의 문제이니 코딩작업에서 배제할 것을 권유하고 있다.

이에 더하여 윤영민(2019)은 코더 간 신뢰도(reliability)의 문제를 함께 지적한다. 사람을 여럿 쓴다는 것은 작업의 효율성을 높일 수는 있어도, 결국 사람마다 생각하는 것이 다르다 보니 똑같은 내용이라도 이 사람은 이쪽으로, 저 사람은 저쪽으로 분류해서 코딩하는 문제가 생긴다. 이 때문에 코더들이 서로 유사하게 코딩했다고 얼마나 신뢰할 수 있는지를 보여주는 것이 바로 코더 간 신뢰도이다. 이때 사용할 수 있는 가장 간단한 아이디어는, 전체 기록단위 중에 코더들이 서로 동일하게 응답한 단위의 비율인 단순동의율(percent agreement)이다. 그러나 간단한 신뢰도 계수일수록 여러 코더가 '우연히' 같은 쪽으로 코딩하게 되는 우연합치율을 보정할 수 없다는 문제가 있다. 코더 간 신뢰도에는 Holsti의 신뢰도 계수, Scott의 파이(π), Cohen의 카파(κ), Kendall의 타우(τ)-b, Pearson의 r, Krippendorff의 알파(α) 등 다양한 계수들이 있다. 인터넷에는 코더 간 신뢰도를 자동으로 계산해 주는 사이트들도 등장했다.

상단에서 CSU가 제안한 텍스트 관계성 분석의 경우에는 접근방식이 조금 다르다. 여기서는 각각의 개념들이 그 자체로는 분석상의 가치가 없으며, 분석을 통해 도출되는 의미는 개념 간의 관계에서 나온다고 전제한다. 이때의 분석단위는 여러 개념들 사이에 존재하는 관계의 강도(strength), 신호(sign), 방향(direction) 등이 되며, 이를 통해 서로 얼마나 강하게 관련되어 있는지, 관련성이 긍정적인지 혹은 부정적인지, 영향관계의 방향이 어느 쪽인지를 살펴본다. 관계가 있고 없고의 기준은 문자열 내에서 서로 위치해 있는 근접성(proximity)을 바탕으로 하므로, 각 문자를 중심으로 일정 범위를 형성하는 창(window) 내부에 상대방 문자가 들어와 있다면 관계가 있다고 볼 만큼 근접하다고 판정하는 것이다. 분석 결과는 마인드맵과 같은 인지적 관계도(cognitive mapping) 혹은 개념 매트릭스(concept matrix) 등의 의미망을 구성하게 된다. 이상의 논리는 일반적인 내용분석이라기보다는 텍스트 마이닝에 더 가깝다는 인상을 준다.

양적 내용분석은 전통적으로 많은 인기를 끌어 왔다. Glaser & Laudel(2012)은 미국에서 일반적으로 내용분석이라 하면 양적인 접근법을 떠올린다고 지적하였으며, 이후 데이터과학 분야와 접목되면서 컴퓨터 소프트웨어를 활용한 분석이 증가하고 있다고 하였다. Wimmer & Dominick(2013) 역시 한 문헌을 인용,[11] 양적 대중매체 연구의 25% 정도가 내용분석을 채택하고 있으며 90년대 주요 학술지에서도 가장 많은 비중을 차지하는 방법론이 내용분석이라고 확인하였다.

3.2. 질적 내용분석

그 인기에도 불구하고 상기된 양적 내용분석은 곧 방법론적 한계에 직면하게 되었고, 이런 식으로는 안 되겠다는 연구자들이 나타나기 시작했다. 양적 내용분석의 가장 대표적인 한계점은 동음이의어유의어를 제대로 처리할 수 없으며, 특히 하나의 텍스트가 다양한 의미를 포함할 수 있다는 점을 간과했다는 것이다. 텍스트의 의미는 전체적 맥락과 분리될 수 없으며, 텍스트를 맥락으로부터 떼어낼 경우 그 복합성이 축소된다. 흔한 예로, "잘 했다" 는 간단한 칭찬조차도 자녀가 100점짜리 시험지를 보여주는 맥락과 꽃병을 깨뜨린 맥락에서 서로 다른 의미를 갖는다. 최성호 등(2016)은 양적 내용분석이 단어가 갖는 함의보다는 단어의 출현 빈도에만 의미를 부여한다고 지적했다. 단어는 얼마든지 새로운 의미로 쓰일 수 있고, 비유와 은유가 동원될 수 있다. 아마도 이것은 인터넷 밈을 내용분석하는 데 취약할 수 있다. 극단적인 예로, "Never gonna give you up, never gonna let you down" 이라는 노랫말은 릭롤링이라는 맥락이 없던 시절에는 더할 나위 없는 헌신의 고백이 된다(…).

질적 내용분석은 필리프 마이링(P.Mayring)이라는 인물로부터 시작했다고 여겨진다. 1980년대 초에 그는 양적 내용분석의 기본 원칙을 가져와서 해석학, 문예학, 텍스트 비평론을 접목시켰는데, 당초에는 분류체계 설계 단계와 범주별 코딩 단계에서만 질적 접근을 채택하고 데이터 탐색 단계에서는 여전히 양적 접근을 유지하는 부분적 혼용에 머물렀다. 이에 대해 Glaser & Laudel(2012)은 이 정도로는 여전히 양적 내용분석이라고 보아야 한다고 비판했으며, 기존에 구성된 분류체계에 포함되지 않는 정보가 범주화되지 못하고 누락되는 폐쇄성을 지적하였다. 즉, 데이터 탐색 단계에서도 여전히 새로운 의미 정보가 발견될 수 있다는 것이다.

질적 내용분석의 수행 절차는 양적인 것과는 다소 다르다. Glaser & Laudel(2012)은 양적 내용분석이 '코딩' 한다면 질적 내용분석은 '추출' 한다고 의미의 차이를 정리했다. 물론 코딩이라는 활동이 아예 없는 것은 아니다. 하지만 코딩의 목표는 여러 내용들을 점차적으로 간소화, 추상화, 조직화, 서사화하는 데 있다. 분류체계가 만들어진다 해도 각각의 범주는 지속적이고 반복적인 코딩 과정에서 점차적으로 묶이게 되며, 특히 Elo & Kyngaes(2008)[12]에 따르면 이 과정은 귀납적인 분석일 때 더욱 그러하다. 한편 Krippendorff(2004)[13]는 간소화(reducing)가 재진술 및 요약의 차원이라면, 가추적 추론(abductively inferring)의 단계에서 연구자는 이로부터 맥락을 발견하고 각 요약들을 연결하게 되며, 서사화(narrating) 단계에서 최종적으로 타인이 이해할 수 있는 방식으로 표현하는 것이라고 하였다. White & Marsh(2006)[14]는 개념화의 변화 과정을 추적하기 위해 개념 메모(concept memo)를 작성하고, 이 변화가 이론에 비추어 어떤 관계를 갖는지를 이론 메모(theory memo)로 관리하라고 조언하였다.

질적 내용분석에서 코딩은 계속해서 반복되며 의미를 추출한다. Krippendorff(2004)는 질적 내용분석에서는 엄격한 절차에 입각한 순서가 없으며 모든 분석의 과정은 잠정적·조정적·순환적인 형태로 진행된다고 설명하였다. 이것은 양적 내용분석의 확정적·순차적·일방향적 방식과는 정반대의 면모이다. 분석의 결과로 인해 다양한 해석들이 도출될 수 있지만, 상호배타적인 것이 아니라 얼마든지 서로 병립이 가능하다. 단, 만족스럽지 못한 해석이 있다면 만족스러운 수준에 도달할 때까지 계속해서 재정의, 재맥락화, 재해석을 반복할 수 있다. 이러한 전체적인 과정을 해석학적 순환(hermeneutic loop)이라고 한다.

물론 질적 연구에서 분석절차를 정립할 것인가 혹은 절차 따위 없어도 되는가의 문제는 유구한 논쟁의 대상이다. 내용분석에 관련된 문헌은 아니지만, 양쪽 사이에서 절충적인 입장을 취하는 한 문헌[15]에서는 다양한 질적 분석방법에 적용할 수 있는 3단계 코딩 절차를 제안하였다. ① 1차 코딩 단계에서는 분석의 뼈대를 세우는 발견적 과정으로서, 분석단위에 입각하여 원천자료로부터 코드와 범주를 생성한다. ② 2차 코딩 단계에서는 여러 코드와 범주들을 분류·대조·통합·재구성·삭제·이동시켜 추상성을 높이는 과정으로, 비슷한 것끼리 묶고 상이한 것끼리 대조할 수도 있지만 더 지시적이고 개념적이어서 중요하게 취급되는 개념을 뽑아내어 위계적으로 정리할 수도 있다. ③ 3차 코딩은 이상의 여러 범주들을 개념적으로 연결하고 하나의 진술로 정리하는 과정으로, 이로부터 이론의 개발도 가능할 수 있어야 한다. 물론 여기서도 전체 과정이 반복적·순환적으로 진행되어야 한다는 조건이 붙는다.

양적 내용분석도 코딩이 힘들다지만 질적 내용분석은 그 이상으로 힘들기 때문에 진작부터 질적 분석 소프트웨어의 필요성이 꾸준히 제기되어 왔다. 윤영민(2019)은 양적 분석에서는 CATPAC, Leximancer, K-LIWC(한국어), KrKwic(한국어) 등이 있고, 질적 분석에서는 Centering Resonance Analysis(CRA) 등이 있다고 소개한다. Wimmer & Dominick(2013)은 텍스트 자료의 경우 TextSmart, VBPro, ProfilerPlus 등이, 시각 자료의 경우 Executive Producer 등이 고려될 수 있다고 소개한다. #관련링크 또한 Glaser & Laudel(2012)은 기존의 NVivo는 지나치게 근거이론에 특화된 질적 코딩을 제공한다고 지적하면서, 정보의 추출 기능을 강화하는 것을 목표로 별도의 내용분석용 소프트웨어 제작을 알리기도 했다. 이처럼 컴퓨터 소프트웨어를 사용하는 풍조에 대해서 윤영민(2019)은 단순히 양적 빈도분석 정도라면 효율성으로나 신뢰성으로나 엄격성으로나 적합하겠지만, 가장 큰 한계점은 소프트웨어 활용의 타당도에 있다고 지적하였다. 소프트웨어 자체가 갖는 편향이 존재할 수 있으나 이를 확인할 알고리즘 공개 의무가 없어서 검증이 불가능하다는 것.

4. 내용분석의 확장

내용분석은 2010년대 이후로 데이터 마이닝빅데이터 분석과 흔히 비교되고 있다. 윤영민(2019) 역시 강의를 할 때마다 내용분석과 이들이 어떤 차이가 있느냐는 질문이 나온다고 하였다. 그에 따르면 각 분석방법들은 다음과 같은 대비가 가능하다.
내용분석비교빅데이터 분석
<colbgcolor=#FFFFFF>쉬움<colbgcolor=#EEEEEE>분석데이터를 쉽게 획득할 수 있는가?<colbgcolor=#FFFFFF>어려움
높음연구자의 편향이 개입될 가능성이 어느 정도인가?낮음
쉬움분석의 타당도를 검증하고 방법을 정당화하기가 쉬운가?어려움
매우 중요개별 데이터의 정확성이 얼마나 중요한가?덜 중요
매우 중요데이터가 갖는 의미 타당도가 얼마나 중요한가?덜 중요

2000년대 이후로 크게 각광받는 분석주제 중 하나는 인터넷 내용분석이다. 담론 분석이나 에스노그라피 같은 다른 질적연구 세계에서도 인터넷 공간은 초미의 관심사로 떠올라 있다. 언뜻 생각하더라도 '남초/여초 커뮤니티 게시글의 내용은 대체로 어떠한가' 같은 식의 연구주제는 흔히 찾아볼 수 있으며, 특히 서구에서는 극단주의 사이트에 대한 테러리즘 모니터링을 위해 트위터나 요주의 사이트들의 게시글들을 분석하는 연구자들도 많다. 하지만 인터넷 게시글에 대해서 기존의 내용분석 방법론만을 고스란히 들이대기는 힘들다. 인터넷 내용분석을 하려면 필수적으로 방법론적 고민이 선행되어야 하며, 더 엄밀하고 철저한 정당화 과정이 필요하다.

Stempel & Stewart(2000)[16]는 인터넷 공간에서 내용분석을 하는 것의 환경적 특수성들을 나열한다. 우선, 연구대상으로서 데이터를 수집할 수 있는 매체들이 매우 많다. 배너, 팝업, 채팅내역, 메일함, 웹페이지, 게시판 등이 모두 데이터가 될 수 있다. 또한, 구글과 같은 검색엔진이나 아카이브 사이트들이 존재하기에 수집에 걸리는 시간 역시 대폭 단축된다. 더불어 인터넷 공간에만 배타적으로 존재하는 내용들에 접근할 필요성이 있다. 특히나 정보화 시대가 되면서 현실에는 존재하지 않고 인터넷 공간에만 존재하는 내용들의 비중은 점점 더 커지고 있는 추세이다.

하지만 그와 동시에, Stempel & Stewart(2000)은 인터넷 내용분석의 방법론적 난점에 대해서도 지적한다. 제일 큰 문제는, 윤영민(2019) 또한 지적하듯이 표본프레임(sampling frame)이 존재하지 않거나 극도로 거대하고, 그나마 그것도 오차의 가능성이 크다는 것이다. 내용분석을 하려고 구글을 뒤적였는데 수백만 건의 웹문서가 한꺼번에 쏟아질 수 있고, 그나마 그 중 상당수는 연구와 철저히 무관할 수 있고, 그나마 잡히지도 않는 데이터도 있다는 것이다. 예컨대 빅카인즈 등에서 검색 가능한 DB 속에 모든 언론사가 다 포함된 게 아니며, 그나마 제공되는 언론사들도 자기네들의 모든 기사를 다 공개하지는 않을 수 있다.

더불어, 인터넷 공간의 자료는 시시각각 변화하며, 편집과 소멸이 자유롭다. 실제로 2000년대 초창기 인터넷 연구들을 보면 당시 잘 나가던 사이트들을 열심히 분석해 놓았는데, 막상 2020년대 현재 그 주소에 들어가 보면 이미 다들 404 Not Found만 띄워질 뿐인 경우가 많다. 즉 인터넷 내용분석은 분석시점 이후로 분석결과의 설득력이 서서히 약화되는 셈이다. Stempel & Stewart(2000)은 이러한 변화로 인해 신뢰도의 저하를 막기 위해서 내용분석을 위한 자료수집기간을 변인으로서 통제하라고 조언한다. 이상의 난점이 가장 극단적으로 나타나는 온라인 플랫폼이 바로 위키위키 사이트인데, 일부 국내 연구자들이 소위 "나무위키를 내용분석하겠다" 같은 학자적 용기(?)를 발휘하기 이전에 방법론적 정당화에 대한 고민을 심각하게 해 봐야 할 지점이기도 하다.

마지막으로 윤영민(2019)은 검색 키워드 선정의 원칙이 없음을 지적한다. 인터넷 내용분석에서 분석결과의 타당도에 가장 크게 영향을 끼치는 것은 어떤 키워드로 검색할 것인지의 문제다. 그런데 현실적으로 '이 주제를 내용분석하려면 이 키워드가 적합하다' 같은 가이드라인이 없다 보니, 결국 연구자 맘대로 자기 끌리는 키워드를 잡아다가 걸리는 것들만 모아 분석하는 주관적인 연구 행태가 나타나기 쉽다. 이에 대해서 윤영민(2019)은 키워드의 가치를 재현도(recall) 혹은 정확도(precision)로 계산함으로써 계량화할 수 있다고 하였다. 이는 혼동행렬(confusion matrix)의 용어를 빌려온 것인데, 실제로 해당 주제와 관련이 있는 것 중에서 얼마나 많은 것이 해당 키워드로 검색되는가(=recall), 그리고 해당 키워드로 검색되는 것 중에서 실제로 해당 주제와 관련이 있는 것이 얼마나 많은가(=precision)를 계산하면 각 키워드별 가치를 정량화할 수 있다는 것이다.

Skalski 등(2017)의 문헌에서는 인터넷에 존재하는 다양한 미디어들을 상호작용적 매체(interactive media)라는 이름으로 통칭하면서, 웹사이트, 인터넷 쇼핑, 포럼, SNS, 블로그, 이메일, 하이퍼링크, 비디오게임 등을 그 예로 들고 있다. 이들은 상호작용적 매체가 갖는 특수성으로 ① 사용자가 내용을 창작하고(user-generated) ② 사용자가 내용을 큐레이팅 내지는 선별하며(user-selected) ③ 내용과의 상호작용 자체가 또 다른 매체를 산출한다(interactive media output)면서 그 예로 실시간 검색어를 들고 있다. 여기서 Skalski 등(2017)은 분석의 초점을 사용자가 창작하는 내용들로만 한정시킬 것을 제안하였다. 또한 SNS 내용분석의 경우 표집기준을 저명성과 대표성 중 어느 쪽으로 삼을 것인지, 사생활 침해 같은 연구윤리 문제는 어떻게 할 것인지, 비공개된 대화 기록에 어떻게 접근할 것인지를 검토해야 하며, 블로그 내용분석은 광고성·방치·접근제한 블로그를 어떻게 처리할 것인지, (국내의 브런치 같은) 비전통적인 유사 블로그 플랫폼을 포함시킬 것인지 같은 문제의 검토가 필요하다고 지적하였다.

5. 의의와 한계, 유의점

내용분석은 사회적으로 소통되는 문자적·시각적·청각적인 내용이 갖는 의미를 체계적으로 분석한다. 내용분석이 없었다면 연구자들은 글이나 대중매체가 갖는 내용적 의미를 분석할 때 "아무튼 딱 보면 알아!", "내가 그렇다면 그런 거야!", "이런 글을 쓴 의도가 정말 투명해!"(…) 같은 비체계적인 억지를 쓸 수밖에 없었을 것이다. 실제로 최성호 등(2016)은 내용분석이 데이터의 내용을 분석한 결과의 타당성을 강력하게 지원하고 있다고 평가한다. 즉 분석의 타당성이라는 것은 곧 체계화된 규율과 분석지침에 의해 달성되는데, 그러기 위해서는 사전에 정립된 절차에 입각하여 자신이 틀렸을 가능성에 대한 성찰을 반복해야 한다. 사실 이것이 바로 방법론(methodology)의 요체이고, 일반인들이 푸는 것과 학자들이 연구하는 것의 결정적인 차이이기도 하다.

질적 연구의 세계에서 문자 데이터의 적절한 코딩은 매우 중요하다. 이동성과 김영천(2014)은 기존의 많은 질적 연구방법들의 분석절차가 구체적이지 못하며 근거이론에서 유래한 지속적 비교분석법(constant comparison)에만 과도하게 의존한다고 비판한 바 있다. 특히 분석절차와 코딩에 있어서 관행적으로 '예술성' 을 강조하는 경향이 있는데, 이것이 초보 연구자들에게는 자칫 분석절차를 신비화할 수 있다는 것이다. 해당 문헌에서 직접적으로 내용분석을 거론하지는 않았으나, 질적 내용분석의 절차를 국내에 소개하는 최성호 등(2016)의 문헌은 이에 대해 상당히 좋은 대안적 지침이 될 것으로 보인다. 질적 연구자들이 소위 '연구실에서 전수되는 노하우' 를 강조하기는 하지만, 기본적인 연구절차의 얼개를 잡아놓고 그로부터 연구실만의 노하우를 적용해 나가는 것이 더 바람직할 수 있다.

내용분석 역시 모든 방법론이 그렇듯 자기 나름의 방법론적 한계를 안고 있다. Wimmer & Dominick(2013)은 '분석을 하려면 먼저 매체에 충분히 등장해야 한다' 는 점을 든다. 즉 비가시적 집단이나 매체가 잘 다루지 않아 소통이 이루어지지 않는 주제에 대해서는 사용이 곤란하다는 것이다. 내용분석의 대상으로 적절한 것은 이미 매체에 충분히 등장한 주제로 국한되지만, 사실 사회과학의 관점에서는 그 주제가 매체에 충분히 등장했다는 것 자체가 의미를 갖는다. 쉬운 예로 정치인들은 청문회에서 정말 중요한 내용은 거론하지 않고 함구하려고 하는데, 청문회 속기록을 내용분석하는 것으로는 이에 대응할 수 없다. 사회적 소수자 연구도 마찬가지다. 무성애자퀘스처닝이 매체에서 어떻게 묘사되는지의 내용분석은 불가능하며, 불과 십몇 년 전까지만 해도 아시아계 미국인에 대한 인종차별조차 매체에 거의 드러나지 않았다.

위에서 지나가듯 언급했지만 내용분석은 코더들의 굉장한 노가다를 요하는, 불편하고 비용이 높은 분석에 속한다. 언뜻 생각하면 방 안에 편히 앉아서 검색 버튼만 열심히 누르면 자료수집이 되는 분석일 것 같지만, 만만하게 여기고 덤벼들었다간 어마어마한 데이터 속에서 허우적거리게 된다. 물론 검색 자체는 정보화사회에 들어서면서 빅카인즈니 구글이니 하면서 굉장히 수월해졌지만, 나무위키에 한하여 생각건대 이것은 효율성의 관점보다는 표본프레임이 지나치게 커졌다는 문제로 보아야 할 듯하다. Wimmer & Dominick(2013)은 수집된 매체들에 대응되는 기록장치재생장치가 필요하다고 하였는데, 이렇게 본다면 당장 카세트 테이프플로피 디스크조차 실종되어 버린 현대사회에서는 오히려 기록장치와 재생장치를 구하는 것도 큰일이 될지도 모른다. 이런 이슈들에서는 문헌정보학과의 협업도 필요해 보인다.

Wimmer & Dominick(2013)이 지적하는 마지막 한계점은 수용자 연구의 선행연구로서 내용분석이 갖는 어려움을 다룬다. 내용분석이 수용자 연구의 선행연구가 되기 위해서는 실제 수용자들이 보더라도 분류체계와 개념화가 타당해야 한다. 하지만 타당한 개념화와 분류체계를 만드는 것은 상당히 어렵다. 연구자들은 분명 수용자들이 이렇게 받아들일 거라고 생각해서 개념화하고 범주마다 분류해 놓았는데, 막상 실제 수용자들은 전혀 그런 식으로 받아들이지 않는다면 분석이 아무런 의미가 없는 것이다. 한 예로 영화 속 폭력을 분석하려는 연구자가 있다고 해 보자. 이 연구자는 여성을 향한 남성의 시선의 응시를 폭력의 한 범주로 규정할 수 있다. 하지만 그 영화의 실제 관람객들이 그런 장면에 대해서 "저런 폭력적인 장면은 불편해" 라고 얼마나 생각할지는 의문이다. 물론 여기서는 수용자 연구를 하려다 매체비평의 시각이 혼입되어 버린 것이지만, 연구자가 인식하는 폭력의 개념과 일반인들이 인식하는 폭력의 개념이 서로 다를 수 있다는 것이다.

내용분석을 수행하는 데에 있어 중요한 유의점으로, 윤영민(2019)은 내용분석을 쉬운 분석인 것처럼 생각하면 안 된다고 충고한다. 앞서 언급했듯 내용분석은 마치 방 안에서 다 처리할 수 있을 듯한 분석방법처럼 보인다. 물론 연구 참가자들을 섭외할 필요가 없는 방법이니만큼 연구시간의 통제도 용이하고 참가자 사례비 역시 아낄 수 있다. 무엇보다도, 대학원생의 입장에서는 해석적으로 잘못된 코딩이 발생한다 하더라도 그것이 일견 눈에 띄지 않고, 연구의 내·외적 타당도를 입증할 명확한 지침이 없다 보니 사회과학으로서 지켜야 할 엄격성을 간과하기 쉽다. 하지만 연구자의 원칙은 가능한 한 객관적이고 체계적이며 잘 규율된 상태로 연구를 진행하려고 애쓰는 것이지, 쉽게 할 수 있는 분석만 찾아다니며 연구하는 데 있는 것은 아니다. 마찬가지로 엄격히 말하자면, 내용분석은 '누구나 쉽게' 할 수 있는 분석인 것도 아니라고 할 수 있다.

또한 윤영민(2019)은 국내의 내용분석 연구 동향을 고려할 때 내용분석을 통한 이론화에 관심이 부족하다고 지적한다. 내용분석의 목적 중에는 분명히 매체의 내용과 사회를 연결하는 것도 존재하지만, 국내의 연구는 내용이 그 사회적 선행요인과 결과요인에 연결되지 못한 채로 내용 그 자체로 남겨진다는 것이다. 이 경우 사회 현장으로부터 매체가 고립되어 버리는, 커뮤니케이션학의 관점에서는 과히 좋지 못한 함의가 도출되고 만다. 쉬운 예를 들면 대선후보 공약 내용 속에서 문제적인 요소를 발굴하는 논문, TV 속에서 묘사되는 여성혐오를 고발하는 논문은 많은데, 그냥 그걸로 끝인 셈이다. 윤영민(2019)은 내용 변인과 내용 외적인 변인의 관계를 살필 필요가 있다고 제안한다. 앞의 예시에 적용해 보면, 대선후보가 문제적인 공약을 내세웠을 때 해당 후보의 지지율이 실제로 어떻게 변동했는지, TV 속에서 여성혐오적인 장면이 나타났을 때 여성들의 사회진출 현황은 실제로 어떻게 변화하는지 관찰해야 한다는 것이다.

6. 같이 보기


[1] 윤영민 (2019). 미디어 내용분석 입문. 서울: 커뮤니케이션북스.[2] Kerlinger, F. N. (2000). Foundations of behavioral research. Holt, Reinhart & Winston (Original work published in 1966).[3] 최성호, 정정훈, 정상원 (2016). 질적 내용분석의 개념과 절차. 질적탐구, 2(1), 127-155.[4] Skalski, P. D., Neuendorf, K. A., & Cajigas, J. A. (2017). Content analysis in the interactive media age. In K. A. Neuendorf (Ed.), The content analysis guidebook (pp. 201-242). SAGE Publishing (Original work published in 2002).[5] Lovejoy, J., Watson, B. R., Lacy, S., & Riffe, D. (2014). Assessing the reporting of reliability in published content analyses: 1985–2010. Communication Methods and Measures, 8(3), 207-221.[6] Glaser, J., & Laudel, G. (2012). Experteninterviews und qualitative Inhaltsanalyse (우상수, 정수정 역). 전문가 인터뷰와 질적 내용분석. 서울: 커뮤니케이션북스 (Original work published in 2009).[7] Wimmer, R. D., & Dominick, J. R. (2013). Mass media research: An introduction (유재천, 김동규 역). 매스미디어 연구방법론. 서울: 한경사 (Original work published in 1987).[8] Berelson, B. (1952). Content Analysis in Communication Research. Free Press.[9] 여기서 윤영민(2019)은 국내 내용분석 교재들에서 흔히 '범주/범주화' 단어가 '유목/유목화' 단어로 번역되고 있음을 지적하면서, 이것이 잘못 사용되는 정체불명의 번역어라고 비판하였다. 해당 용어는 내용분석 문헌에서만 확인되는 것으로, 어떠한 학술적인 근거도 갖고 있지 않고, 왜 이 용어를 써야 하는지도 알려져 있지 않다(p.119)는 것이다.[10] 이도영 (2016). 이야기로 듣는 연구방법론: 건축 및 디자인분야 논문 작성을 위한 내용분석 연구수행사례. 서울: 시공문화사.[11] Kamhawi, R., & Weaver, D. (2003). Mass communication research trends from 1980 to 1999. Journalism & Mass Communication Quarterly, 80(1), 7-27.[12] Elo, S., & Kyngaes, H. (2008). The qualitative content analysis process. Journal of advanced nursing, 62(1), 107-115.[13] Krippendorff, K. (2004). Content analysis: An introduction to its methodology. SAGE Publishing.[14] White, M. D., & Marsh, E. E. (2006). Content analysis: A flexible methodology. Library trends, 55(1), 22-45.[15] 이동성, 김영천 (2014). 질적 자료 분석을 위한 포괄적 분석절차 탐구: 실용적 절충주의를 중심으로. 교육종합연구, 12(1), 159-184.[16] Stempel, G. H., & Stewart, R. K. (2000). The internet provides both opportunities and challenges for mass communication researchers. Journalism and mass communication quarterly, 77(3), 549-560.