"QuoteFromAnalects"의 두 판 사이의 차이
red
잔글 (→탐구의 방법) |
(→데이터 수집) |
||
115번째 줄: | 115번째 줄: | ||
위에서 언급하였던 것처럼, 데이터 수집은 2000년 이후 대한민국 정치인의 논어 인용 사례를 구글에서 검색하는 방식으로 이루어진다. 이러한 검색 방식에는 두 가지가 있는데, 첫째는 ''' "정치인 논어 인용" 등의 키워드로 뉴스를 검색하는 방법'''이고, 둘째는 '''논어의 문장을 직접 구글 뉴스 탭에 검색하여, 한국 정치인이 그 문장을 인용했다는 내용의 기사를 수집하는 방법'''이다. 이러한 두 가지 방법을 간단한 벤 다이어그램으로 나타낸 것이 아래와 같다. | 위에서 언급하였던 것처럼, 데이터 수집은 2000년 이후 대한민국 정치인의 논어 인용 사례를 구글에서 검색하는 방식으로 이루어진다. 이러한 검색 방식에는 두 가지가 있는데, 첫째는 ''' "정치인 논어 인용" 등의 키워드로 뉴스를 검색하는 방법'''이고, 둘째는 '''논어의 문장을 직접 구글 뉴스 탭에 검색하여, 한국 정치인이 그 문장을 인용했다는 내용의 기사를 수집하는 방법'''이다. 이러한 두 가지 방법을 간단한 벤 다이어그램으로 나타낸 것이 아래와 같다. | ||
+ | [[파일: vd.PNG|600px|center]] | ||
− | + | 본 연구에서 필요한 데이터 집합은 파란색으로 표시된 "한국 현대 정치인의 논어 인용 기사"이다("2000년대 이후"라는 조건은 생략하여 표기하였다). 이는 논어 구절이 포함된 전체 뉴스 기사의 부분집합이다. 위에서 제시한 첫 번째 방법, 즉 "정치인 논어 인용"을 구글에 검색하였을 때 출력되는 결과 집합을 초록색으로 표시하였다. 이 방법을 사용하면 데이터 수집이 편리하기는 하지만, 결과적으로 파란색 목표 집합의 일부분밖에 수집하지 못한다. | |
+ | |||
+ | 이러한 데이터의 손실을 최소화하기 위하여 두 번째 방법을 사용한다. 즉, 논어의 문장을 일일이 구글 뉴스 탭에 검색하여 얻어지는 모든 검색 결과(분홍색 집합)를 수집한 후, 그 중에서 한국 정치인이 논어를 인용하여 발언한 사례만을 추출하는 것이다. 첫 번째 방법과 비교해 볼 때, 목표 집합(파란색)과 일치하는 결과를 얻을 수 있다는 점은 장점이지만 월등히 많은 노동력과 시간이 필요하다는 점은 큰 단점이다. 논어에는 총 498개의 장이 있고, 이를 포함하는 모든 뉴스 기사를 일일이 읽고 분석하는 것은 현실적으로 불가능하기 때문에 '''데이터의 손실은 최소화하면서 투입되는 노동과 시간 또한 큰 폭으로 줄일 수 있는 보완책'''이 필요했다. | ||
==편찬 데이터== | ==편찬 데이터== |
2020년 10월 10일 (토) 17:34 판
탐구의 목적
탐구의 대상
2000년 이후 대한민국 정치인들이 논어를 인용하여 발언한 사례 중, 구글 뉴스 탭에서 접근할 수 있는 뉴스 기사로 기록되어 있는 것만을 탐구한다. "21세기 한국 정치인의 논어 인용 사례를 구글 뉴스에 검색하여 수집한다"는 작업에 필요한 시간과 노동량 등의 한계로 인하여, 탐구의 대상이 다음 30개 장(章)의 인용 사례로 축소되었는데, 이러한 선정이 어떤 과정을 거쳤는지는 아래 탐구의 방법에 상세히 서술되어 있다.
편 | 장 | 구절 요약 |
1 | 1 | 학이시습지 불역열호 |
1 | 3 | 교언영색 *양화편 17장과 같은 내용* |
2 | 11 | 온고지신 |
2 | 12 | 군자는 한 가지 용도로만 쓰이는 그릇처럼 국한되지 않는다 |
4 | 15 | 일이관지 *위영공편 2장과 같은 내용* |
4 | 25 | 덕불고 필유린 (덕이 있는 사람은 반드시 이웃이 있다) |
5 | 8 | 하나를 들으면 열을 안다 |
5 | 9 | 썩은 나무는 조각할 수 없다 |
6 | 18 | 도를 아는 것은 좋아하는 것만 못하고, 좋아하는 것은 즐기는 것만 못하다 |
7 | 1 | 술이부작 |
7 | 21 | 세 사람이 길을 가면 그 중 반드시 나의 스승이 있다 |
12 | 2 | 기소불욕 물시어인 |
12 | 7 | 무신불립 (백성이 신의가 없으면 존립할 수 없다) |
12 | 8 | 네 필의 말이 끄는 빠른 수레로도 혀에서 나오는 말을 따라잡지 못한다 |
12 | 17 | 정자정야(정치는 바르게 하는 것) |
12 | 22 | 인(仁)은 사람을 사랑하는 것이고, 지(知)는 사람을 아는 것이다 |
13 | 3 | 자신이 알지 못하는 것은 제쳐놓고 말하지 않는 것이다 |
13 | 23 | 군자는 조화를 이루되 부화뇌동하지 않으며, 소인은 부화뇌동하되 조화를 이루지 못한다 |
13 | 25 | 사람을 부림에 있어서 그릇에 맞게 한다 |
14 | 27 | 그 지위(地位)에 있지 않으면, 그 정사(政事)를 도모하지 않는다 |
15 | 2 | 일이관지 (하나의 이치로 모든 것을 꿰뚫는다) |
15 | 20 | 군자는 자신에게서 찾고 소인은 남에게서 찾는다 |
15 | 23 | 기소불욕 물시어인 *안연편 2장과 같은 내용* |
16 | 1 | 불환과이환불균 불환빈이환불안 |
17 | 4 | 닭 잡는 데 소 잡는 칼 |
17 | 14 | 도청도설 |
17 | 17 | 교언영색 |
18 | 4 | 삼일부조 |
18 | 8 | 나는 이와 달라서 가(可)한 것도 없고 불가(不可)한 것도 없다 |
20 | 3 | 천명을 알지 못하면 군자가 될 수 없고, 예를 알지 못하면 설 수 없고, 말을 알지 못하면 사람을 알 수 없다 |
총 30개의 장이지만, 위에서 파란색으로 메모한 것과 같이 서로 다른 장이 중복된 내용을 담고 있는 경우가 3개 포함되어 있기 때문에 실질적인 조사 대상 장은 27개이다.
대한민국 정치인들이 위 목록에 있는 논어의 장(章)들을 인용한 뉴스 기사를 구글 검색을 통해 수집하였다. 각 인용 사례에 대해서는 발언한 정치인의 이름, 그 정치인의 성향(진보/보수/중도), 인용한 논어의 원문 구절, 원문에서 파생된 관용적 표현, 해당 구절이 속한 논어의 편과 장, 발언 시기, 당시 정치적 맥락 및 현안, 마지막으로 해당 신문기사의 출처를 수집하였다.
변수 | 변수 설명 |
인물 | 논어를 인용한 인물의 이름 |
정치 성향 | 해당 인물의 정치적 성향. 진보, 보수, 중도의 3개 카테고리로 구분하였다. |
인용 구절 | 인용된 논어의 원문 구절 |
관용 표현 | 위 "인용 구절"에서 파생된 관용 표현. 해당 정치인이 관용 표현을 인용하였을 경우, "인용 구절"과 "관용 표현" 두 가지 변수를 모두 수집하고, 원문만을 인용하였을 경우 "관용 표현" 항목은 공란으로 둔다. |
논어의 편/장 | 해당 구절이 논어의 무슨 편 몇 장의 내용인지 표기 |
출처 | 해당 인용을 다룬 기사 혹은 SNS의 주소 (URL) |
인용 시기 | 인용의 시점. 해당 정치인이 그 인용을 한 시점을 정확히 알 수 있다면 그 시점의 연도와 월까지 표기. 만약 인터뷰 기사 혹은 회고록에서 "나는 이 말을 항상 가슴에 새겨왔다" 라는 식으로 정확한 시점이 드러나지 않는 경우에는, 그 인터뷰 기사의 발행 일시를 연도와 월까지 입력. |
탐구의 방법
데이터 수집
위에서 언급하였던 것처럼, 데이터 수집은 2000년 이후 대한민국 정치인의 논어 인용 사례를 구글에서 검색하는 방식으로 이루어진다. 이러한 검색 방식에는 두 가지가 있는데, 첫째는 "정치인 논어 인용" 등의 키워드로 뉴스를 검색하는 방법이고, 둘째는 논어의 문장을 직접 구글 뉴스 탭에 검색하여, 한국 정치인이 그 문장을 인용했다는 내용의 기사를 수집하는 방법이다. 이러한 두 가지 방법을 간단한 벤 다이어그램으로 나타낸 것이 아래와 같다.
본 연구에서 필요한 데이터 집합은 파란색으로 표시된 "한국 현대 정치인의 논어 인용 기사"이다("2000년대 이후"라는 조건은 생략하여 표기하였다). 이는 논어 구절이 포함된 전체 뉴스 기사의 부분집합이다. 위에서 제시한 첫 번째 방법, 즉 "정치인 논어 인용"을 구글에 검색하였을 때 출력되는 결과 집합을 초록색으로 표시하였다. 이 방법을 사용하면 데이터 수집이 편리하기는 하지만, 결과적으로 파란색 목표 집합의 일부분밖에 수집하지 못한다.
이러한 데이터의 손실을 최소화하기 위하여 두 번째 방법을 사용한다. 즉, 논어의 문장을 일일이 구글 뉴스 탭에 검색하여 얻어지는 모든 검색 결과(분홍색 집합)를 수집한 후, 그 중에서 한국 정치인이 논어를 인용하여 발언한 사례만을 추출하는 것이다. 첫 번째 방법과 비교해 볼 때, 목표 집합(파란색)과 일치하는 결과를 얻을 수 있다는 점은 장점이지만 월등히 많은 노동력과 시간이 필요하다는 점은 큰 단점이다. 논어에는 총 498개의 장이 있고, 이를 포함하는 모든 뉴스 기사를 일일이 읽고 분석하는 것은 현실적으로 불가능하기 때문에 데이터의 손실은 최소화하면서 투입되는 노동과 시간 또한 큰 폭으로 줄일 수 있는 보완책이 필요했다.