"신문 제목의 구어성"의 두 판 사이의 차이

2020년 6월 24일 (수) 09:19 기준 최신판

〈인문학과 인공지능〉 강의 페이지로 돌아가기

신문 제목에 나타나는 구성 차이

방법 및 과정

궁금증 : 지면 기사와 인터넷 기사 제목에서의 구성 차이가 있을까?
배경 이론 : 페어클로(Fairclough)는 썬지(The sun)와 공식 문서(보고서 등)의 비교를 통해 신문 기사가 대중적인 언어로의 변환 과정에서 인용과 같은 구어성을 가지고 있다고 설명한다. 본고에서는 이러한 시각을 '지면 기사-인터넷 기사'라는 새로운 대조의 관점에 적용해 보고자 한다. 보고서-신문 기사가 매체에 따른 언어의 차이가 있듯 '지면 기사-인터넷 기사' 사이의 매체에 따른 차이가 분명 있을 것이라 생각된다. ^[1] ^[2]

방법
- 데이터 구축
  - 주제 : 이태원발 코로나 감염 사태 관련 이슈 (이태원의 2030세대의 문화, 성소수자 문제, 등교 연기, 학원 강사의 거짓말로 인한 n차 감염)
  - 수집 기간 : 5/7~5/25 중 주제 관련 기사 제목 수집 (지면, 인터넷 pick 기사)^[3]
- 실험 데이터
  - 신문 기사 내 구어성의 차이 확인을 위해 5/25 이후 관련 주제(코로나) 지면, 인터넷 기사의 데이터를 각 20건 수집해 실험에 활용

순서
- 신문사 선정 : 조선일보, 중앙일보, 경향신문, 한겨례신문 기사 수집^[4]
- 신문사별 지면 기사, 인터넷 기사로 분리해 데이터 수집^[5]
- IBM의 Machine learning for kids 프로그램으로 언론사별, 매체별 데이터 분류
- 실험 데이터로 수집한 무작위의 지면 및 인터넷 기사의 텍스트를 활용해 결과값을 추출

구축 데이터

결론

1차 실험

실헙 결과 읽기
- 초록색 : 언론사 일치, 보라 : 언론사/매체 모두 일치, 연보라 : 언론사/매체 모두 일치(70% 이하)

1차 결론
- IBM Watson은 인터넷 기사와 지면 기사의 차이를 거의 포착해 내지 못했다.
- 언론사별 제목의 문체를 인지해 다수의 지면 기사에서 언론사를 정확히 추론하는 모습을 보였다.
- 그러나 본 연구의 목표였던 '매체에 따른 언어 사용의 차이'는 파악하지 못하는 모습을 보였다.

2차 실험

실헙 결과 읽기
- 초록색 : 언론사 일치, 보라 : 언론사/매체 모두 일치, 연보라 : 언론사/매체 모두 일치(70% 이하)

수정 사항 : 인터넷 기사의 수를 지면 기사의 분량에 맞게 조정했다.

2차 결론
- 신문 기사의 수를 바꾸었지만 결과는 크게 다르지 않았다.
- 지면 기사
  - 지면 기사를 포착해 내는 비율이 높아지기는 했으나 확신률이 모두 70% 이하였다.
  - 언론사의 일치율은 오히려 기사 수를 줄였을 때 낮게 나타났다.
- 인터넷 기사
  - 인터넷 기사는 오히려 기사 수를 줄이자 지면 기사와 혼동하는 모습을 보였으며 확신률도 70% 이하의 항목이 높아졌다.
  - 언론사의 일치율 역시 기사 수를 줄였을 때 낮게 나타났다.

실험 결론의 원인 추측

기사 전문이 아닌 제목만을 사용했다는 한계
페어클로가 활용했던 썬지(The sun)와 같은 타블로이드형 신문이 아닌, 언론사의 검토를 거친 pick 기사를 이용함에 따른 텍스트의 형식적 동일 지향성을 간과한 한계

최종 결론

결론적으로 언론사의 지면 기사와 정제된 인터넷 기사 사이에는 문체적 차이 혹은 문어/구어성의 차이가 크게 없다는 것을 확인했다.
언론사별 문체나 제목의 형식에는 일면 차이가 있다는 사실이 포착되었다.

실험 결론에 따른 궁금증

기계가 판단하는 것과 인간이 판단하는 지점이 다른 경우가 종종 있었다. 그렇다면 기계는 인간이 막연하게 생각하는 어떠한 것을 좀 더 객관적으로 판단하는 수단이 될 것인가? 혹은 인간의 직관에 따른 연구의 가능성을 제한하는 수단이 될 것인가?
좀 더 나아가서 인간의 직관력에 따른 연구들은 (극단적으로 말하면) 폐기 처리가 될 날이 올 것인가?

주석

[1]

[2]

[3]

[4]

[5]

@@ 3번째 줄: / 3번째 줄: @@
-== <span style="color:#00008C">신문 제목에 나타나는 구어성 차이</span>==
+== <span style="color:#00008C">신문 제목에 나타나는 구성 차이</span>==
 ----
@@ 16번째 줄: / 16번째 줄: @@
 ** 데이터 구축
 *** 주제 : 이태원발 코로나 감염 사태 관련 이슈 (이태원의 2030세대의 문화, 성소수자 문제, 등교 연기, 학원 강사의 거짓말로 인한 n차 감염)
-*** 수집 기간 : 5/7~5/25 중 주제 관련 기사 수집<ref> 5/25 이후에는 이태원발 코로나 감염에서 쿠팡 물류센터로 화두가 넘어간다. 본 연구는 '이태원발 코로나 감염'에 초점을 맞추고자 다음과 같이 기한을 설정했다. </ref>
+*** 수집 기간 : 5/7~5/25 중 주제 관련 기사 제목 수집 (지면, 인터넷 pick 기사)<ref> 5/25 이후에는 이태원발 코로나 감염에서 쿠팡 물류센터로 화두가 넘어간다. 본 연구는 '이태원발 코로나 감염'에 초점을 맞추고자 다음과 같이 기한을 설정했다. </ref>
 ** 실험 데이터
 *** 신문 기사 내 구어성의 차이 확인을 위해 5/25 이후 관련 주제(코로나) 지면, 인터넷 기사의 데이터를 각 20건 수집해 실험에 활용
@@ 26번째 줄: / 26번째 줄: @@
 ** 실험 데이터로 수집한 무작위의 지면 및 인터넷 기사의 텍스트를 활용해 결과값을 추출
+* [https://drive.google.com/file/d/1UUsgDlh-TPmMP6HtjwfkFk0PmfDnV71-/view?usp=sharing 구축 데이터]
 ----
@@ 32번째 줄: / 33번째 줄: @@
 ----
-* 1차 실험
+* '''1차 실험'''
 <div style="text-align:center">[[파일:기사 정리 수정.PNG|400px]] </div>
@@ 54번째 줄: / 55번째 줄: @@
-* 2차 실험
+* '''2차 실험'''
 <div style="text-align:center">[[파일:기사 정리 2차.png|400px]] </div>
@@ 82번째 줄: / 84번째 줄: @@
 * 실험 결론의 원인 추측
-**
+#  기사 전문이 아닌 제목만을 사용했다는 한계
+#  페어클로가 활용했던 썬지(The sun)와 같은 타블로이드형 신문이 아닌, 언론사의 검토를 거친 pick 기사를 이용함에 따른 텍스트의 형식적 동일 지향성을 간과한 한계
+* '''최종 결론'''
+#  결론적으로 언론사의 지면 기사와 정제된 인터넷 기사 사이에는 문체적 차이 혹은 문어/구어성의 차이가 크게 없다는 것을 확인했다.
+# 언론사별 문체나 제목의 형식에는 일면 차이가 있다는 사실이 포착되었다.
+* 실험 결론에 따른 궁금증
+#  기계가 판단하는 것과 인간이 판단하는 지점이 다른 경우가 종종 있었다. 그렇다면 기계는 인간이 막연하게 생각하는 어떠한 것을 좀 더 객관적으로 판단하는 수단이 될 것인가? 혹은 인간의 직관에 따른 연구의 가능성을 제한하는 수단이 될 것인가?
+#  좀 더 나아가서 인간의 직관력에 따른 연구들은 (극단적으로 말하면) 폐기 처리가 될 날이 올 것인가?
 ----

"신문 제목의 구어성"의 두 판 사이의 차이

red

2020년 6월 24일 (수) 09:19 기준 최신판

목차

신문 제목에 나타나는 구성 차이

방법 및 과정

결론

주석