행위

"신문 제목의 구어성"의 두 판 사이의 차이

red

 
(같은 사용자의 중간 판 20개는 보이지 않습니다)
3번째 줄: 3번째 줄:
  
  
== <span style="color:#00008C">신문 제목에 나타나는 구어성 차이</span>==
+
== <span style="color:#00008C">신문 제목에 나타나는 구성 차이</span>==
  
 
----
 
----
10번째 줄: 10번째 줄:
  
  
* 궁금증 : 지면 기사와 인터넷 기사 제목에서의 구어성 차이가 있을까?  
+
* 궁금증 : 지면 기사와 인터넷 기사 제목에서의 구성 차이가 있을까?  
* 배경 이론 : 페어클로(Fairclough)에 따르면 매체에 따라 신문의 구어성에 차이를 보인다고 한다.<ref> 페어클로는 썬지(The sun)와 </ref> <ref> 사실상 정밀한 조사를 위해서는 지문 내용을 모두 살펴 보는 것이 맞겠지만 본 연구는 약식으로 제목에서 나타나는 차이만 살펴 보고자 한다. </ref>
+
* 배경 이론 : 페어클로(Fairclough)썬지(The sun)와 공식 문서(보고서 등)의 비교를 통해 신문 기사가 대중적인 언어로의 변환 과정에서 인용과 같은 구어성을 가지고 있다고 설명한다. 본고에서는 이러한 시각을 '지면 기사-인터넷 기사'라는 새로운 대조의 관점에 적용해 보고자 한다. 보고서-신문 기사가 매체에 따른 언어의 차이가 있듯 '지면 기사-인터넷 기사' 사이의 매체에 따른 차이가 분명 있을 것이라 생각된다. <ref> 간단하게 풀어 보자면 인터넷 기사가 상대적으로 지면 기사에 비해 가볍다거나 좀 더 직설적인 언어를 사용하는 등의 사항이 확인되는지 짚어 내고 싶었다.</ref> <ref> 사실상 정밀한 조사를 위해서는 지문 내용을 모두 살펴 보는 것이 맞겠지만 본 연구는 약식으로 제목에서 나타나는 차이만 살펴 보고자 한다. </ref>
* 실습URL :
 
  
 
* 방법  
 
* 방법  
 
** 데이터 구축  
 
** 데이터 구축  
 
*** 주제 : 이태원발 코로나 감염 사태 관련 이슈 (이태원의 2030세대의 문화, 성소수자 문제, 등교 연기, 학원 강사의 거짓말로 인한 n차 감염)
 
*** 주제 : 이태원발 코로나 감염 사태 관련 이슈 (이태원의 2030세대의 문화, 성소수자 문제, 등교 연기, 학원 강사의 거짓말로 인한 n차 감염)
*** 수집 기간 : 5/7~5/25 중 주제 관련 기사 수집<ref> 5/25 이후에는 이태원발 코로나 감염에서 쿠팡 물류센터로 화두가 넘어간다. 본 연구는 '이태원발 코로나 감염'에 초점을 맞추고자 다음과 같이 기한을 설정했다. </ref>
+
*** 수집 기간 : 5/7~5/25 중 주제 관련 기사 제목 수집 (지면, 인터넷 pick 기사)<ref> 5/25 이후에는 이태원발 코로나 감염에서 쿠팡 물류센터로 화두가 넘어간다. 본 연구는 '이태원발 코로나 감염'에 초점을 맞추고자 다음과 같이 기한을 설정했다. </ref>
 
** 실험 데이터  
 
** 실험 데이터  
*** 신문 기사 내 구어성의 차이 확인을 위해 5/25 이후 무작위(주제 무관) 지면, 인터넷 기사의 데이터를 20건 수집해 실험에 활용  
+
*** 신문 기사 내 구어성의 차이 확인을 위해 5/25 이후 관련 주제(코로나) 지면, 인터넷 기사의 데이터를 20건 수집해 실험에 활용  
 
 
 
 
<div style="text-align:center">[[파일:기사 정리 수정.PNG|500px]] </div>
 
 
 
  
 
* 순서
 
* 순서
31번째 줄: 26번째 줄:
 
** 실험 데이터로 수집한 무작위의 지면 및 인터넷 기사의 텍스트를 활용해 결과값을 추출  
 
** 실험 데이터로 수집한 무작위의 지면 및 인터넷 기사의 텍스트를 활용해 결과값을 추출  
  
 +
* [https://drive.google.com/file/d/1UUsgDlh-TPmMP6HtjwfkFk0PmfDnV71-/view?usp=sharing 구축 데이터]
  
 
----
 
----
36번째 줄: 32번째 줄:
 
===<div style="text-align:center"> 결론===
 
===<div style="text-align:center"> 결론===
 
----
 
----
 +
 +
* '''1차 실험'''
 +
 +
<div style="text-align:center">[[파일:기사 정리 수정.PNG|400px]] </div>
 +
 +
 +
*실헙 결과 읽기
 +
** 초록색 : 언론사 일치,  보라 : 언론사/매체 모두 일치,  연보라 : 언론사/매체 모두 일치(70% 이하)
 +
 +
 +
<div style="text-align:center">[[파일:텍스트 신경망 결과1 지면 수정.png|600px]]</div>
 +
 +
 +
<div style="text-align:center">[[파일:텍스트 신경망 결과2 인터넷 수정.png|600px]]</div>
 +
 +
 +
* 1차 결론
 +
** IBM Watson은 인터넷 기사와 지면 기사의 차이를 거의 포착해 내지 못했다.
 +
** 언론사별 제목의 문체를 인지해 다수의 지면 기사에서 언론사를 정확히 추론하는 모습을 보였다.
 +
** 그러나 본 연구의 목표였던 '매체에 따른 언어 사용의 차이'는 파악하지 못하는 모습을 보였다.
 +
 +
 +
 +
 +
* '''2차 실험'''
 +
 +
<div style="text-align:center">[[파일:기사 정리 2차.png|400px]] </div>
 +
 +
 +
*실헙 결과 읽기
 +
** 초록색 : 언론사 일치,  보라 : 언론사/매체 모두 일치,  연보라 : 언론사/매체 모두 일치(70% 이하)
 +
 +
 +
<div style="text-align:center">[[파일:텍스트 신경망 결과1 지면 2차.png|600px]]</div>
 +
 +
 +
<div style="text-align:center">[[파일:텍스트 신경망 결과2 인터넷 2차.png|600px]]</div>
 +
 +
 +
* 수정 사항 : 인터넷 기사의 수를 지면 기사의 분량에 맞게 조정했다.
 +
 +
* 2차 결론
 +
** 신문 기사의 수를 바꾸었지만 결과는 크게 다르지 않았다.
 +
** 지면 기사
 +
*** 지면 기사를 포착해 내는 비율이 높아지기는 했으나 확신률이 모두 70% 이하였다.
 +
*** 언론사의 일치율은 오히려 기사 수를 줄였을 때 낮게 나타났다.
 +
** 인터넷 기사
 +
*** 인터넷 기사는 오히려 기사 수를 줄이자 지면 기사와 혼동하는 모습을 보였으며 확신률도 70% 이하의 항목이 높아졌다.
 +
*** 언론사의 일치율 역시 기사 수를 줄였을 때 낮게 나타났다.
 +
 +
 +
* 실험 결론의 원인 추측
 +
#  기사 전문이 아닌 제목만을 사용했다는 한계
 +
#  페어클로가 활용했던 썬지(The sun)와 같은 타블로이드형 신문이 아닌, 언론사의 검토를 거친 pick 기사를 이용함에 따른 텍스트의 형식적 동일 지향성을 간과한 한계
  
  
 +
* '''최종 결론'''
 +
#  결론적으로 언론사의 지면 기사와 정제된 인터넷 기사 사이에는 문체적 차이 혹은 문어/구어성의 차이가 크게 없다는 것을 확인했다.
 +
# 언론사별 문체나 제목의 형식에는 일면 차이가 있다는 사실이 포착되었다.
  
* 구어성 관련
 
** 신문별 결과 제시
 
  
 +
* 실험 결론에 따른 궁금증
 +
#  기계가 판단하는 것과 인간이 판단하는 지점이 다른 경우가 종종 있었다. 그렇다면 기계는 인간이 막연하게 생각하는 어떠한 것을 좀 더 객관적으로 판단하는 수단이 될 것인가? 혹은 인간의 직관에 따른 연구의 가능성을 제한하는 수단이 될 것인가?
 +
#  좀 더 나아가서 인간의 직관력에 따른 연구들은 (극단적으로 말하면) 폐기 처리가 될 날이 올 것인가?
  
 
----
 
----

2020년 6월 24일 (수) 09:19 기준 최신판

〈인문학과 인공지능〉 강의 페이지로 돌아가기


신문 제목에 나타나는 구성 차이


방법 및 과정



  • 궁금증 : 지면 기사와 인터넷 기사 제목에서의 구성 차이가 있을까?
  • 배경 이론 : 페어클로(Fairclough)는 썬지(The sun)와 공식 문서(보고서 등)의 비교를 통해 신문 기사가 대중적인 언어로의 변환 과정에서 인용과 같은 구어성을 가지고 있다고 설명한다. 본고에서는 이러한 시각을 '지면 기사-인터넷 기사'라는 새로운 대조의 관점에 적용해 보고자 한다. 보고서-신문 기사가 매체에 따른 언어의 차이가 있듯 '지면 기사-인터넷 기사' 사이의 매체에 따른 차이가 분명 있을 것이라 생각된다. [1] [2]
  • 방법
    • 데이터 구축
      • 주제 : 이태원발 코로나 감염 사태 관련 이슈 (이태원의 2030세대의 문화, 성소수자 문제, 등교 연기, 학원 강사의 거짓말로 인한 n차 감염)
      • 수집 기간 : 5/7~5/25 중 주제 관련 기사 제목 수집 (지면, 인터넷 pick 기사)[3]
    • 실험 데이터
      • 신문 기사 내 구어성의 차이 확인을 위해 5/25 이후 관련 주제(코로나) 지면, 인터넷 기사의 데이터를 각 20건 수집해 실험에 활용
  • 순서
    • 신문사 선정 : 조선일보, 중앙일보, 경향신문, 한겨례신문 기사 수집[4]
    • 신문사별 지면 기사, 인터넷 기사로 분리해 데이터 수집[5]
    • IBM의 Machine learning for kids 프로그램으로 언론사별, 매체별 데이터 분류
    • 실험 데이터로 수집한 무작위의 지면 및 인터넷 기사의 텍스트를 활용해 결과값을 추출

결론


  • 1차 실험
기사 정리 수정.PNG


  • 실헙 결과 읽기
    • 초록색 : 언론사 일치, 보라 : 언론사/매체 모두 일치, 연보라 : 언론사/매체 모두 일치(70% 이하)


텍스트 신경망 결과1 지면 수정.png


텍스트 신경망 결과2 인터넷 수정.png


  • 1차 결론
    • IBM Watson은 인터넷 기사와 지면 기사의 차이를 거의 포착해 내지 못했다.
    • 언론사별 제목의 문체를 인지해 다수의 지면 기사에서 언론사를 정확히 추론하는 모습을 보였다.
    • 그러나 본 연구의 목표였던 '매체에 따른 언어 사용의 차이'는 파악하지 못하는 모습을 보였다.



  • 2차 실험
기사 정리 2차.png


  • 실헙 결과 읽기
    • 초록색 : 언론사 일치, 보라 : 언론사/매체 모두 일치, 연보라 : 언론사/매체 모두 일치(70% 이하)


텍스트 신경망 결과1 지면 2차.png


텍스트 신경망 결과2 인터넷 2차.png


  • 수정 사항 : 인터넷 기사의 수를 지면 기사의 분량에 맞게 조정했다.
  • 2차 결론
    • 신문 기사의 수를 바꾸었지만 결과는 크게 다르지 않았다.
    • 지면 기사
      • 지면 기사를 포착해 내는 비율이 높아지기는 했으나 확신률이 모두 70% 이하였다.
      • 언론사의 일치율은 오히려 기사 수를 줄였을 때 낮게 나타났다.
    • 인터넷 기사
      • 인터넷 기사는 오히려 기사 수를 줄이자 지면 기사와 혼동하는 모습을 보였으며 확신률도 70% 이하의 항목이 높아졌다.
      • 언론사의 일치율 역시 기사 수를 줄였을 때 낮게 나타났다.


  • 실험 결론의 원인 추측
  1. 기사 전문이 아닌 제목만을 사용했다는 한계
  2. 페어클로가 활용했던 썬지(The sun)와 같은 타블로이드형 신문이 아닌, 언론사의 검토를 거친 pick 기사를 이용함에 따른 텍스트의 형식적 동일 지향성을 간과한 한계


  • 최종 결론
  1. 결론적으로 언론사의 지면 기사와 정제된 인터넷 기사 사이에는 문체적 차이 혹은 문어/구어성의 차이가 크게 없다는 것을 확인했다.
  2. 언론사별 문체나 제목의 형식에는 일면 차이가 있다는 사실이 포착되었다.


  • 실험 결론에 따른 궁금증
  1. 기계가 판단하는 것과 인간이 판단하는 지점이 다른 경우가 종종 있었다. 그렇다면 기계는 인간이 막연하게 생각하는 어떠한 것을 좀 더 객관적으로 판단하는 수단이 될 것인가? 혹은 인간의 직관에 따른 연구의 가능성을 제한하는 수단이 될 것인가?
  2. 좀 더 나아가서 인간의 직관력에 따른 연구들은 (극단적으로 말하면) 폐기 처리가 될 날이 올 것인가?

주석


  1. 간단하게 풀어 보자면 인터넷 기사가 상대적으로 지면 기사에 비해 가볍다거나 좀 더 직설적인 언어를 사용하는 등의 사항이 확인되는지 짚어 내고 싶었다.
  2. 사실상 정밀한 조사를 위해서는 지문 내용을 모두 살펴 보는 것이 맞겠지만 본 연구는 약식으로 제목에서 나타나는 차이만 살펴 보고자 한다.
  3. 5/25 이후에는 이태원발 코로나 감염에서 쿠팡 물류센터로 화두가 넘어간다. 본 연구는 '이태원발 코로나 감염'에 초점을 맞추고자 다음과 같이 기한을 설정했다.
  4. 기사 수는 임의적으로 유사하게 맞추었다. 특정 일자의 기사를 추출하기 보다는 2-3개마다 하나씩 데이터에 반영하는 방식으로 기사를 수집했다.
  5. 인터넷 기사의 경우 네이버에서 pick으로 제시되어 있는 기사를 수집했다. 네이버에 따르면 pick이 표시된 기사는 각 언론사가 자신의 '주요 기사'로 선정한 인터넷 기사라고 한다. 네이버 pick 관련 도움말 페이지