"신문 제목의 구어성"의 두 판 사이의 차이
red
(같은 사용자의 중간 판 23개는 보이지 않습니다) | |||
3번째 줄: | 3번째 줄: | ||
− | == <span style="color:#00008C">신문 제목에 나타나는 | + | == <span style="color:#00008C">신문 제목에 나타나는 구성 차이</span>== |
---- | ---- | ||
10번째 줄: | 10번째 줄: | ||
− | * 궁금증 : 지면 기사와 인터넷 기사 제목에서의 | + | * 궁금증 : 지면 기사와 인터넷 기사 제목에서의 구성 차이가 있을까? |
− | * 배경 이론 : 페어클로(Fairclough) | + | * 배경 이론 : 페어클로(Fairclough)는 썬지(The sun)와 공식 문서(보고서 등)의 비교를 통해 신문 기사가 대중적인 언어로의 변환 과정에서 인용과 같은 구어성을 가지고 있다고 설명한다. 본고에서는 이러한 시각을 '지면 기사-인터넷 기사'라는 새로운 대조의 관점에 적용해 보고자 한다. 보고서-신문 기사가 매체에 따른 언어의 차이가 있듯 '지면 기사-인터넷 기사' 사이의 매체에 따른 차이가 분명 있을 것이라 생각된다. <ref> 간단하게 풀어 보자면 인터넷 기사가 상대적으로 지면 기사에 비해 가볍다거나 좀 더 직설적인 언어를 사용하는 등의 사항이 확인되는지 짚어 내고 싶었다.</ref> <ref> 사실상 정밀한 조사를 위해서는 지문 내용을 모두 살펴 보는 것이 맞겠지만 본 연구는 약식으로 제목에서 나타나는 차이만 살펴 보고자 한다. </ref> |
− | |||
* 방법 | * 방법 | ||
** 데이터 구축 | ** 데이터 구축 | ||
*** 주제 : 이태원발 코로나 감염 사태 관련 이슈 (이태원의 2030세대의 문화, 성소수자 문제, 등교 연기, 학원 강사의 거짓말로 인한 n차 감염) | *** 주제 : 이태원발 코로나 감염 사태 관련 이슈 (이태원의 2030세대의 문화, 성소수자 문제, 등교 연기, 학원 강사의 거짓말로 인한 n차 감염) | ||
− | *** 수집 기간 : 5/7~5/25 중 주제 관련 기사 수집<ref> 5/25 이후에는 이태원발 코로나 감염에서 쿠팡 물류센터로 화두가 넘어간다. 본 연구는 '이태원발 코로나 감염'에 초점을 맞추고자 다음과 같이 기한을 설정했다. </ref> | + | *** 수집 기간 : 5/7~5/25 중 주제 관련 기사 제목 수집 (지면, 인터넷 pick 기사)<ref> 5/25 이후에는 이태원발 코로나 감염에서 쿠팡 물류센터로 화두가 넘어간다. 본 연구는 '이태원발 코로나 감염'에 초점을 맞추고자 다음과 같이 기한을 설정했다. </ref> |
** 실험 데이터 | ** 실험 데이터 | ||
− | *** 신문 기사 내 구어성의 차이 확인을 위해 5/25 이후 | + | *** 신문 기사 내 구어성의 차이 확인을 위해 5/25 이후 관련 주제(코로나) 지면, 인터넷 기사의 데이터를 각 20건 수집해 실험에 활용 |
− | |||
− | |||
− | |||
− | |||
* 순서 | * 순서 | ||
− | ** 신문사 선정 : 조선일보, 중앙일보, 경향신문, 한겨례신문 기사 수집 | + | ** 신문사 선정 : 조선일보, 중앙일보, 경향신문, 한겨례신문 기사 수집<ref> 기사 수는 임의적으로 유사하게 맞추었다. 특정 일자의 기사를 추출하기 보다는 2-3개마다 하나씩 데이터에 반영하는 방식으로 기사를 수집했다. </ref> |
** 신문사별 지면 기사, 인터넷 기사로 분리해 데이터 수집<ref> 인터넷 기사의 경우 네이버에서 pick으로 제시되어 있는 기사를 수집했다. 네이버에 따르면 pick이 표시된 기사는 각 언론사가 자신의 '주요 기사'로 선정한 인터넷 기사라고 한다. [https://m.help.naver.com/support/contents/contentsView.help?contentsNo=8406&lang=ko 네이버 pick 관련 도움말 페이지] </ref> | ** 신문사별 지면 기사, 인터넷 기사로 분리해 데이터 수집<ref> 인터넷 기사의 경우 네이버에서 pick으로 제시되어 있는 기사를 수집했다. 네이버에 따르면 pick이 표시된 기사는 각 언론사가 자신의 '주요 기사'로 선정한 인터넷 기사라고 한다. [https://m.help.naver.com/support/contents/contentsView.help?contentsNo=8406&lang=ko 네이버 pick 관련 도움말 페이지] </ref> | ||
** IBM의 Machine learning for kids 프로그램으로 언론사별, 매체별 데이터 분류 | ** IBM의 Machine learning for kids 프로그램으로 언론사별, 매체별 데이터 분류 | ||
** 실험 데이터로 수집한 무작위의 지면 및 인터넷 기사의 텍스트를 활용해 결과값을 추출 | ** 실험 데이터로 수집한 무작위의 지면 및 인터넷 기사의 텍스트를 활용해 결과값을 추출 | ||
− | * | + | * [https://drive.google.com/file/d/1UUsgDlh-TPmMP6HtjwfkFk0PmfDnV71-/view?usp=sharing 구축 데이터] |
− | + | ||
---- | ---- | ||
===<div style="text-align:center"> 결론=== | ===<div style="text-align:center"> 결론=== | ||
---- | ---- | ||
+ | |||
+ | * '''1차 실험''' | ||
+ | |||
+ | <div style="text-align:center">[[파일:기사 정리 수정.PNG|400px]] </div> | ||
+ | |||
+ | |||
+ | *실헙 결과 읽기 | ||
+ | ** 초록색 : 언론사 일치, 보라 : 언론사/매체 모두 일치, 연보라 : 언론사/매체 모두 일치(70% 이하) | ||
+ | |||
+ | |||
+ | <div style="text-align:center">[[파일:텍스트 신경망 결과1 지면 수정.png|600px]]</div> | ||
+ | |||
+ | |||
+ | <div style="text-align:center">[[파일:텍스트 신경망 결과2 인터넷 수정.png|600px]]</div> | ||
+ | |||
+ | |||
+ | * 1차 결론 | ||
+ | ** IBM Watson은 인터넷 기사와 지면 기사의 차이를 거의 포착해 내지 못했다. | ||
+ | ** 언론사별 제목의 문체를 인지해 다수의 지면 기사에서 언론사를 정확히 추론하는 모습을 보였다. | ||
+ | ** 그러나 본 연구의 목표였던 '매체에 따른 언어 사용의 차이'는 파악하지 못하는 모습을 보였다. | ||
+ | |||
+ | |||
+ | |||
+ | |||
+ | * '''2차 실험''' | ||
+ | |||
+ | <div style="text-align:center">[[파일:기사 정리 2차.png|400px]] </div> | ||
+ | |||
+ | |||
+ | *실헙 결과 읽기 | ||
+ | ** 초록색 : 언론사 일치, 보라 : 언론사/매체 모두 일치, 연보라 : 언론사/매체 모두 일치(70% 이하) | ||
+ | |||
+ | |||
+ | <div style="text-align:center">[[파일:텍스트 신경망 결과1 지면 2차.png|600px]]</div> | ||
+ | |||
+ | |||
+ | <div style="text-align:center">[[파일:텍스트 신경망 결과2 인터넷 2차.png|600px]]</div> | ||
+ | |||
+ | |||
+ | * 수정 사항 : 인터넷 기사의 수를 지면 기사의 분량에 맞게 조정했다. | ||
+ | |||
+ | * 2차 결론 | ||
+ | ** 신문 기사의 수를 바꾸었지만 결과는 크게 다르지 않았다. | ||
+ | ** 지면 기사 | ||
+ | *** 지면 기사를 포착해 내는 비율이 높아지기는 했으나 확신률이 모두 70% 이하였다. | ||
+ | *** 언론사의 일치율은 오히려 기사 수를 줄였을 때 낮게 나타났다. | ||
+ | ** 인터넷 기사 | ||
+ | *** 인터넷 기사는 오히려 기사 수를 줄이자 지면 기사와 혼동하는 모습을 보였으며 확신률도 70% 이하의 항목이 높아졌다. | ||
+ | *** 언론사의 일치율 역시 기사 수를 줄였을 때 낮게 나타났다. | ||
+ | |||
+ | |||
+ | * 실험 결론의 원인 추측 | ||
+ | # 기사 전문이 아닌 제목만을 사용했다는 한계 | ||
+ | # 페어클로가 활용했던 썬지(The sun)와 같은 타블로이드형 신문이 아닌, 언론사의 검토를 거친 pick 기사를 이용함에 따른 텍스트의 형식적 동일 지향성을 간과한 한계 | ||
+ | * '''최종 결론''' | ||
+ | # 결론적으로 언론사의 지면 기사와 정제된 인터넷 기사 사이에는 문체적 차이 혹은 문어/구어성의 차이가 크게 없다는 것을 확인했다. | ||
+ | # 언론사별 문체나 제목의 형식에는 일면 차이가 있다는 사실이 포착되었다. | ||
− | |||
− | |||
+ | * 실험 결론에 따른 궁금증 | ||
+ | # 기계가 판단하는 것과 인간이 판단하는 지점이 다른 경우가 종종 있었다. 그렇다면 기계는 인간이 막연하게 생각하는 어떠한 것을 좀 더 객관적으로 판단하는 수단이 될 것인가? 혹은 인간의 직관에 따른 연구의 가능성을 제한하는 수단이 될 것인가? | ||
+ | # 좀 더 나아가서 인간의 직관력에 따른 연구들은 (극단적으로 말하면) 폐기 처리가 될 날이 올 것인가? | ||
---- | ---- |
2020년 6월 24일 (수) 09:19 기준 최신판
신문 제목에 나타나는 구성 차이
방법 및 과정
- 궁금증 : 지면 기사와 인터넷 기사 제목에서의 구성 차이가 있을까?
- 배경 이론 : 페어클로(Fairclough)는 썬지(The sun)와 공식 문서(보고서 등)의 비교를 통해 신문 기사가 대중적인 언어로의 변환 과정에서 인용과 같은 구어성을 가지고 있다고 설명한다. 본고에서는 이러한 시각을 '지면 기사-인터넷 기사'라는 새로운 대조의 관점에 적용해 보고자 한다. 보고서-신문 기사가 매체에 따른 언어의 차이가 있듯 '지면 기사-인터넷 기사' 사이의 매체에 따른 차이가 분명 있을 것이라 생각된다. [1] [2]
- 방법
- 데이터 구축
- 주제 : 이태원발 코로나 감염 사태 관련 이슈 (이태원의 2030세대의 문화, 성소수자 문제, 등교 연기, 학원 강사의 거짓말로 인한 n차 감염)
- 수집 기간 : 5/7~5/25 중 주제 관련 기사 제목 수집 (지면, 인터넷 pick 기사)[3]
- 실험 데이터
- 신문 기사 내 구어성의 차이 확인을 위해 5/25 이후 관련 주제(코로나) 지면, 인터넷 기사의 데이터를 각 20건 수집해 실험에 활용
- 순서
결론
- 1차 실험
- 실헙 결과 읽기
- 초록색 : 언론사 일치, 보라 : 언론사/매체 모두 일치, 연보라 : 언론사/매체 모두 일치(70% 이하)
- 1차 결론
- IBM Watson은 인터넷 기사와 지면 기사의 차이를 거의 포착해 내지 못했다.
- 언론사별 제목의 문체를 인지해 다수의 지면 기사에서 언론사를 정확히 추론하는 모습을 보였다.
- 그러나 본 연구의 목표였던 '매체에 따른 언어 사용의 차이'는 파악하지 못하는 모습을 보였다.
- 2차 실험
- 실헙 결과 읽기
- 초록색 : 언론사 일치, 보라 : 언론사/매체 모두 일치, 연보라 : 언론사/매체 모두 일치(70% 이하)
- 수정 사항 : 인터넷 기사의 수를 지면 기사의 분량에 맞게 조정했다.
- 2차 결론
- 신문 기사의 수를 바꾸었지만 결과는 크게 다르지 않았다.
- 지면 기사
- 지면 기사를 포착해 내는 비율이 높아지기는 했으나 확신률이 모두 70% 이하였다.
- 언론사의 일치율은 오히려 기사 수를 줄였을 때 낮게 나타났다.
- 인터넷 기사
- 인터넷 기사는 오히려 기사 수를 줄이자 지면 기사와 혼동하는 모습을 보였으며 확신률도 70% 이하의 항목이 높아졌다.
- 언론사의 일치율 역시 기사 수를 줄였을 때 낮게 나타났다.
- 실험 결론의 원인 추측
- 기사 전문이 아닌 제목만을 사용했다는 한계
- 페어클로가 활용했던 썬지(The sun)와 같은 타블로이드형 신문이 아닌, 언론사의 검토를 거친 pick 기사를 이용함에 따른 텍스트의 형식적 동일 지향성을 간과한 한계
- 최종 결론
- 결론적으로 언론사의 지면 기사와 정제된 인터넷 기사 사이에는 문체적 차이 혹은 문어/구어성의 차이가 크게 없다는 것을 확인했다.
- 언론사별 문체나 제목의 형식에는 일면 차이가 있다는 사실이 포착되었다.
- 실험 결론에 따른 궁금증
- 기계가 판단하는 것과 인간이 판단하는 지점이 다른 경우가 종종 있었다. 그렇다면 기계는 인간이 막연하게 생각하는 어떠한 것을 좀 더 객관적으로 판단하는 수단이 될 것인가? 혹은 인간의 직관에 따른 연구의 가능성을 제한하는 수단이 될 것인가?
- 좀 더 나아가서 인간의 직관력에 따른 연구들은 (극단적으로 말하면) 폐기 처리가 될 날이 올 것인가?
주석
- ↑ 간단하게 풀어 보자면 인터넷 기사가 상대적으로 지면 기사에 비해 가볍다거나 좀 더 직설적인 언어를 사용하는 등의 사항이 확인되는지 짚어 내고 싶었다.
- ↑ 사실상 정밀한 조사를 위해서는 지문 내용을 모두 살펴 보는 것이 맞겠지만 본 연구는 약식으로 제목에서 나타나는 차이만 살펴 보고자 한다.
- ↑ 5/25 이후에는 이태원발 코로나 감염에서 쿠팡 물류센터로 화두가 넘어간다. 본 연구는 '이태원발 코로나 감염'에 초점을 맞추고자 다음과 같이 기한을 설정했다.
- ↑ 기사 수는 임의적으로 유사하게 맞추었다. 특정 일자의 기사를 추출하기 보다는 2-3개마다 하나씩 데이터에 반영하는 방식으로 기사를 수집했다.
- ↑ 인터넷 기사의 경우 네이버에서 pick으로 제시되어 있는 기사를 수집했다. 네이버에 따르면 pick이 표시된 기사는 각 언론사가 자신의 '주요 기사'로 선정한 인터넷 기사라고 한다. 네이버 pick 관련 도움말 페이지
- 궁금증 : 지면 기사와 인터넷 기사 제목에서의 구성 차이가 있을까?
- 배경 이론 : 페어클로(Fairclough)는 썬지(The sun)와 공식 문서(보고서 등)의 비교를 통해 신문 기사가 대중적인 언어로의 변환 과정에서 인용과 같은 구어성을 가지고 있다고 설명한다. 본고에서는 이러한 시각을 '지면 기사-인터넷 기사'라는 새로운 대조의 관점에 적용해 보고자 한다. 보고서-신문 기사가 매체에 따른 언어의 차이가 있듯 '지면 기사-인터넷 기사' 사이의 매체에 따른 차이가 분명 있을 것이라 생각된다. [1] [2]
- 방법
- 데이터 구축
- 주제 : 이태원발 코로나 감염 사태 관련 이슈 (이태원의 2030세대의 문화, 성소수자 문제, 등교 연기, 학원 강사의 거짓말로 인한 n차 감염)
- 수집 기간 : 5/7~5/25 중 주제 관련 기사 제목 수집 (지면, 인터넷 pick 기사)[3]
- 실험 데이터
- 신문 기사 내 구어성의 차이 확인을 위해 5/25 이후 관련 주제(코로나) 지면, 인터넷 기사의 데이터를 각 20건 수집해 실험에 활용
- 데이터 구축
- 순서
결론
- 1차 실험
- 실헙 결과 읽기
- 초록색 : 언론사 일치, 보라 : 언론사/매체 모두 일치, 연보라 : 언론사/매체 모두 일치(70% 이하)
- 1차 결론
- IBM Watson은 인터넷 기사와 지면 기사의 차이를 거의 포착해 내지 못했다.
- 언론사별 제목의 문체를 인지해 다수의 지면 기사에서 언론사를 정확히 추론하는 모습을 보였다.
- 그러나 본 연구의 목표였던 '매체에 따른 언어 사용의 차이'는 파악하지 못하는 모습을 보였다.
- 2차 실험
- 실헙 결과 읽기
- 초록색 : 언론사 일치, 보라 : 언론사/매체 모두 일치, 연보라 : 언론사/매체 모두 일치(70% 이하)
- 수정 사항 : 인터넷 기사의 수를 지면 기사의 분량에 맞게 조정했다.
- 2차 결론
- 신문 기사의 수를 바꾸었지만 결과는 크게 다르지 않았다.
- 지면 기사
- 지면 기사를 포착해 내는 비율이 높아지기는 했으나 확신률이 모두 70% 이하였다.
- 언론사의 일치율은 오히려 기사 수를 줄였을 때 낮게 나타났다.
- 인터넷 기사
- 인터넷 기사는 오히려 기사 수를 줄이자 지면 기사와 혼동하는 모습을 보였으며 확신률도 70% 이하의 항목이 높아졌다.
- 언론사의 일치율 역시 기사 수를 줄였을 때 낮게 나타났다.
- 실험 결론의 원인 추측
- 기사 전문이 아닌 제목만을 사용했다는 한계
- 페어클로가 활용했던 썬지(The sun)와 같은 타블로이드형 신문이 아닌, 언론사의 검토를 거친 pick 기사를 이용함에 따른 텍스트의 형식적 동일 지향성을 간과한 한계
- 최종 결론
- 결론적으로 언론사의 지면 기사와 정제된 인터넷 기사 사이에는 문체적 차이 혹은 문어/구어성의 차이가 크게 없다는 것을 확인했다.
- 언론사별 문체나 제목의 형식에는 일면 차이가 있다는 사실이 포착되었다.
- 실험 결론에 따른 궁금증
- 기계가 판단하는 것과 인간이 판단하는 지점이 다른 경우가 종종 있었다. 그렇다면 기계는 인간이 막연하게 생각하는 어떠한 것을 좀 더 객관적으로 판단하는 수단이 될 것인가? 혹은 인간의 직관에 따른 연구의 가능성을 제한하는 수단이 될 것인가?
- 좀 더 나아가서 인간의 직관력에 따른 연구들은 (극단적으로 말하면) 폐기 처리가 될 날이 올 것인가?
주석
- 1차 실험
- 실헙 결과 읽기
- 초록색 : 언론사 일치, 보라 : 언론사/매체 모두 일치, 연보라 : 언론사/매체 모두 일치(70% 이하)
- 1차 결론
- IBM Watson은 인터넷 기사와 지면 기사의 차이를 거의 포착해 내지 못했다.
- 언론사별 제목의 문체를 인지해 다수의 지면 기사에서 언론사를 정확히 추론하는 모습을 보였다.
- 그러나 본 연구의 목표였던 '매체에 따른 언어 사용의 차이'는 파악하지 못하는 모습을 보였다.
- 2차 실험
- 실헙 결과 읽기
- 초록색 : 언론사 일치, 보라 : 언론사/매체 모두 일치, 연보라 : 언론사/매체 모두 일치(70% 이하)
- 수정 사항 : 인터넷 기사의 수를 지면 기사의 분량에 맞게 조정했다.
- 2차 결론
- 신문 기사의 수를 바꾸었지만 결과는 크게 다르지 않았다.
- 지면 기사
- 지면 기사를 포착해 내는 비율이 높아지기는 했으나 확신률이 모두 70% 이하였다.
- 언론사의 일치율은 오히려 기사 수를 줄였을 때 낮게 나타났다.
- 인터넷 기사
- 인터넷 기사는 오히려 기사 수를 줄이자 지면 기사와 혼동하는 모습을 보였으며 확신률도 70% 이하의 항목이 높아졌다.
- 언론사의 일치율 역시 기사 수를 줄였을 때 낮게 나타났다.
- 실험 결론의 원인 추측
- 기사 전문이 아닌 제목만을 사용했다는 한계
- 페어클로가 활용했던 썬지(The sun)와 같은 타블로이드형 신문이 아닌, 언론사의 검토를 거친 pick 기사를 이용함에 따른 텍스트의 형식적 동일 지향성을 간과한 한계
- 최종 결론
- 결론적으로 언론사의 지면 기사와 정제된 인터넷 기사 사이에는 문체적 차이 혹은 문어/구어성의 차이가 크게 없다는 것을 확인했다.
- 언론사별 문체나 제목의 형식에는 일면 차이가 있다는 사실이 포착되었다.
- 실험 결론에 따른 궁금증
- 기계가 판단하는 것과 인간이 판단하는 지점이 다른 경우가 종종 있었다. 그렇다면 기계는 인간이 막연하게 생각하는 어떠한 것을 좀 더 객관적으로 판단하는 수단이 될 것인가? 혹은 인간의 직관에 따른 연구의 가능성을 제한하는 수단이 될 것인가?
- 좀 더 나아가서 인간의 직관력에 따른 연구들은 (극단적으로 말하면) 폐기 처리가 될 날이 올 것인가?