행위

"RTCL(2025) Final Paper 04"의 두 판 사이의 차이

CNUDH

 
(같은 사용자의 중간 판 하나는 보이지 않습니다)
2번째 줄: 2번째 줄:
 
==Ⅰ. 서론==
 
==Ⅰ. 서론==
 
<br/>
 
<br/>
'''<font size="4">1. 연구 배경 및 필요성</font>'''<br/>
+
===1. 연구 배경 및 필요성===
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> 중국은 광활한 영토만큼이나 다채로운 언어 환경을 가지고 있으며, 수많은 방언은 지역 정체성과 문화를 담고 있는 중요한 자산이다. 국가 차원의 언어 정책은 역사적으로 표준어의 보급과 통일된 언어 환경 구축에 초점을 맞춰 진행되어 왔으나, 최근에는 언어 생태계의 다양성 보존을 위한 방언 보호 및 전승에 관한 정책적 논의 또한 활발해지고 있다.</div><br/>
 
<div style="text-align:justify;"> 중국은 광활한 영토만큼이나 다채로운 언어 환경을 가지고 있으며, 수많은 방언은 지역 정체성과 문화를 담고 있는 중요한 자산이다. 국가 차원의 언어 정책은 역사적으로 표준어의 보급과 통일된 언어 환경 구축에 초점을 맞춰 진행되어 왔으나, 최근에는 언어 생태계의 다양성 보존을 위한 방언 보호 및 전승에 관한 정책적 논의 또한 활발해지고 있다.</div><br/>
 
<div style="text-align:justify;"> 이러한 정책 변화와 맞물려 중국 방언 언어는 학계에서도 꾸준히 중요하게 다루어져 왔다. 그러나 기존 선행 연구들은 개별 정책이나 특정 방언 현상에 대한 질적 분석 또는 사례 연구에 집중하는 경향이 있어, 지난 25년 간의 전체 연구 동향을 시기별 변화, 주제별 분포, 구조적 관계 측면에서 거시적으로 파악하는 데는 한계가 있었다. 이에 본 연구는 기존 연구의 검토를 넘어, 텍스트 마이닝 기법을 활용해 2000년부터 2025년 11월까지의 중국 방언 언어 정책 관련 연구 동향을 정량적이고 객관적인 데이터 기반으로 분석할 필요성을 강조한다. 이를 위해 본 연구는 총 828편의 학술 문헌을 분석 대상으로 하여, 방대한 데이터 속에서 잠재된 핵심 주제와 연구자 네트워크의 구조적 관계를 도출함으로써 기존 연구와의 차별성을 확보하고 깊이 있는 통찰을 제시하고자 한다.</div><br/>
 
<div style="text-align:justify;"> 이러한 정책 변화와 맞물려 중국 방언 언어는 학계에서도 꾸준히 중요하게 다루어져 왔다. 그러나 기존 선행 연구들은 개별 정책이나 특정 방언 현상에 대한 질적 분석 또는 사례 연구에 집중하는 경향이 있어, 지난 25년 간의 전체 연구 동향을 시기별 변화, 주제별 분포, 구조적 관계 측면에서 거시적으로 파악하는 데는 한계가 있었다. 이에 본 연구는 기존 연구의 검토를 넘어, 텍스트 마이닝 기법을 활용해 2000년부터 2025년 11월까지의 중국 방언 언어 정책 관련 연구 동향을 정량적이고 객관적인 데이터 기반으로 분석할 필요성을 강조한다. 이를 위해 본 연구는 총 828편의 학술 문헌을 분석 대상으로 하여, 방대한 데이터 속에서 잠재된 핵심 주제와 연구자 네트워크의 구조적 관계를 도출함으로써 기존 연구와의 차별성을 확보하고 깊이 있는 통찰을 제시하고자 한다.</div><br/>
 
<br/>
 
<br/>
'''<font size="4">2. 연구의 목적</font>'''<br/>
+
===2. 연구의 목적===
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> 본 연구의 주된 목적은 텍스트 마이닝 기법을 활용하여 중국 방언 언어 정책 관련 연구 동향을 체계적으로 분석하고, 그 구조적 특징을 규명하는 것이다. 구체적인 목적은 다음과 같다.</div><br/>
 
<div style="text-align:justify;"> 본 연구의 주된 목적은 텍스트 마이닝 기법을 활용하여 중국 방언 언어 정책 관련 연구 동향을 체계적으로 분석하고, 그 구조적 특징을 규명하는 것이다. 구체적인 목적은 다음과 같다.</div><br/>
25번째 줄: 25번째 줄:
 
==Ⅱ. 이론적 배경 및 선행 연구 검토==
 
==Ⅱ. 이론적 배경 및 선행 연구 검토==
 
<br/>
 
<br/>
'''<font size="3">1. 중국 방언 언어 정책의 개관</font>'''<br/>
+
===1. 중국 방언 언어 정책의 개관===
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> 중국은 사회주의 국가 건설과 민족 통일의 목표 아래, 언어 통일을 국가 발전의 핵심 과제로 삼아왔다. 이러한 정책은 크게 표준어(普通話) 보급 정책과 방언 및 소수민족 언어의 지위라는 두 가지 축으로 이해할 수 있다.</div><br/>
 
<div style="text-align:justify;"> 중국은 사회주의 국가 건설과 민족 통일의 목표 아래, 언어 통일을 국가 발전의 핵심 과제로 삼아왔다. 이러한 정책은 크게 표준어(普通話) 보급 정책과 방언 및 소수민족 언어의 지위라는 두 가지 축으로 이해할 수 있다.</div><br/>
44번째 줄: 44번째 줄:
 
<div style="text-align:justify;"> 2000년 『중화인민공화국 통용 언어문자법(中華人民共和國通用語言文字法)』이 시행되면서 표준어의 법적 지위가 확고해졌다. 그러나 동시에 방언의 지역 문화적 가치에 대한 인식이 높아지면서, 방언의 단순 배제가 아닌 방언 보호와 표준어 보급의 균형점을 찾으려는 논의가 활발해지는 추세이다.</div><br/>
 
<div style="text-align:justify;"> 2000년 『중화인민공화국 통용 언어문자법(中華人民共和國通用語言文字法)』이 시행되면서 표준어의 법적 지위가 확고해졌다. 그러나 동시에 방언의 지역 문화적 가치에 대한 인식이 높아지면서, 방언의 단순 배제가 아닌 방언 보호와 표준어 보급의 균형점을 찾으려는 논의가 활발해지는 추세이다.</div><br/>
 
<br/>
 
<br/>
'''<font size="4">2. 선행 연구 검토</font>'''<br/>
+
===2. 선행 연구 검토===
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> 최근 학술계에서는 다양한 분야에서 텍스트 마이닝 기법을 활용하여 연구 동향을 분석하는 방법론이 보편화되고 있으며 이는 본 연구의 방법론적 정당성을 뒷받침한다.</div><br/>
 
<div style="text-align:justify;"> 최근 학술계에서는 다양한 분야에서 텍스트 마이닝 기법을 활용하여 연구 동향을 분석하는 방법론이 보편화되고 있으며 이는 본 연구의 방법론적 정당성을 뒷받침한다.</div><br/>
60번째 줄: 60번째 줄:
 
==Ⅲ. 연구 데이터 개요 및 연구 방법==
 
==Ⅲ. 연구 데이터 개요 및 연구 방법==
 
<br/>
 
<br/>
''' <font size="4">1. 연구 자료의 선정 및 수집</font>'''<br/>
+
===1. 연구 자료의 선정 및 수집===
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> 본 연구는 국내 학계에서 이루어진 중국 방언 언어 정책 관련 연구 동향을 정량적으로 분석하는 것을 목적으로 한다. 이에 따라, 국내 학술 연구의 가장 대표적이고 공신력 있는 데이터베이스인 한국학술지인용색인(KCI)을 자료 수집 데이터베이스로 선정했다.</div><br/>
 
<div style="text-align:justify;"> 본 연구는 국내 학계에서 이루어진 중국 방언 언어 정책 관련 연구 동향을 정량적으로 분석하는 것을 목적으로 한다. 이에 따라, 국내 학술 연구의 가장 대표적이고 공신력 있는 데이터베이스인 한국학술지인용색인(KCI)을 자료 수집 데이터베이스로 선정했다.</div><br/>
75번째 줄: 75번째 줄:
 
<div style="text-align:justify;"> '''2) 최종 수집 자료''': 키워드 조합과 기간을 기준으로 중복 문헌을 제거한 후, 최종적으로 총 828편의 문헌 서지 정보(제목, 초록, 키워드, 발행 연도 등)를 분석 자료로 확정.</div><br/>
 
<div style="text-align:justify;"> '''2) 최종 수집 자료''': 키워드 조합과 기간을 기준으로 중복 문헌을 제거한 후, 최종적으로 총 828편의 문헌 서지 정보(제목, 초록, 키워드, 발행 연도 등)를 분석 자료로 확정.</div><br/>
 
<br/>
 
<br/>
<font size="4">'''2. 자료 전처리'''</font><br/>
+
===2. 자료 전처리===
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> 수집된 비정형 텍스트(제목, 초록, 키워드)를 컴퓨터가 분석 가능한 정형화된 데이터로 변환하기 위해 다음과 같은 전처리 과정을 거쳤다.</div><br/>
 
<div style="text-align:justify;"> 수집된 비정형 텍스트(제목, 초록, 키워드)를 컴퓨터가 분석 가능한 정형화된 데이터로 변환하기 위해 다음과 같은 전처리 과정을 거쳤다.</div><br/>
90번째 줄: 90번째 줄:
 
<div style="text-align:justify;"> ③ 불용어(stopwwords) 제거: ‘연구’, ‘분석’, ‘과정’, ‘방법’, ‘결과’ 등 학술 문헌 전반에 걸쳐 흔하게 사용되어 주제 변별력이 낮은 단어들(총 50여 개)은 사전에 정의하여 제거.</div><br/>
 
<div style="text-align:justify;"> ③ 불용어(stopwwords) 제거: ‘연구’, ‘분석’, ‘과정’, ‘방법’, ‘결과’ 등 학술 문헌 전반에 걸쳐 흔하게 사용되어 주제 변별력이 낮은 단어들(총 50여 개)은 사전에 정의하여 제거.</div><br/>
 
<br/>
 
<br/>
<font size="4">'''3. 연구 방법'''<br/>
+
===3. 연구 방법===
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> 본 연구는 중국 방언 언어 정책 관련 학술 문헌의 연구 동향을 정량적으로 분석하기 위해, 텍스트 마이닝(Text Mining) 방법론을 핵심적으로 사용하며, 구체적으로 토픽 모델링(LDA)와 네트워크 분석(Neo4j) 기법을 적용한다.</div><br/>
 
<div style="text-align:justify;"> 본 연구는 중국 방언 언어 정책 관련 학술 문헌의 연구 동향을 정량적으로 분석하기 위해, 텍스트 마이닝(Text Mining) 방법론을 핵심적으로 사용하며, 구체적으로 토픽 모델링(LDA)와 네트워크 분석(Neo4j) 기법을 적용한다.</div><br/>
132번째 줄: 132번째 줄:
 
==Ⅳ. 연구 동향 분석 결과==
 
==Ⅳ. 연구 동향 분석 결과==
 
<br/>
 
<br/>
<font size="4">'''1. 기술 통계 및 키워드 분석'''</font><br/>
+
===1. 기술 통계 및 키워드 분석===
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> 본 연구는 KCI 학술 데이터베이스를 통해 총 828편의 문헌을 분석 대상으로 확보했다. 텍스트 분석의 신뢰도를 판단하는 초록의 결측률은 46건으로 5.56%에 불과해, LDA 토픽 모델링 등 정량적 분석을 진행하기에 적합한 데이터임을 확인했다.</div><br/>
 
<div style="text-align:justify;"> 본 연구는 KCI 학술 데이터베이스를 통해 총 828편의 문헌을 분석 대상으로 확보했다. 텍스트 분석의 신뢰도를 판단하는 초록의 결측률은 46건으로 5.56%에 불과해, LDA 토픽 모델링 등 정량적 분석을 진행하기에 적합한 데이터임을 확인했다.</div><br/>
141번째 줄: 141번째 줄:
 
<div style="text-align:justify;"> 전처리 및 불용어 제거를 거친 최종 토큰에 대한 빈도 분석을 통해, 연구 분야의 핵심 관심사를 확인했다. 빈도 분석 결과, ‘언어’(964회)와 ‘정책’(649회)이 핵심 프레임을 구성하는 가운데, ‘한국어’(94회), ‘영어’(75회), ‘표준어’(69회), ‘방언’(56회) 등의 구체적인 대상 언어와 정책 목표 관련 단어가 상위권을 형성했다. 이는 연구가 표준어와 방언의 관계, 외국어 및 민족 언어의 지위 등 다양한 하위 주제에 대한 논의를 포괄하고 있음을 시사한다.</div><br/>
 
<div style="text-align:justify;"> 전처리 및 불용어 제거를 거친 최종 토큰에 대한 빈도 분석을 통해, 연구 분야의 핵심 관심사를 확인했다. 빈도 분석 결과, ‘언어’(964회)와 ‘정책’(649회)이 핵심 프레임을 구성하는 가운데, ‘한국어’(94회), ‘영어’(75회), ‘표준어’(69회), ‘방언’(56회) 등의 구체적인 대상 언어와 정책 목표 관련 단어가 상위권을 형성했다. 이는 연구가 표준어와 방언의 관계, 외국어 및 민족 언어의 지위 등 다양한 하위 주제에 대한 논의를 포괄하고 있음을 시사한다.</div><br/>
 
<br/>
 
<br/>
<div style="text-align:center;">'''<그림1> 핵심 키워드 워드 클라우드'''</div><br/>
+
'''<div style="text-align:center;"><그림1> 핵심 키워드 워드 클라우드</div>'''<br/>
 
[[파일:핵심 키워드 워드 클라우드.png|가운데]]<br/>
 
[[파일:핵심 키워드 워드 클라우드.png|가운데]]<br/>
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> 아래와 같이 상위 20개 핵심 키워드 막대 그래프를 통해 ‘언어’와 ‘정책’이라는 핵심 프레임 외에 다양한 대상 언어와 정책 목표가 연구의 주요 관심사임을 시각적으로 확인할 수 있다.</div><br/>
 
<div style="text-align:justify;"> 아래와 같이 상위 20개 핵심 키워드 막대 그래프를 통해 ‘언어’와 ‘정책’이라는 핵심 프레임 외에 다양한 대상 언어와 정책 목표가 연구의 주요 관심사임을 시각적으로 확인할 수 있다.</div><br/>
 
<br/>
 
<br/>
<div style="text-align:center;">'''<그림 > 2핵심 키워드 상위 20개 막대 그래프'''</div><br/>
+
'''<div style="text-align:center;"><그림 > 2핵심 키워드 상위 20개 막대 그래프</div>'''<br/>
 
[[파일:핵심 키워드 상위 20개 막대 그래프.png|가운데]]<br/>
 
[[파일:핵심 키워드 상위 20개 막대 그래프.png|가운데]]<br/>
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> 연구에서 외국어 관련 키워드가 자주 등장하는 것은 글로벌화 추세와 국내 학계의 관심사를 반영하여 외국어 교육 융합 및 한국 정책 사례와의 비교 연구를 활성화하고, 중국 방언 보존 딜레마를 해결할 지역 언어 다양성 정책의 학술적 대안을 모색하고 있기 때문이다. 이는 연구의 논의가 단순히 ‘언어 정책’에 머무르지 않고, 표준어와 방언의 관계, 외국어 및 민족 언어의 지위 문제 등 다양한 하위 주제를 활발하게 포괄하고 있음을 보여준다.</div><br/>
 
<div style="text-align:justify;"> 연구에서 외국어 관련 키워드가 자주 등장하는 것은 글로벌화 추세와 국내 학계의 관심사를 반영하여 외국어 교육 융합 및 한국 정책 사례와의 비교 연구를 활성화하고, 중국 방언 보존 딜레마를 해결할 지역 언어 다양성 정책의 학술적 대안을 모색하고 있기 때문이다. 이는 연구의 논의가 단순히 ‘언어 정책’에 머무르지 않고, 표준어와 방언의 관계, 외국어 및 민족 언어의 지위 문제 등 다양한 하위 주제를 활발하게 포괄하고 있음을 보여준다.</div><br/>
 
<br/>
 
<br/>
<font size="4">'''2. TF-IDF 분석을 통한 개념 강도 및 복합 주제 식별'''</font><br/>
+
===2. TF-IDF 분석을 통한 개념 강도 및 복합 주제 식별===
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> TF-IDF 분석은 키워드의 주제 변별력을 측정한다. TF-IDF 분석 결과, ‘신장’, ‘통일’, ‘지위’, ‘문화어’ 등 구체적인 지역이나 정책 목표를 지칭하는 전문 용어들이 높은 가중치를 가짐을 확인했다. 특히, ‘정책’ 키워드와 가장 맥락적 유사성이 높은 키워드는 ‘언어’'(유사도 0.6653), ‘어문’(유사도 0.2305), ‘기본법’(유사도 0.2034) 순으로 나타나, 정책 논의가 언어의 법제적/규범적 영역을 중심으로 이루어짐을 입증한다.</div><br/>
 
<div style="text-align:justify;"> TF-IDF 분석은 키워드의 주제 변별력을 측정한다. TF-IDF 분석 결과, ‘신장’, ‘통일’, ‘지위’, ‘문화어’ 등 구체적인 지역이나 정책 목표를 지칭하는 전문 용어들이 높은 가중치를 가짐을 확인했다. 특히, ‘정책’ 키워드와 가장 맥락적 유사성이 높은 키워드는 ‘언어’'(유사도 0.6653), ‘어문’(유사도 0.2305), ‘기본법’(유사도 0.2034) 순으로 나타나, 정책 논의가 언어의 법제적/규범적 영역을 중심으로 이루어짐을 입증한다.</div><br/>
157번째 줄: 157번째 줄:
 
<div style="text-align:justify;"> PMI(Pointwise Mutual Information) 점수를 기준으로 분석된 상위 복합 개념(바이그램)은 연구 분야의 특수성을 드러낸다. PMI 점수가 높은 복합 개념 중에는 ‘토픽 모델링’(11.1816), ‘이탈 주민’(10.8596), ‘플랜트 공사’(10.8596), ‘프라이버시 보호’(10.7665) 등이 포함되었다. 이는 언어 정책 연구가 텍스트 마이닝 등의 방법론적 탐구뿐만 아니라, ‘북한 이탈 주민’ 관련 정책이나 기술/법제 영역에서의 용어 표준화(예: ‘플랜트 공사’ 관련 전문 용어), 정보화 시대의 언어/법규(예: ‘프라이버시 보호’)와 같은 사회적 이슈 및 타분야와 융합된 주제들을 특수하게 논의하고 있음을 시사한다.</div><br/>
 
<div style="text-align:justify;"> PMI(Pointwise Mutual Information) 점수를 기준으로 분석된 상위 복합 개념(바이그램)은 연구 분야의 특수성을 드러낸다. PMI 점수가 높은 복합 개념 중에는 ‘토픽 모델링’(11.1816), ‘이탈 주민’(10.8596), ‘플랜트 공사’(10.8596), ‘프라이버시 보호’(10.7665) 등이 포함되었다. 이는 언어 정책 연구가 텍스트 마이닝 등의 방법론적 탐구뿐만 아니라, ‘북한 이탈 주민’ 관련 정책이나 기술/법제 영역에서의 용어 표준화(예: ‘플랜트 공사’ 관련 전문 용어), 정보화 시대의 언어/법규(예: ‘프라이버시 보호’)와 같은 사회적 이슈 및 타분야와 융합된 주제들을 특수하게 논의하고 있음을 시사한다.</div><br/>
 
<br/>
 
<br/>
<font size="4">'''3. 토픽 모델링(LDA)을 통한 핵심 연구 주제 도출'''</font><br/>
+
===3. 토픽 모델링(LDA)을 통한 핵심 연구 주제 도출===
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> LDA 토픽 모델링을 통해 총 5가지의 핵심 연구 주제를 도출했으며, 가장 높은 비중을 차지하는 주제는 토픽 4(‘표준화 및 어문 규범’)와 토픽 3(‘공공 언어 및 영어 정책’)이었다.</div><br/>
 
<div style="text-align:justify;"> LDA 토픽 모델링을 통해 총 5가지의 핵심 연구 주제를 도출했으며, 가장 높은 비중을 차지하는 주제는 토픽 4(‘표준화 및 어문 규범’)와 토픽 3(‘공공 언어 및 영어 정책’)이었다.</div><br/>
 
<br/>
 
<br/>
<div style="text-align:center;">'''<표1> LDA 토픽 모델링을 통해 도출된 중국 방언 언어 정책 연구의 5개 핵심 주제'''</div><br/>
+
'''<div style="text-align:center;"><표1> LDA 토픽 모델링을 통해 도출된 중국 방언 언어 정책 연구의 5개 핵심 주제</div>'''<br/>
 
{|class="wikitable"
 
{|class="wikitable"
 
! <div style="text-align:center;">'''토픽 ID'''</div> || <div style="text-align:center;">'''토픽명'''</div> || <div style="text-align:center;">'''핵심 키워드 (TOP 5)'''</div> || <div style="text-align:center;">'''평균 비중'''</div> || <div style="text-align:center;">'''연구 초점'''</div>
 
! <div style="text-align:center;">'''토픽 ID'''</div> || <div style="text-align:center;">'''토픽명'''</div> || <div style="text-align:center;">'''핵심 키워드 (TOP 5)'''</div> || <div style="text-align:center;">'''평균 비중'''</div> || <div style="text-align:center;">'''연구 초점'''</div>
196번째 줄: 196번째 줄:
 
<div style="text-align:justify;"> 이상의 결화를 종합하면, 2000년대 초반까지 중국 방언 언어 정책 연구는 ‘표준화 및 어문 규범’(토픽 4)을 중심으로 한 규범·통일 담론이 주류를 이뤘으나, 2010년 전후를 기점으로 ‘방언 및 지역 언어 정책’(토픽 1)과 ‘공공 언어 및 영어 정책’(토픽 3) 등 다양성과 사회적 적용을 중시하는 주제들이 급부상하면서, 전체 연구 지형이 규범 중심에서 다원적·융합적 방향으로 전환되고 있음을 알 수 있다.</div><br/>
 
<div style="text-align:justify;"> 이상의 결화를 종합하면, 2000년대 초반까지 중국 방언 언어 정책 연구는 ‘표준화 및 어문 규범’(토픽 4)을 중심으로 한 규범·통일 담론이 주류를 이뤘으나, 2010년 전후를 기점으로 ‘방언 및 지역 언어 정책’(토픽 1)과 ‘공공 언어 및 영어 정책’(토픽 3) 등 다양성과 사회적 적용을 중시하는 주제들이 급부상하면서, 전체 연구 지형이 규범 중심에서 다원적·융합적 방향으로 전환되고 있음을 알 수 있다.</div><br/>
 
<br/>
 
<br/>
<font size="4">'''4. 키워드 공출현 및 개념 허브 네트워크 분석(Neo4j 활용)'''</font><br/>
+
===4. 키워드 공출현 및 개념 허브 네트워크 분석(Neo4j 활용)===
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> 본 연구는 연구 동향의 구조적 특성과 지식 확산 경로를 분석하기 위해 그래프 데이터베이스(GDB) 기반의 네트워크 분석을 수행했다. TF-IDF 가중치를 적용하여 추출된 키워드 노드(Nodes) 621개와 키워드 간 공출현 관계(Relationships) 2,737개를 최종 분석 대상으로 확정하고, 이를 Neo4j 그래프 데이터베이스에 적재하여 분석을 진행했다.</div><br/>
 
<div style="text-align:justify;"> 본 연구는 연구 동향의 구조적 특성과 지식 확산 경로를 분석하기 위해 그래프 데이터베이스(GDB) 기반의 네트워크 분석을 수행했다. TF-IDF 가중치를 적용하여 추출된 키워드 노드(Nodes) 621개와 키워드 간 공출현 관계(Relationships) 2,737개를 최종 분석 대상으로 확정하고, 이를 Neo4j 그래프 데이터베이스에 적재하여 분석을 진행했다.</div><br/>
292번째 줄: 292번째 줄:
 
<div style="text-align:justify;"> 이러한 신규 키워드들은 토픽 3(‘공공 언어 및 영어 정책’)와 토픽 1(‘방언 및 지역 언어 정책’)의 급부상과 일치하며, 국내 학계가 중국 언어 정책을 다룸에 있어 글로벌 시대의 언어 갈등 및 다문화 사회의 언어 지위라는 광범위한 틀에서 논의를 재구성하고 있음을 보여준다.</div><br/>
 
<div style="text-align:justify;"> 이러한 신규 키워드들은 토픽 3(‘공공 언어 및 영어 정책’)와 토픽 1(‘방언 및 지역 언어 정책’)의 급부상과 일치하며, 국내 학계가 중국 언어 정책을 다룸에 있어 글로벌 시대의 언어 갈등 및 다문화 사회의 언어 지위라는 광범위한 틀에서 논의를 재구성하고 있음을 보여준다.</div><br/>
 
<br/>
 
<br/>
<font size="4">'''5. 연구 활동 및 업적 분석'''</font><br/>
+
===5. 연구 활동 및 업적 분석===
 
<div style="text-align:justify;"> 본 연구는 중국 방언 언어 정책 연구 분야에서 가장 활발하게 활동한 핵심 연구자를 파악하기 위해 논문 발표 실적을 분석했다. 연구자 간의 공동 연구 관계를 노드로 설정하고, 연결 중심성 지표를 활용하여 네트워크 내에서 가장 영향력이 크고 활발하게 활동한 연구자를 식별했다.</div><br/>
 
<div style="text-align:justify;"> 본 연구는 중국 방언 언어 정책 연구 분야에서 가장 활발하게 활동한 핵심 연구자를 파악하기 위해 논문 발표 실적을 분석했다. 연구자 간의 공동 연구 관계를 노드로 설정하고, 연결 중심성 지표를 활용하여 네트워크 내에서 가장 영향력이 크고 활발하게 활동한 연구자를 식별했다.</div><br/>
 
<br/>
 
<br/>
309번째 줄: 309번째 줄:
 
==Ⅴ. 결론==
 
==Ⅴ. 결론==
 
<br/>
 
<br/>
<font size="4">'''1. 연구 결과 요약'''</font><br/>
+
===1. 연구 결과 요약===
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> 본 연구는 2000년부터 2025년까지의 KCI 등재 논문 828편을 대상으로 텍스트 마이닝 기법을 적용하여 중국 방언 언어 정책의 연구 동향을 규명하였다.
 
<div style="text-align:justify;"> 본 연구는 2000년부터 2025년까지의 KCI 등재 논문 828편을 대상으로 텍스트 마이닝 기법을 적용하여 중국 방언 언어 정책의 연구 동향을 규명하였다.
315번째 줄: 315번째 줄:
 
특히 LDA 토픽 모델링을 통해 도출된 5가지 핵심 토픽은 기존의 정책·제도, 사회언어학, 교육 중심의 연구 분류를 재확인하는 동시에, 최근 학계의 관심이 ‘국가 통일(표준어 보급)’과 ‘지역 문화 보존(방언 보호)’이라는 상충적 가치의 조화로운 공존을 모색하는 방향으로 구체화되고 있음을 시사한다.</div><br/>
 
특히 LDA 토픽 모델링을 통해 도출된 5가지 핵심 토픽은 기존의 정책·제도, 사회언어학, 교육 중심의 연구 분류를 재확인하는 동시에, 최근 학계의 관심이 ‘국가 통일(표준어 보급)’과 ‘지역 문화 보존(방언 보호)’이라는 상충적 가치의 조화로운 공존을 모색하는 방향으로 구체화되고 있음을 시사한다.</div><br/>
 
<br/>
 
<br/>
<font size="4">'''2. 연구의 의의 및 시사점'''</font><br/>
+
===2. 연구의 의의 및 시사점===
 
<br/>
 
<br/>
 
<div style="text-align:justify;"> 본 연구는 그동안 정성적 분석에 의존했던 중국 방언 언어 정책 연구를 텍스트 마이닝(LDA, Neo4j)을 통해 정량적·객관적으로 분석한 최초의 종합적 시도라는 점에서 의의가 있다. 특히 지식 그래프를 통해 키워드 간의 구조적 관계와 지식 확산 경로를 시각화함으로써, 해당 분야가 폐쇄적인 논의에 그치지 않고 인접 학문 및 타 언어 정책과 활발히 연계되고 있음을 입증하였다.
 
<div style="text-align:justify;"> 본 연구는 그동안 정성적 분석에 의존했던 중국 방언 언어 정책 연구를 텍스트 마이닝(LDA, Neo4j)을 통해 정량적·객관적으로 분석한 최초의 종합적 시도라는 점에서 의의가 있다. 특히 지식 그래프를 통해 키워드 간의 구조적 관계와 지식 확산 경로를 시각화함으로써, 해당 분야가 폐쇄적인 논의에 그치지 않고 인접 학문 및 타 언어 정책과 활발히 연계되고 있음을 입증하였다.
321번째 줄: 321번째 줄:
 
첫째, 언어 다양성 및 보호에 대한 학술적 요구가 증대되고 있다. ‘방언 및 지역 언어 정책’ 토픽의 비중 증가는 표준어 보급을 넘어 방언을 무형문화유산으로 인식하고 이를 기록·전승하려는 정책적 전환이 필요함을 시사한다. 둘째, 비교 언어학적 접근을 통한 실용적 연구의 가능성이다. ‘한국어’, ‘영어’와의 높은 연결성은 중국의 사례를 타산지석 삼아 국내 언어 환경에 적용하거나, 이중 언어 교육 관점에서 접근하려는 융합 연구가 활성화될 수 있음을 보여준다. 셋째, 데이터 기반의 객관적 정책 논의를 위한 기초 자료를 확보하였다. 본 연구가 제시한 연도별 토픽 트렌드와 키워드 지표는 주관적 판단을 배제하고 현 시점의 학술적 흐름을 정확히 파악하는 준거 자료로 활용될 수 있다.</div><br/>
 
첫째, 언어 다양성 및 보호에 대한 학술적 요구가 증대되고 있다. ‘방언 및 지역 언어 정책’ 토픽의 비중 증가는 표준어 보급을 넘어 방언을 무형문화유산으로 인식하고 이를 기록·전승하려는 정책적 전환이 필요함을 시사한다. 둘째, 비교 언어학적 접근을 통한 실용적 연구의 가능성이다. ‘한국어’, ‘영어’와의 높은 연결성은 중국의 사례를 타산지석 삼아 국내 언어 환경에 적용하거나, 이중 언어 교육 관점에서 접근하려는 융합 연구가 활성화될 수 있음을 보여준다. 셋째, 데이터 기반의 객관적 정책 논의를 위한 기초 자료를 확보하였다. 본 연구가 제시한 연도별 토픽 트렌드와 키워드 지표는 주관적 판단을 배제하고 현 시점의 학술적 흐름을 정확히 파악하는 준거 자료로 활용될 수 있다.</div><br/>
 
<br/>
 
<br/>
<font size="4">'''3. 연구의 한계 및 제언'''</font><br/>
+
===3. 연구의 한계 및 제언===
 
<div style="text-align:justify;"> 본 연구는 분석 대상을 KCI 등재 논문으로 한정하여, 국내 학술지에 미수록된 연구 보고서나 CNKI 등 중국 현지의 방대한 문헌을 포괄하지 못했다는 한계를 지닌다. 또한 토픽 모델링의 해석 과정에서 연구자의 주관이 개입될 여지가 있다는 점도 고려해야 한다. 향후 연구에서는 분석 대상을 국외 주요 데이터베이스로 확장하여, 한·중 양국의 연구 동향을 비교 분석하는 심화 연구가 수행되기를 기대한다.</div><br/>
 
<div style="text-align:justify;"> 본 연구는 분석 대상을 KCI 등재 논문으로 한정하여, 국내 학술지에 미수록된 연구 보고서나 CNKI 등 중국 현지의 방대한 문헌을 포괄하지 못했다는 한계를 지닌다. 또한 토픽 모델링의 해석 과정에서 연구자의 주관이 개입될 여지가 있다는 점도 고려해야 한다. 향후 연구에서는 분석 대상을 국외 주요 데이터베이스로 확장하여, 한·중 양국의 연구 동향을 비교 분석하는 심화 연구가 수행되기를 기대한다.</div><br/>
 
==참고 문헌==
 
==참고 문헌==
336번째 줄: 336번째 줄:
 
<div style="text-align:justify;"> 본 부록은 연구의 투명성과 재현성을 높이기 위해, 분석에 사용된 핵심 통계 자료와 Google Colab 환경에서 실행된 주요 코드 및 Neo4j 쿼리를 제시한다.</div><br/>
 
<div style="text-align:justify;"> 본 부록은 연구의 투명성과 재현성을 높이기 위해, 분석에 사용된 핵심 통계 자료와 Google Colab 환경에서 실행된 주요 코드 및 Neo4j 쿼리를 제시한다.</div><br/>
 
<br/>
 
<br/>
<font size="4">'''1. 연구 데이터 기본 통계 및 전처리 요약'''</font><br/>
+
===1. 연구 데이터 기본 통계 및 전처리 요약===
 
<br/>
 
<br/>
 
{|class="wikitable"
 
{|class="wikitable"
350번째 줄: 350번째 줄:
 
|}<br/>
 
|}<br/>
 
<br/>
 
<br/>
<font size="4">'''2. Google Colab 코드 및 Neo4j 쿼리'''</font><br/>
+
===2. Google Colab 코드 및 Neo4j 쿼리===
 
<br/>
 
<br/>
 
''' 1) 텍스트 정규화 및 토큰 추출'''
 
''' 1) 텍스트 정규화 및 토큰 추출'''

2025년 12월 19일 (금) 11:55 기준 최신판

중국 방언 언어 정책 연구 동향 분석:2000년~2025년 KCI 등재 논문을 중심으로

Ⅰ. 서론


1. 연구 배경 및 필요성


중국은 광활한 영토만큼이나 다채로운 언어 환경을 가지고 있으며, 수많은 방언은 지역 정체성과 문화를 담고 있는 중요한 자산이다. 국가 차원의 언어 정책은 역사적으로 표준어의 보급과 통일된 언어 환경 구축에 초점을 맞춰 진행되어 왔으나, 최근에는 언어 생태계의 다양성 보존을 위한 방언 보호 및 전승에 관한 정책적 논의 또한 활발해지고 있다.


이러한 정책 변화와 맞물려 중국 방언 언어는 학계에서도 꾸준히 중요하게 다루어져 왔다. 그러나 기존 선행 연구들은 개별 정책이나 특정 방언 현상에 대한 질적 분석 또는 사례 연구에 집중하는 경향이 있어, 지난 25년 간의 전체 연구 동향을 시기별 변화, 주제별 분포, 구조적 관계 측면에서 거시적으로 파악하는 데는 한계가 있었다. 이에 본 연구는 기존 연구의 검토를 넘어, 텍스트 마이닝 기법을 활용해 2000년부터 2025년 11월까지의 중국 방언 언어 정책 관련 연구 동향을 정량적이고 객관적인 데이터 기반으로 분석할 필요성을 강조한다. 이를 위해 본 연구는 총 828편의 학술 문헌을 분석 대상으로 하여, 방대한 데이터 속에서 잠재된 핵심 주제와 연구자 네트워크의 구조적 관계를 도출함으로써 기존 연구와의 차별성을 확보하고 깊이 있는 통찰을 제시하고자 한다.



2. 연구의 목적


본 연구의 주된 목적은 텍스트 마이닝 기법을 활용하여 중국 방언 언어 정책 관련 연구 동향을 체계적으로 분석하고, 그 구조적 특징을 규명하는 것이다. 구체적인 목적은 다음과 같다.



1) 핵심 연구 주제의 규명


LDA 토픽 모델링을 통해 연구 동향의 잠재된 핵심 주제 5가지를 도출하고 분류한다. 특히 ‘방언 및 지역 언어 정책’과 ‘표준화 및 어문 규범’등의 핵심 주제를 중심으로 시기별 변화 양상을 분석해 주요 트렌드를 확인한다.



2) 연구 네트워크의 구조적 이해


Neo4j를 활용한 네트워크 분석을 통해 키워드 간의 공기 관계를 시각화하고, 연구 분야 간의 융합 구조 및 영향력이 높은 ‘개념 허브(Concept Hub) TOP 15’ 용어를 식별하여 동향의 구조적 특성을 심층적으로 이해한다.



3) 학문적·정책적 시사점 제언


분석 결과를 바탕으로 중국 방언 언어 정책 연구의 특성과 구조를 정리하고, 향후 연구 방향을 제시함으로써 관련 정책 논의에서 참고할 수 있는 기초 자료를 제공하는 것을 목적으로 한다.



Ⅱ. 이론적 배경 및 선행 연구 검토


1. 중국 방언 언어 정책의 개관


중국은 사회주의 국가 건설과 민족 통일의 목표 아래, 언어 통일을 국가 발전의 핵심 과제로 삼아왔다. 이러한 정책은 크게 표준어(普通話) 보급 정책과 방언 및 소수민족 언어의 지위라는 두 가지 축으로 이해할 수 있다.



중국 표준어 보급 정책은 20세기 초부터 시작되었으나, 특히 중화인민공화국 수립 이후 국가적 차원에서 본격화되었다.


연구의 동향을 세 시기로 나누어 분류해 보았는데, 초기의 선행 연구로는 정준호의 「중국 통용언어문자정책 변천과정의 특징에 관한 연구」, 오문의의 「중국 언어 정책의 국가간 비교 연구」 등의 논문에서 중국 방언 언어 정책의 역사적 흐름과 특징을 다루는 내용을 찾아볼 수 있다.



1) 초기(1950~1970년대): 언어 통일 강조.


1956년 『한어병음방안(漢語拼音方案)』 제정과 『보통화 보급 공작 지시(普及普通話工作指示)』 발표를 통해 표준어 보급의 법적 기반이 마련되었다. 이 시기는 언문일치를 통해 교육, 행정, 미디어를 중심으로 표준어를 강력하게 추진하여, 지방어(방언)를 ‘비문화적인 사투리’로 격하하고 사장하는 ‘말살 전략’이 추진되기도 했다. 이는 언어 동화 정책을 통해 국가의 통일성과 정체성을 강화하려는 목적이었다.



2) 중기(1980~1990년대): 소수민족 언어 정책의 회복과 조정.


1970년대 후반 이후 개혁·개방과 함께 소수민족의 문화와 언어 보호를 위한 법적, 정책적 제도가 회복되기 시작했다. 이 시기에는 표준어 보급과 더불어 소수민족 언어의 사용을 보장하는 정책적 균형을 모색하기 시작했다.



3) 후기(2000년대 이후): 법제화 및 정책의 정교화.


2000년 『중화인민공화국 통용 언어문자법(中華人民共和國通用語言文字法)』이 시행되면서 표준어의 법적 지위가 확고해졌다. 그러나 동시에 방언의 지역 문화적 가치에 대한 인식이 높아지면서, 방언의 단순 배제가 아닌 방언 보호와 표준어 보급의 균형점을 찾으려는 논의가 활발해지는 추세이다.



2. 선행 연구 검토


최근 학술계에서는 다양한 분야에서 텍스트 마이닝 기법을 활용하여 연구 동향을 분석하는 방법론이 보편화되고 있으며 이는 본 연구의 방법론적 정당성을 뒷받침한다.



1) 공간정보 및 기술 분야


임시영·이미숙·진기호·신동빈의「텍스트 마이닝 기술을 이용한 공간정보 분야의 연구 동향에 관한 고찰」은 국가연구개발 보고서 및 논문을 분석하여 공간정보 분야의 연구 동향을 파악하였다. 연구 결과, 시스템 관련 연구는 감소하고 활용 관련 연구가 증가하는 추세를 정량적으로 확인하며, 이 분야의 학문적 변화를 효과적으로 제시하였다.



2) 소비자학 및 연구 동향 분야


김기옥의「텍스트마이닝을 활용한 소비자학 연구 동향 분석」에서는 최근 15년간 발표된 논문 984편의 초록을 LDA 토픽 모델링으로 분석하여 8가지 핵심 토픽을 도출하고, 시계열 회귀 분석을 통해 ‘환경·안전’과 같은 부상(Hot) 토픽과 ‘재무상담’과 같은 하강(Cold) 토픽을 정량적으로 규명하였다.



이러한 선행 사례들은 텍스트 마이닝이 언어 정책과 같이 복합적이고 다층적인 주제의 학술 동향을 정량적이고 객관적으로 분석하는 데 효과적인 방법론임을 입증한다. 본 연구 역시 이러한 방법론을 중국 방언 언어 정책 연구에 적용함으로써 기존 연구의 한계를 극복하고 새로운 학문적 시각을 제시할 것이다.



Ⅲ. 연구 데이터 개요 및 연구 방법


1. 연구 자료의 선정 및 수집


본 연구는 국내 학계에서 이루어진 중국 방언 언어 정책 관련 연구 동향을 정량적으로 분석하는 것을 목적으로 한다. 이에 따라, 국내 학술 연구의 가장 대표적이고 공신력 있는 데이터베이스인 한국학술지인용색인(KCI)을 자료 수집 데이터베이스로 선정했다.



1) 주요 데이터베이스: 한국학술지인용색인(KCI)을 활용하여 국내 학술지의 논문 서지 정보를 수집.


2) 자료 유형 및 기간: 연구의 객관성을 확보하고 동향 변화를 포착하기 위해, 학술지 논문(Journal Article)을 주된 대상으로 하며, 2000년부터 2025년까지 발표된 문헌을 연구 범위로 설정.



KCI 내에서의 검색의 효율성과 정확성을 높이기 위해, 주제를 포괄하는 핵심 키워드를 조합하여 사용했다.



1) 핵심 검색 키워드: 다음과 같은 키워드 조합을 사용하여 검색을 수행.


“중국 방언” OR “中國方言” AND 언어 정책


이 조합은 ‘중국 방언’과 그 한자어인 ‘中國方言’을 모두 포함(OR)하면서, 해당 주제가 반드시 ‘언어 정책’과 관련된 문헌만을 수집(AND)하도록 설정된 것이다.



2) 최종 수집 자료: 키워드 조합과 기간을 기준으로 중복 문헌을 제거한 후, 최종적으로 총 828편의 문헌 서지 정보(제목, 초록, 키워드, 발행 연도 등)를 분석 자료로 확정.



2. 자료 전처리


수집된 비정형 텍스트(제목, 초록, 키워드)를 컴퓨터가 분석 가능한 정형화된 데이터로 변환하기 위해 다음과 같은 전처리 과정을 거쳤다.



1) 텍스트 정규화 및 클리닝


① 텍스트 정규화: 초록 및 논문명 등의 텍스트를 Unicode Nomalization Form(NFKC)을 사용하여 정규화.


② 특수 문자 및 불필요 정보 제거: 분석에 불필요한 URL, HTML 태그, 특수 문자, 문장 부호 등을 제거하고, 모든 텍스트를 소문자로 통일.



2) 형태소 분석 및 토큰화


① 한국어 형태소 분석: 한국어의 의미 단위를 정확하게 추출하기 위해 Komoran 형태소 분석기를 사용.


② 토큰 추출 기준: 명확한 의미를 가진 단어의 추출을 위해 명사(NNG, NNP) 및 외국어(SL)만을 최종 분석 단위(토큰)로 추출.


③ 불용어(stopwwords) 제거: ‘연구’, ‘분석’, ‘과정’, ‘방법’, ‘결과’ 등 학술 문헌 전반에 걸쳐 흔하게 사용되어 주제 변별력이 낮은 단어들(총 50여 개)은 사전에 정의하여 제거.



3. 연구 방법


본 연구는 중국 방언 언어 정책 관련 학술 문헌의 연구 동향을 정량적으로 분석하기 위해, 텍스트 마이닝(Text Mining) 방법론을 핵심적으로 사용하며, 구체적으로 토픽 모델링(LDA)와 네트워크 분석(Neo4j) 기법을 적용한다.



1) 활용 도구 및 환경


본 연구는 데이터 처리의 효율성을 높이고, 분석 결과의 시각화 및 구조적 이해를 돕기 위해 다음과 같은 도구들을 사용했다.



① Google Colab 환경에서의 데이터 처리


Python 기반의 클라우드 환경인 Google Colab을 활용하여 전처리, 빈도 분석, TF-IDF, LDA 토픽 모델링 등 대규모 텍스트 마이닝 작업을 수행했다.



② Neo4j 그래프 데이터베이스 구축 및 활용


Neo4j는 텍스트 마이닝 결과 중 키워드 간의 공기(共起) 관계를 중심으로 저장하고 분석하는 데 특화된 그래프 데이터베이스이다. 특히, 복잡하게 얽힌 키워드 네트워크 구조(총 노드 621개, 관계 2,737개)를 시각적인 지식 그래프 형태로 구축하여, 정량적인 분석 결과와 함께 연구 동향의 구조적 연관성을 직관적으로 파악하는 데 중점을 두었다.



● Neo4j 데이터 구조:
노드: Word(단어), Document(논문), Topic(주제)
관계(Relationships): BELONGS_TO(문서가 특정 토픽에 속하는 관계), CO_OCCURS_WITH(키워드 간의 공기 관계), CONTAINS_WORD(문서가 특정 단어를 포함하는 관계), FOLLOWS, SIMILAR_TO(필요에 따라 추가적인 관계를 정의하여 분석의 깊이를 더함)



③ 연구자 활동 분석을 위한 도구 및 지표


연구자 활동 분석을 위해 데이터 처리 과정에서 추출된 주저자 정보를 기반으로, 가장 활발하게 논문을 발표한 연구자를 식별하는 데 중점을 두었다.



2) 분석 방법론


텍스트 마이닝은 대규모의 비정형 텍스트 데이터에서 유의미한 패턴, 추세, 지식 등을 추출하는 데이터 과학 기법이다. 이는 기존 내용 분석의 주관적 한계를 보완하여, 정량적이고 객관적인 통찰력을 제공한다는 점에서 학술 연구 동향 분석에 매우 효과적이다.



① 기술 통계 및 키워드 분석


시기별 논문 발표 추이 및 빈도 분석을 통해 연구의 기본적인 동향을 파악하고, 주요 핵심 키워드 TOP 30을 추출하여 연구 관심사의 전반적인 분포를 시각화한다.



② 토픽 모델링


LDA와 같은 통계적 모델을 활용하여 방대한 텍스트 데이터에 잠재된 추상적인 주제를 도출하고 분류하는 기법이다. 각 주제는 함께 자주 출현하는 단어들의 확률 분포로 정의된다. 잠재된 연구 주제를 5개의 토픽으로 도출하고, 각 토픽의 해석 및 분류를 통해 연구 동향의 시기적 변화 양상을 정량적으로 분석하여 주요 트렌드를 확인한다.



③ 네트워크 분석 및 공기 분석


텍스트 내에서 특정 키워드들이 얼마나 자주 동시출현하는지를 측정하고, 이를 노드와 엣지로 연결하여 네트워크로 시각화하는 기법이다. 키워드 공기 네트워크 분석을 통해 주제 간의 구조적 관계를 파악하고, 연결 중심성 분석을 실행하여 연구 동향의 핵심 축인 ‘개념 허브’ 용어(예: 언어, 정책 등 TOP 15)를 식별한 후, 연구 주제 간의 구조적 연관성을 깊이 있게 규명하는 데 활용한다. 이 과정은 Neo4j 그래프 데이터베이스를 통해 복잡한 네트워크 구조의 시각적 해석 및 분석 효율을 높였다.



Ⅳ. 연구 동향 분석 결과


1. 기술 통계 및 키워드 분석


본 연구는 KCI 학술 데이터베이스를 통해 총 828편의 문헌을 분석 대상으로 확보했다. 텍스트 분석의 신뢰도를 판단하는 초록의 결측률은 46건으로 5.56%에 불과해, LDA 토픽 모델링 등 정량적 분석을 진행하기에 적합한 데이터임을 확인했다.



2000년부터 2025년까지의 연도별 논문 발표 추이는 연구 동향의 동적 변화를 보여준다. 특정 연도에 연구가 집중되는 현상은 주로 국가 교육과정 개정 시기나 언어 관련 법규의 주요 변화와 맞물려 나타나는 경향이 있다. 특히, 2010년대 중반 이후 ‘디지털 기반 학습’ 관련 연구가 급부상하는 등 시의성 있는 주제에 대한 학계의 반응이 민감하게 포착된다.


논문 발행 기관 및 주저자 소속 기관 분석을 통해 국내 연구의 주요 거점과 연구자 네트워크를 파악할 수 있으며, 이는 주요 연구자 네트워크 분석의 기초 자료로 활용된다.



전처리 및 불용어 제거를 거친 최종 토큰에 대한 빈도 분석을 통해, 연구 분야의 핵심 관심사를 확인했다. 빈도 분석 결과, ‘언어’(964회)와 ‘정책’(649회)이 핵심 프레임을 구성하는 가운데, ‘한국어’(94회), ‘영어’(75회), ‘표준어’(69회), ‘방언’(56회) 등의 구체적인 대상 언어와 정책 목표 관련 단어가 상위권을 형성했다. 이는 연구가 표준어와 방언의 관계, 외국어 및 민족 언어의 지위 등 다양한 하위 주제에 대한 논의를 포괄하고 있음을 시사한다.



<그림1> 핵심 키워드 워드 클라우드


핵심 키워드 워드 클라우드.png



아래와 같이 상위 20개 핵심 키워드 막대 그래프를 통해 ‘언어’와 ‘정책’이라는 핵심 프레임 외에 다양한 대상 언어와 정책 목표가 연구의 주요 관심사임을 시각적으로 확인할 수 있다.



<그림 > 2핵심 키워드 상위 20개 막대 그래프


핵심 키워드 상위 20개 막대 그래프.png



연구에서 외국어 관련 키워드가 자주 등장하는 것은 글로벌화 추세와 국내 학계의 관심사를 반영하여 외국어 교육 융합 및 한국 정책 사례와의 비교 연구를 활성화하고, 중국 방언 보존 딜레마를 해결할 지역 언어 다양성 정책의 학술적 대안을 모색하고 있기 때문이다. 이는 연구의 논의가 단순히 ‘언어 정책’에 머무르지 않고, 표준어와 방언의 관계, 외국어 및 민족 언어의 지위 문제 등 다양한 하위 주제를 활발하게 포괄하고 있음을 보여준다.



2. TF-IDF 분석을 통한 개념 강도 및 복합 주제 식별


TF-IDF 분석은 키워드의 주제 변별력을 측정한다. TF-IDF 분석 결과, ‘신장’, ‘통일’, ‘지위’, ‘문화어’ 등 구체적인 지역이나 정책 목표를 지칭하는 전문 용어들이 높은 가중치를 가짐을 확인했다. 특히, ‘정책’ 키워드와 가장 맥락적 유사성이 높은 키워드는 ‘언어’'(유사도 0.6653), ‘어문’(유사도 0.2305), ‘기본법’(유사도 0.2034) 순으로 나타나, 정책 논의가 언어의 법제적/규범적 영역을 중심으로 이루어짐을 입증한다.



PMI(Pointwise Mutual Information) 점수를 기준으로 분석된 상위 복합 개념(바이그램)은 연구 분야의 특수성을 드러낸다. PMI 점수가 높은 복합 개념 중에는 ‘토픽 모델링’(11.1816), ‘이탈 주민’(10.8596), ‘플랜트 공사’(10.8596), ‘프라이버시 보호’(10.7665) 등이 포함되었다. 이는 언어 정책 연구가 텍스트 마이닝 등의 방법론적 탐구뿐만 아니라, ‘북한 이탈 주민’ 관련 정책이나 기술/법제 영역에서의 용어 표준화(예: ‘플랜트 공사’ 관련 전문 용어), 정보화 시대의 언어/법규(예: ‘프라이버시 보호’)와 같은 사회적 이슈 및 타분야와 융합된 주제들을 특수하게 논의하고 있음을 시사한다.



3. 토픽 모델링(LDA)을 통한 핵심 연구 주제 도출


LDA 토픽 모델링을 통해 총 5가지의 핵심 연구 주제를 도출했으며, 가장 높은 비중을 차지하는 주제는 토픽 4(‘표준화 및 어문 규범’)와 토픽 3(‘공공 언어 및 영어 정책’)이었다.



<표1> LDA 토픽 모델링을 통해 도출된 중국 방언 언어 정책 연구의 5개 핵심 주제


토픽 ID
토픽명
핵심 키워드 (TOP 5)
평균 비중
연구 초점
토픽 1
방언 및 지역 언어 정책
방언, 지역, 사회, 퀘벡, 프랑스어
18.6%
지역적 특수성, 소수민족 언어 및 광역권(퀘벡, 프랑스어권)의 언어 다양성 문제.
토픽 4
표준화 및 어문 규범
한글, 표준어, 어문, 규범, 맞춤법
23.9%
언어의 표준화화 규범에 대한 논의, 특히 북한 문화어, 한글 맞춤법 등 역사적/규범적 정책에 초점.
토픽 3
공공 언어 및 영어 정책
영어, 공공, 한국어, 유럽, 외국어
23.3%
공공 영역에서의 언어 사용(쉬운 언어), 글로벌화에 따른 영어 및 외국어 교육/정책 문제.
토픽 2
민족어 및 러시아어 정책
민족, 러시아, 정체성, 러시아어, 사전
18.0%
고려인, 조선족 등 특정 민족 집단의 언어 사용 및 정체성 관련 논의, 러시아 및 CIS 지역의 언어 상황.
토픽 5
전문/기술 용어 및 문자
용어, 전문, 문자, 번역, 표기
16.2%
언어의 기술적 측면 및 전문 분야에서의 사용 문제(예: 용어 순화, 표기 체계, 문자 개혁).



LDA 모델을 통해 도출된 5가지 핵심 주제의 전체 문서 내 평균 비중은 아래 원형 그래프에서 확인된다. (각 섹션의 크기는 문서 수를 의미하며, 상세한 비중은 <표1>에서 확인할 수 있다.)



<그림3> 토픽별 비중 파이 그래프


토픽별 비중 파이 그래프.png



각 토픽이 어느 하나로 치우치지 않고 비교적 균형 잡힌 비중(17~23%)을 차지하고 있으며, 이는 연구 생태계가 다양한 하위 주제를 포괄하고 있음을 시사한다.



LDA 토픽 트렌드 시계열 분석 그래프를 통해서는 연도별 주요 토픽의 동적 변화를 확인했다. 그래프에서 각 토픽의 논문 수 변화를 추적한 결과는 다음과 같다.



<그림4> 연도별 주요 토픽 트렌드 변화 그래프


연도별 주요 토픽 트렌드 변화 그래프.png



이 그래프는 2010년을 전후로 연구의 핵심 패러다임이 전환되었음을 명확히 시각적으로 증명한다. 초기 연구를 주도했던 규범적 주제(토픽 4)의 논문 비중이 감소하고, ‘방언 및 지역 언어 정책’(토픽 1)과 같은 다양성 중심 주제의 논문 비중이 뚜렷하게 증가하는 추세를 확인했다.



토픽 4(‘표준화 및 어문 규범’)는 연구 기간 내내 꾸준히 일정 수준 이상의 연구 비중을 차지하며, 언어 규범 및 통일 문제가 해당 분야의 전통적인 기반 연구 영역임을 보여준다.


토픽 3(‘공공 언어 및 영어 정책’)과 토픽 1(‘방언 및 지역 언어 정책’)의 논문 수가 2010년 이후 급격히 증가하며 연구의 주요 동력이 되고 있다. 이는 글로벌 언어 환경과 언어 다양성 보존이라는 시대적 요구가 학계에 반영된 결과이다.


토픽 5(‘전문/기술 용어 및 문자’)는 특정 시기에 연구가 활발해지는 주기적 패턴을 보여, 언어의 기술적 정비나 문자 관련 정책 이슈 발생 시 집중적으로 다루어졌음을 추론하게 한다.



이상의 결화를 종합하면, 2000년대 초반까지 중국 방언 언어 정책 연구는 ‘표준화 및 어문 규범’(토픽 4)을 중심으로 한 규범·통일 담론이 주류를 이뤘으나, 2010년 전후를 기점으로 ‘방언 및 지역 언어 정책’(토픽 1)과 ‘공공 언어 및 영어 정책’(토픽 3) 등 다양성과 사회적 적용을 중시하는 주제들이 급부상하면서, 전체 연구 지형이 규범 중심에서 다원적·융합적 방향으로 전환되고 있음을 알 수 있다.



4. 키워드 공출현 및 개념 허브 네트워크 분석(Neo4j 활용)


본 연구는 연구 동향의 구조적 특성과 지식 확산 경로를 분석하기 위해 그래프 데이터베이스(GDB) 기반의 네트워크 분석을 수행했다. TF-IDF 가중치를 적용하여 추출된 키워드 노드(Nodes) 621개와 키워드 간 공출현 관계(Relationships) 2,737개를 최종 분석 대상으로 확정하고, 이를 Neo4j 그래프 데이터베이스에 적재하여 분석을 진행했다.



Neo4j에 적재된 네트워크의 핵심 통계치는 다음과 같다. 전체 네트워크에서 노드의 평균 연결 중심성은 8.8개였으며, 이는 대부분의 키워드가 평균적으로 8~9개의 다른 키워드들과 연결되어 있음을 의미한다. 특히 ‘언어’와 ‘정책’ 키워드의 연결 중심성(Degree Centrality)이 압도적으로 높아, 이들이 연구 분야의 핵심적인 ‘개념 허브(Concept Hub)’로 기능하고 있음을 정량적으로 확인했다.



<표2> 상위 키워드 연결 중심성 분석


순위
키워드 ID
연결 중심성(연결된 노드 수)
해석
1
언어
102
연구의 최상위 프레임
2
정책
88
연구의 핵심 주제
3
한국어
49
후기 연구의 핵심 융합 대상
4
영어
37
글로벌 언어 환경 관련 관심사
5
표준어
35
전통적/규범적 논의의 중심



상위 키워드 분석 결과, 기존의 ‘언어’와 ‘정책’을 넘어 ‘한국어’, ‘영어’, ‘표준어’, ‘방언’이 네트워크를 형성하는 핵심 키워드임을 재확인했다. 특히 ‘한국어’(3위, 49개 노드 연결)와 ‘영어’(4위, 37개 노드 연결)의 높은 연결 중심성은 중국 방언 연구가 단순히 지역적 논의에 국한되지 않고, 국내 언어 정책 및 글로벌 언어 교육과의 융합 연구 형태로 확장되고 있음을 보여준다.



네트워크 분석을 통해 연구 패러다임의 전환을 정량적으로 증명하기 위해, 연구 기간(20000년~2025년)을 초기(2000년~2009년)와 후기(2010년~2025년)로 나누어 핵심 키워드의 연결 중심성 변화를 측정했다.



<표3> 초기/후기 핵심 키워드 연결 중심성 변화


키워드
초기(2000~2009년) 연결 중심성
후기(2010~2025년) 연결 중심성
중심성 변화
표준어
21
14
감소(-7)
어문
18
10
감소(-8)
규범
15
7
감소(-8)
한국어
5
44
급증(+39)
영어
4
33
급증(+29)
지역
7
25
급증(+18)



표에서 보이듯이, 초기 연구를 주도했던 ‘표준어’, ‘어문’, ‘규범’과 같은 규범/통제 중심 키워드의 연결 중심성은 후기로 갈수록 뚜렷하게 감소했다. 반면, ‘한국어’, ‘영어’, ‘지역’ 키워드의 연결 중심성은 급격히 상승하며 후기 네트워크의 새로운 ‘개념 허브’로 기능하고 있다. 이는 중국 방언 언어 정책 연구가 통제 중심의 전통적 논의에서, 다양성 인정 및 사회적 적용 중심의 실용적, 융합적 연구로 패러다임이 전환되었음을 구조적으로 입증하는 결과이다.



키워드 간의 동시 출현 빈도가 높은 TOP 30 관계를 분석한 결과, ‘언어-정책’(Weight 387) 관계가 연구의 핵심 프레임을 규정하며, ‘표준어-어문-규범’ 그룹과 ‘러시아-민족-러시아어’ 그룹 등 강한 내부 응집성을 보이는 클러스터를 확인했다.



네트워크 내에서 가장 많은 다른 키워드들과 연결된 개념 허브(중심성 높은 용어)는 연구 동향의 핵심 연결고리이다. 다음 표4는 연결 수가 높은 상위 15개의 키워드를 나타낸 것이며, 그림5는 키워드 간 동시 출현 관계를 나타낸 것이다.



<표4> 키워드 연결 노드 수


순위
단어
연결된 노드 수
순위
단어
연결된 노드 수
1
언어
615
9
문화
100
2
정책
597
10
규범
98
3
한국어
216
11
규정
89
4
영어
178
12
러시아어
86
5
표준어
167
13
프랑스
81
6
지역
156
14
조선어
79
7
사회
137
15
다문화
78
8
어휘
106



<그림5> 키워드 간 동시 출현 관계


키워드 간 동시 출현 관계.png



이는 ‘언어’와 ‘정책’이 전체 네트워크의 근간을 이루는 가운데, ‘한국어’, ‘영어’, ‘표준어’ 등 구체적인 언어 개념들이 매우 높은 연결성을 가짐을 확인했다. 이는 국내 학계가 단순히 중국 정책만을 다루기보다, 한국어 및 기타 외국어 정책과의 비교 또는 영향을 통해 논의를 확장하고 있음을 보여준다.



본 연구는 2000년~2009년(초기)과 2010년~2025년(후기) 두 시기로 나누어 네트워크를 분할 분석함으로써, 연구 동향의 패러다임 전환을 네트워크 구조의 변화를 통해 확인했다.



<표5> 초기/후기 네트워크 분할 분석


구분
2000년~2009년(초기 연구)
2010년~2025년(후기 연구)
중심 키워드(TOP 5)
언어, 정책, 표준어, 어문, 규범
언어, 정책, 한국어, 영어, 지역
새로운 연결고리
러시아(민족어 관련)
다문화, 디지털, 외국어, 교육
연구의 초점
규범 및 통일 중심의 전통적 언어 정책, 문법, 어휘 연구
사회적 적용 및 다양성 중심의 실용적 언어 정책, 교육, 사회적 영향 연구
시사점
표준화와 민족 언어 이슈에 대한 논의가 네트워크의 주축을 형성함.
글로벌화와 사회적 다양성이라는 새로운 맥락이 강력하게 유입되었으며, 논의의 범위가 ‘지역 언어 보존’과 ‘외국어 교육’으로 확장됨.



초기 네트워크는 ‘표준어’, ‘어문’, ‘규범’과 같은 규범적/제도적 키워드가 ‘언어’와 ‘정책’을 연결하는 강력한 허브 역할을 했다. 이는 연구의 초점이 언어 통일을 위한 국가 주도 정책과 그에 따른 언어의 기술적 정비에 있었다는 점을 시사한다.


후기 네트워크에서는 ‘한국어’, ‘영어’, ‘지역’과 같은 키워드들의 연결 중심성이 급격히 강화되었다. 특히, ‘지역’과 ‘방언’의 연결성 증가는 정책의 중심이 ‘통제’에서 ‘다양성 인정 및 보존’으로 전환되는 학계의 흐름을 네트워크상에서 명확히 보여준다.



2010년 이후 후기 네트워크에 ‘다문화’(TOP 15 연결성 획득), ‘디지털’, ‘외국어’와 같은 키워드들이 새로운 노드로 등장하여, 기존의 ‘언어-정책’ 관계망과 빠르게 연결되었다. 이는 언어 정책 연구가 사회 변동과 기술 발전에 민감하게 반응하며 융합적인 주제를 포괄하고 있음을 증명한다.



이러한 신규 키워드들은 토픽 3(‘공공 언어 및 영어 정책’)와 토픽 1(‘방언 및 지역 언어 정책’)의 급부상과 일치하며, 국내 학계가 중국 언어 정책을 다룸에 있어 글로벌 시대의 언어 갈등 및 다문화 사회의 언어 지위라는 광범위한 틀에서 논의를 재구성하고 있음을 보여준다.



5. 연구 활동 및 업적 분석

본 연구는 중국 방언 언어 정책 연구 분야에서 가장 활발하게 활동한 핵심 연구자를 파악하기 위해 논문 발표 실적을 분석했다. 연구자 간의 공동 연구 관계를 노드로 설정하고, 연결 중심성 지표를 활용하여 네트워크 내에서 가장 영향력이 크고 활발하게 활동한 연구자를 식별했다.



<그림6> 가장 많이 활동한 연구자 TOP 20


가장 많이 활동한 연구자 TOP 20.png



연결 중심성이 높다는 것은 해당 연구자들이 가장 많은 수의 다른 연구자와 직접적인 공동 연구 관계를 맺고 있음을 의미한다. 이는 이들이 연구 주제 및 방법론의 확산에 가장 큰 영향을 미치며, 연구 집단 간의 지식 공유의 허브 역할을 수행하고 있음을 시사한다.


상위 20명의 연구자들을 통해 연구 활동이 일부 핵심 연구자에게 집중되어 있음을 파악할 수 있으며, 이는 연구의 활발함에도 불구하고 인적 네트워크 구조가 클러스터 중심으로 분리되어 있을 가능성을 내포한다.



위 그림에서 확인할 수 있듯, ‘정경택’ 연구자가 총 20편의 논문을 발표하며 이 분야에서 가장 왕성한 연구 활동을 보여주었다. ‘권혁재’(11편), ‘조태린’(10편) 등의 연구자들도 다수의 논문을 통해 연구 활동에 크게 기여하고 있다. 이는 특정 핵심 연구자들이 연구 활동을 주도하고 있음을 시사한다.



특히 이들 핵심 연구자들이 수행한 연구의 내용적 범위를 검토해 보면, 단순한 생산성의 차원을 넘어 해당 분야의 주요 논의 지형을 형성해 온 중심축임을 확인할 수 있다.. 먼저 정경택의 연구는 주로 중앙아시아와 CIS 지역을 대상으로 한 문자 정책과 언어 상황 분석에 집중되어 있으며, 타지키스탄의 문자 교체 과정과 같은 사례를 통해 언어 정책이 정치·사회적 변동과 어떻게 연계되는지를 심층적으로 규명하고 있다. 권혁재의 연구는 발칸 지역을 중심으로 한 세르보크로아티아어 후속 언어들의 분화 양상을 다루며, 언어가 민족 정체성과 국가주의 형성에서 수행하는 역할을 체계적으로 분석하고 있다는 점에서 언어 정책 연구의 비교 정책적 시각을 확장한다는 의의를 지닌다. 조태린은 표준어 규범의 구조적 한계를 비판적으로 검토하고 언어 소외 계층을 대상으로 한 정책의 현황과 과제를 분석해 왔으며, 이를 통해 표준어 중심 정책과 언어권 보장의 균형이라는 문제를 지속적으로 제기하고 있다.



이처럼 주요 연구자들은 각각 상이한 지역과 정책 사례를 다루면서도, 공통적으로 언어 정책의 규범성, 정체성, 그리고 사회적 약자 보호라는 핵심 쟁점을 중심에 두고 연구를 발전시켜 왔다. 이는 중국 방언 언어 정책 연구가 표준어 중심의 규범적 접근에서 벗어나 다양한 정책 환경과 비교 사례를 참조하는 방향으로 확장되고 있음을 보여주는 동시에, 학문적 논의의 심화와 구조적 발전에 이들이 중요한 기여를 하고 있음을 시사한다.



Ⅴ. 결론


1. 연구 결과 요약


본 연구는 2000년부터 2025년까지의 KCI 등재 논문 828편을 대상으로 텍스트 마이닝 기법을 적용하여 중국 방언 언어 정책의 연구 동향을 규명하였다.

분석 결과, 연구의 무게중심이 초기 ‘표준화·규범’ 중심에서 최근 ‘다양성·사회적 적용’으로 이동하는 뚜렷한 경향성을 확인하였다. 시계열 분석 및 연결 중심성 분석에서 초기 우세했던 ‘표준어’, ‘어문’, ‘규범’ 키워드의 영향력은 감소한 반면, 후기에는 ‘한국어’, ‘영어’, ‘지역’ 등의 키워드가 새로운 개념 허브로 부상하였다. 이는 국내 학계가 중국 방언 정책을 단순히 중국 내부의 어문 규범 문제가 아닌, 한국어 및 글로벌 언어와의 비교·융합 연구이자 지역 문화 보존의 관점으로 확장하여 다루고 있음을 실증적으로 보여준다.

특히 LDA 토픽 모델링을 통해 도출된 5가지 핵심 토픽은 기존의 정책·제도, 사회언어학, 교육 중심의 연구 분류를 재확인하는 동시에, 최근 학계의 관심이 ‘국가 통일(표준어 보급)’과 ‘지역 문화 보존(방언 보호)’이라는 상충적 가치의 조화로운 공존을 모색하는 방향으로 구체화되고 있음을 시사한다.



2. 연구의 의의 및 시사점


본 연구는 그동안 정성적 분석에 의존했던 중국 방언 언어 정책 연구를 텍스트 마이닝(LDA, Neo4j)을 통해 정량적·객관적으로 분석한 최초의 종합적 시도라는 점에서 의의가 있다. 특히 지식 그래프를 통해 키워드 간의 구조적 관계와 지식 확산 경로를 시각화함으로써, 해당 분야가 폐쇄적인 논의에 그치지 않고 인접 학문 및 타 언어 정책과 활발히 연계되고 있음을 입증하였다.

본 연구의 결과는 향후 언어 정책 수립 및 후속 연구에 다음과 같은 시사점을 제공한다.

첫째, 언어 다양성 및 보호에 대한 학술적 요구가 증대되고 있다. ‘방언 및 지역 언어 정책’ 토픽의 비중 증가는 표준어 보급을 넘어 방언을 무형문화유산으로 인식하고 이를 기록·전승하려는 정책적 전환이 필요함을 시사한다. 둘째, 비교 언어학적 접근을 통한 실용적 연구의 가능성이다. ‘한국어’, ‘영어’와의 높은 연결성은 중국의 사례를 타산지석 삼아 국내 언어 환경에 적용하거나, 이중 언어 교육 관점에서 접근하려는 융합 연구가 활성화될 수 있음을 보여준다. 셋째, 데이터 기반의 객관적 정책 논의를 위한 기초 자료를 확보하였다. 본 연구가 제시한 연도별 토픽 트렌드와 키워드 지표는 주관적 판단을 배제하고 현 시점의 학술적 흐름을 정확히 파악하는 준거 자료로 활용될 수 있다.



3. 연구의 한계 및 제언

본 연구는 분석 대상을 KCI 등재 논문으로 한정하여, 국내 학술지에 미수록된 연구 보고서나 CNKI 등 중국 현지의 방대한 문헌을 포괄하지 못했다는 한계를 지닌다. 또한 토픽 모델링의 해석 과정에서 연구자의 주관이 개입될 여지가 있다는 점도 고려해야 한다. 향후 연구에서는 분석 대상을 국외 주요 데이터베이스로 확장하여, 한·중 양국의 연구 동향을 비교 분석하는 심화 연구가 수행되기를 기대한다.


참고 문헌


1) 중화인민공화국 전국인민대표대회 상무위원회. (2000). 『중화인민공화국 통용 언어문자법(中华人民共和国通用语言文字法)』.
2) 중화인민공화국 국무원. (1956). 『한어병음방안(汉语拼音方案)』.
3) 중화인민공화국 국무원. (1956). 『보통화 보급 공작 지시(普及普通话工作指示)』.
4) 정준호. (2020). 「중국 통용언어문자정책 변천과정의 특징에 관한 연구」. 『현대중국연구』. 22(3), 265-297.
5) 오문의. (2023). 「중국 언어 정책의 국가간 비교 연구」. 『통합인문학연구』. 15(2), 39-74.
6) 임시영·이미숙·진기호·신동빈. (2014). 「텍스트마이닝 기술을 이용한 공간정보 분야의 연구 동향에 관한 고찰 -국가연구개발사업 보고서 및 논문을 중심으로」. 『한국공간정보학회지』.
7) 김기옥. (2020). 「텍스트마이닝을 활용한 소비자학 연구 동향 분석」. 『소비자학연구』. 31(5), 19-47.

부록


본 부록은 연구의 투명성과 재현성을 높이기 위해, 분석에 사용된 핵심 통계 자료와 Google Colab 환경에서 실행된 주요 코드 및 Neo4j 쿼리를 제시한다.



1. 연구 데이터 기본 통계 및 전처리 요약


항목
내용
분석 대상 문헌 수
총 828편(KCI 학술지 논문)
초록 결측률
5.56%(46개 논문)
네트워크 통계(노드/관계)
키워드 노드 621개/공기 관계2,737개
토큰화 라이브러리
Konlpy(Komoran), pandas, Gensim 등



2. Google Colab 코드 및 Neo4j 쿼리


1) 텍스트 정규화 및 토큰 추출

본 연구에서 사용된 한국어 형태소 분석(Komoran) 및 불용어 제거를 포함한 핵심 토큰화 로직이다.



from konlpy.tag import Komoran
import re, unicodedata

komoran = Komoran()

  1. 명사(NNG, NNP), 외국어(SL), 숫자(SN)만 추출하도록 품사 지정

KEEP_POS = {'NNG','NNP','SL','SN'}

  1. 논문 제목 및 초록을 클리닝하고 토큰화하는 함수

def tokenize_ko(s: str):

   # 텍스트 정규화 및 클리닝 (URL, 특수 문자 제거)
s = normalize_text(s).lower()
toks = []

# Komoran을 사용해 토큰화 및 품사 태깅
for w, pos in komoran.pos(s):
# 지정 품사, 2글자 이상, 불용어 목록(STOP)에 없는 단어만 최종 추출
if pos in KEEP_POS and len(w) > 1 and w not in STOP:
toks.append(w)
return toks


2) 전체 키워드 공기 네트워크 시각화

// Neo4j 쿼리: 전체 CO_OCCURRENCE 네트워크 시각화
MATCH (k1:Keyword)-[r:CO_OCCURRENCE]->(k2:Keyword)
RETURN k1, r, k2
// Neo4j 브라우저에서 r.weight를 관계 두께로 설정 권장

3) 시기별 연결 중심성 TOP 15 키워드 추출

// 쿼리 1: 초기 연구 네트워크 (2000년 ~ 2009년) 허브 TOP 15 추출

MATCH (d:Document)
WHERE d.year >= 2000 AND d.year <= 2009
MATCH (k1:Keyword)-[:APPEARS_IN]->(d)<-[:APPEARS_IN]-(k2:Keyword)
WHERE k1 <> k2
WITH k1, collect(DISTINCT k2) AS connectedKeywords
WITH k1, size(connectedKeywords) AS degreeCentrality
ORDER BY degreeCentrality DESC
LIMIT 15
RETURN k1.name AS Keyword, degreeCentrality, "2000-2009" AS Period

// 쿼리 2: 후기 연구 네트워크 (2010년 ~ 2025년) 허브 TOP 15 추출
MATCH (d:Document)
WHERE d.year >= 2010 AND d.year <= 2025
MATCH (k1:Keyword)-[:APPEARS_IN]->(d)<-[:APPEARS_IN]-(k2:Keyword)
WHERE k1 <> k2
WITH k1, collect(DISTINCT k2) AS connectedKeywords
WITH k1, size(connectedKeywords) AS degreeCentrality
ORDER BY degreeCentrality DESC
LIMIT 15
RETURN k1.name AS Keyword, degreeCentrality, "2010-2025" AS Period