행위

"RTCL(2025) Final Paper 02"의 두 판 사이의 차이

CNUDH

(4. 토픽 구조와 주요 연구 영역 (RQ4))
(2. 공기 네트워크와 연구 테마 구조 (RQ2))
196번째 줄: 196번째 줄:
 
셋째, 사전·코퍼스·현대 언어 연구와 결합된 분석적 패턴도 확인되었다. ‘어휘–사전’(40), ‘사전–중국’(31), ‘어휘–표제어’(30)와 같은 결합은 사전학 및 어휘 기술 연구의 비중을 보여주며, ‘어휘–코퍼스’(44), ‘중국–코퍼스’(31)는 코퍼스 기반 어휘 분석이 중요한 연구 방법으로 활용되고 있음을 나타낸다. 또한 ‘어휘–현대’(35), ‘중국어–현대’(30) 등의 결합은 현대 중국어를 중심으로 한 공시적 어휘 연구가 지속적으로 수행되고 있음을 시사한다.<br/>
 
셋째, 사전·코퍼스·현대 언어 연구와 결합된 분석적 패턴도 확인되었다. ‘어휘–사전’(40), ‘사전–중국’(31), ‘어휘–표제어’(30)와 같은 결합은 사전학 및 어휘 기술 연구의 비중을 보여주며, ‘어휘–코퍼스’(44), ‘중국–코퍼스’(31)는 코퍼스 기반 어휘 분석이 중요한 연구 방법으로 활용되고 있음을 나타낸다. 또한 ‘어휘–현대’(35), ‘중국어–현대’(30) 등의 결합은 현대 중국어를 중심으로 한 공시적 어휘 연구가 지속적으로 수행되고 있음을 시사한다.<br/>
 
이러한 공출현 구조를 종합하면, 한국의 중국어 어휘 연구는 ‘어휘’를 핵심 중심 노드로 하여 언어·국가 대비 맥락, 학습과 사용, 사전 및 코퍼스 기반 분석이 서로 교차·결합된 구조를 형성하고 있음을 확인할 수 있다. 다만 공출현 관계는 동일 문헌 내 동시 등장에 기반한 통계적 관계이므로, 개념 간 인과 관계나 위계 구조를 직접적으로 의미하지는 않는다. 따라서 본 연구에서는 공기 빈도 해석 시 개별 연구의 맥락과 문헌 편중 가능성을 함께 고려하였다.<br/>
 
이러한 공출현 구조를 종합하면, 한국의 중국어 어휘 연구는 ‘어휘’를 핵심 중심 노드로 하여 언어·국가 대비 맥락, 학습과 사용, 사전 및 코퍼스 기반 분석이 서로 교차·결합된 구조를 형성하고 있음을 확인할 수 있다. 다만 공출현 관계는 동일 문헌 내 동시 등장에 기반한 통계적 관계이므로, 개념 간 인과 관계나 위계 구조를 직접적으로 의미하지는 않는다. 따라서 본 연구에서는 공기 빈도 해석 시 개별 연구의 맥락과 문헌 편중 가능성을 함께 고려하였다.<br/>
 +
[[파일: 중국어휘4 png.png |1200px|center]]
 +
<blockquote><그림 1> 단어 공기 네트워크 시각화</blockquote> 허브 개념과 네트워크 중심 구조: Neo4j 그래프에서 단어 노드의 연결 개수와 공출현 가중치 합을 기준으로 허브 용어를 도출하였다.<br/>
  
<blockquote><그림 1> 단어 공기 네트워크 시각화</blockquote> 허브 개념과 네트워크 중심 구조: Neo4j 그래프에서 단어 노드의 연결 개수와 공출현 가중치 합을 기준으로 허브 용어를 도출하였다.<br/>
 
 
==='''3. 허브 개념과 네트워크 중심 구조 (RQ3)'''===
 
==='''3. 허브 개념과 네트워크 중심 구조 (RQ3)'''===
 
허브 용어는 다양한 논문에서 여러 개념과 결합하여 등장하는 중심 개념으로, 연구 분야의 흐름을 교차적으로 연결하는 축 역할을 수행한다.<br/>
 
허브 용어는 다양한 논문에서 여러 개념과 결합하여 등장하는 중심 개념으로, 연구 분야의 흐름을 교차적으로 연결하는 축 역할을 수행한다.<br/>

2025년 12월 17일 (수) 13:15 판

텍스트 마이닝과 네트워크 분석을 활용한 중국어 어휘 연구 동향 분석
― KCI 등재 논문(2000~2025년)을 중심으로 ―
중어중문학과 김태현

목차

Ⅰ. 서론(Introduction)
1. 연구 배경 및 필요성
2. 연구 목적
Ⅱ. 이론적 배경
1. 중국어 어휘 연구의 개념과 범위
2. 중국어 어휘 연구의 하위 영역과 선행 연구
Ⅲ. 연구 방법
1. 연구 자료 및 데이터 구축
2. 텍스트 마이닝 분석
3. Neo4j 기반 그래프 분석
Ⅳ. 연구 결과 및 논의
1. 핵심 용어와 중국어 어휘 연구의 중심 개념 (RQ1)
2. 공기 네트워크와 연구 테마 구조 (RQ2)
3. 허브 개념과 네트워크 중심 구조 (RQ3)
4. 토픽 구조와 주요 연구 영역 (RQ4)
5. 한국 중국어 어휘 연구의 구조적 함의
Ⅴ. 결론(Conclusion)
참고문헌
각주

Ⅰ. 서론(Introduction)

1. 연구 배경 및 필요성

중국어 교육의 확산과 함께 어휘 학습의 중요성은 지속적으로 강조되어 왔다. 어휘는 언어 이해와 생산의 기본 단위일 뿐 아니라 의미 구성, 담화 형성, 사회적 상호작용을 가능하게 하는 핵심 요소이기 때문이다. 한국의 중국어 학습 환경에서도 어휘 학습의 성취는 전체 중국어 학습 결과를 좌우하는 중심 요인으로 인식되어 왔다.
지난 25년간 한국 학계에서는 의미 변화, 어휘 지도, 학습 전략, 평가, 사전학 등 다양한 관점에서 중국어 어휘를 다룬 연구가 꾸준히 축적되어 왔다. 이제 중국어 어휘 연구는 개별 어휘나 단일 수업 사례를 분석하는 수준을 넘어, 하나의 독립된 연구 장(field)으로 자리 잡았다고 볼 수 있다.
본 연구는 이러한 축적된 연구를 전제로, 중국어 어휘 연구가 전체적으로 어떤 주제 축을 따라 전개되어 왔는지, 의미 연구, 교육 연구, 평가 연구, 어휘사 연구, 디지털 기반 연구가 서로 어떤 위상을 차지하고 어떠한 방식으로 연결되는지를 구체적으로 살펴보고자 한다.
이를 위해 KCI 등재 중국어 어휘 관련 논문을 텍스트 데이터로 구축하고, 텍스트 마이닝과 네트워크 분석을 결합한 계량적 접근을 통해 한국 중국어 어휘 연구의 지형과 그 안에서 중심 개념과 연구 영역이 이루는 관계망의 전체 구조와 특징을 시각적으로 제시하고자 한다.
본 연구는 한국연구재단 KCI 데이터베이스에 등재된 중국어 어휘 관련 논문 가운데 2000년 1월부터 2025년 10월 사이에 발표된 552편을 분석 대상으로 한다. 이 논문들의 제목, 초록, 키워드를 기반으로 텍스트 데이터를 구축하였으며, 구체적인 자료 선정 기준과 전처리 절차는 Ⅱ장에서 자세히 설명한다.

2. 연구 목적

본 연구의 목적은 다음 네 가지로 요약할 수 있다.
2000년부터 2025년까지 한국에서 이루어진 중국어 어휘 연구의 전체 구조를 데이터 기반으로 파악하는 것이다.
중국어 어휘 연구에서 반복적으로 등장하는 핵심 개념과 네트워크의 중심축을 이루는 허브 개념을 도출하는 것이다.
중국어 어휘 연구를 의미, 교육, 평가, 어휘사, 디지털 분석 등 주요 연구 영역으로 분류하고 각 영역의 특성을 밝히는 것이다.
시기별 연구 흐름과 디지털 전환의 양상을 살펴봄으로써 향후 중국어 어휘 연구의 발전 방향과 과제를 제시하는 것이다.
이러한 목적을 달성하기 위해 본 연구는 다음과 같은 연구 질문을 설정하였다.
RQ1. 지난 25년간 중국어 어휘 연구에서 중심적으로 다루어진 핵심 개념은 무엇인가?
RQ2. 어떤 개념들이 함께 등장하며 주요 연구 테마를 구성하는가?
RQ3. 중국어 어휘 연구에서 네트워크의 중심축을 이루는 허브 개념은 무엇인가?
RQ4. 전체 연구는 어떤 토픽 구조를 형성하며, 각 토픽은 어떤 연구 영역을 나타내는가?

Ⅱ. 이론적 배경

1. 중국어 어휘 연구의 개념과 범위

중국어 어휘 연구는 개별 어휘의 의미를 기술하는 수준을 넘어, 어휘의 의미 구조, 교육과 습득, 평가, 사전 기술, 디지털 환경 속 사용 양상을 종합적으로 다루는 연구 영역이다. 이는 어휘를 문법 주변의 부수적 요소로 보던 전통적 관점에서 벗어나, 언어 능력과 담화 이해를 지탱하는 중심 축으로서 어휘를 조명하려는 시도로 이해할 수 있다.
이러한 관점에서 중국어 어휘 연구는 의미 및 가치 의미, 어휘 교육과 습득 및 평가, 사전학과 어휘사, 디지털 및 코퍼스 기반 분석 등 여러 하위 영역으로 확장되어 왔다. 다음 절에서는 각 하위 영역에서 이루어진 대표적인 선행 연구를 간략히 정리하고자 한다.

2. 중국어 어휘 연구의 하위 영역과 선행 연구

중국어 어휘 연구는 대체로 ① 의미 및 가치 의미 연구, ② 어휘 교육 및 습득·평가 연구, ③ 사전학 및 어휘사 연구, ④ 디지털 및 코퍼스 기반 연구로 구분할 수 있다.

1) 의미 및 의미가치 연구

심상순(2025)은 ‘밈(meme)’ 이론을 도입하여 여러 유형의 중국어 어휘군을 설정하고, 각 어휘군에 공통적으로 내재한 핵심 의미 요소를 추출하였다. 이를 통해 어휘가 의미군을 형성하며 사회·문화적 맥락 속에서 반복적으로 재구조화된다는 점을 제시하였다.
이선희·허철(2023)은 牛, 土豪, 公知 등 현대 중국어 어휘의 가치 의미 변화를 분석하여, 중립적 의미가 긍정적 또는 부정적 가치 의미로 전환되는 과정이 사회적 사건과 온라인 담론 구조에 의해 강화된다는 점을 밝혔다. 이러한 연구들은 중국어 어휘의 의미 구조와 가치 지향의 변동을 설명하는 데 기초 자료를 제공한다.

2) 어휘 교육 및 습득·평가 연구

김진희(2022)는 의미장 접근법을 활용한 중국어 어휘 지도 모형을 설계하고, 의미망과 시각적 도식을 활용한 어휘 교육이 학습자의 의미 연결망 형성에 도움을 줄 수 있음을 논의하였다.
진현(2024)은 대학생을 대상으로 수용적·생산적 어휘 테스트를 실시하여 두 지식 간의 격차와 난이도 차이를 분석하고, 동일 어휘라도 과제 유형에 따라 난이도 수준이 상이하게 나타난다는 점을 보였다.
최금단(2022)은 초급·중급 TOPIK 한자어와 중국어 신HSK·현대한어사전 표제어 간의 조어 단위 대응 관계를 분석하여, 한국어와 중국어 간 어휘 대응 구조가 중국어 어휘 습득에 미치는 영향을 규명하려 하였다.

3) 사전학 및 어휘사 연구

사전학·어휘사 연구에서는 특정 문헌을 중심으로 시대별 어휘 체계를 복원하려는 시도가 이루어지고 있다.
이현선(2023)은 『四聲通解』의 주석에 등장하는 ‘今俗語’, ‘今俗呼’ 등 근대 중국어 구어 어휘를 분석하여, 표제어와 구어 어휘 간의 의미 부가 관계를 정리하였다.
문영희(2023)는 『訓世評話』의 중국어 번역 자료를 분석하면서 명대 구어 어휘의 특징을 고찰하였다. 이들 연구는 문헌과 구어 자료를 통해 시대별 어휘 사용 양상을 복원하고, 역사적 중국어 어휘 체계를 재구성하는 데 기여한다.

4) 디지털 및 코퍼스 기반 연구

최근에는 디지털 환경에서의 어휘 교육과 의미 분석 연구도 증가하고 있다.
이서이·한용수(2022)는 메타버스 플랫폼 ZEP을 활용한 ‘중국어 어휘와 문화’ 강좌 설계를 통해, 가상 공간에서의 어휘 학습이 실재성과 상호작용성을 갖춘 교육 환경이 될 수 있음을 논의하였다.
코퍼스 기반 분석과 네트워크 분석, 메타버스 기반 어휘·문화 수업 연구는 어휘 연구를 데이터 기반·시각화 기반으로 전환하는 계기를 제공하며, 본 연구의 텍스트 마이닝 및 그래프 분석과도 직접적으로 연결된다.
요약하면, 중국어 어휘 연구는 의미 및 가치 의미, 어휘 교육과 습득·평가, 사전학과 어휘사, 디지털 및 코퍼스 기반 연구 등 여러 하위 영역이 상호 연계되며 발전해 왔다. 본 연구는 이러한 선행 연구의 축적을 바탕으로, KCI 등재 중국어 어휘 관련 논문의 제목과 초록, 키워드를 텍스트 마이닝으로 분석하고 그 결과를 Neo4j 그래프 데이터로 재구성하여 중국어 어휘 연구의 거시적 구조를 파악하고자 한다.

Ⅲ. 연구 방법

1. 연구 자료 및 데이터 구축

본 연구의 분석 대상은 한국연구재단 KCI 데이터베이스에 등재된 중국어 어휘 관련 논문 전수이다. 먼저 KCI에서 “중국어 어휘”와 관련된 키워드 및 분류 정보를 활용하여 2000년 1월부터 2025년 10월까지 발표된 논문을 수집하였다. 이 과정에서 중복 등재 논문과 중국어 어휘와 직접 관련성이 낮은 논문은 제외하고, 최종적으로 552편의 논문을 분석 대상으로 확정하였다.
각 논문에 대해서는 제목, 초록, 키워드 정보를 추출하여 텍스트 데이터를 추출하였다. 이후 이 코퍼스를 기반으로 단어 단위 토큰화를 수행하고, 분석에 필요한 형태로 정규화한 뒤 Neo4j 그래프 데이터베이스에 저장하였다. 최종 그래프 구조는 문서(Document), 단어(Word), 토픽(Topic) 노드를 중심으로 구성되며, 이후 텍스트 마이닝 분석 및 네트워크 분석의 입력 데이터로 활용되었다.

2. 텍스트 마이닝 분석

텍스트 마이닝 분석은 (1) 텍스트 전처리, (2) 단어 빈도와 워드클라우드 시각화, (3) TF-IDF 분석, (4) N-gram 분석, (5) 공출현 네트워크 구축, (6) LDA 토픽 모델링의 여섯 단계로 구성하였다.

(1) 텍스트 전처리

논문 제목, 초록, 키워드에 포함된 텍스트를 대상으로 기초 전처리를 수행하였다. 특수문자와 불필요한 기호를 제거하고, 숫자와 분석에 의미가 없는 일반 기능어(예: 조사, 접속사 등)는 불용어로 처리하였다. 동일 개념의 표기 차이를 줄이기 위해 일부 용어는 표기를 정규화하였으며, 중국어·한국어·한자 표기가 혼재된 경우 의미 단위 기준으로 통합하였다.

(2) 단어 빈도와 워드클라우드 시각화

전처리 된 데이터 대상으로 단어 출현 빈도를 산출하고, 상위 빈도 단어들의 분포를 파악하였다. 이를 바탕으로 워드클라우드를 생성하여, 지난 25년간 중국어 어휘 연구에서 반복적으로 등장한 핵심 어휘군을 직관적으로 확인하였다. 이 지표는 RQ1, 즉 “어떤 개념이 중심적으로 다루어졌는가”를 해석하는 기초 자료로 활용되었다.

(3) TF-IDF 분석

단순 출현 빈도가 높은 단어뿐 아니라, 특정 논문이나 소수의 논문에서 상대적으로 중요한 역할을 하는 단어를 파악하기 위해 TF-IDF(term frequency-inverse document frequency)를 산출하였다. 이를 통해 각 논문과 토픽에서 특징적으로 나타나는 어휘를 추출하고, 연구 영역 간 차별적인 개념을 해석하는 데 활용하였다.

(4) N-gram 분석

단일 단어 수준의 분석을 보완하기 위해, 2-gram 이상의 연쇄 단어 표현을 추출하였다. 이를 통해 ‘어휘 지도’, ‘가치 의미’, ‘난이도 분석’과 같이 자주 함께 등장하는 고정 표현을 파악하고, 중국어 어휘 연구에서 반복적으로 사용되는 개념적 결합을 확인하였다.

(5) 공출현 네트워크 구축

동일 문서 내에서 일정 기준(예: 최소 3회 이상 공동 출현)을 넘는 단어 쌍을 공출현 관계로 정의하고, 단어 공출현 네트워크를 구축하였다. 공출현 간선에는 공동 출현 빈도나 가중치를 부여하여, 특정 개념이 어떤 개념들과 함께 자주 논의되는지를 네트워크 구조로 시각화하였다. 이 분석은 RQ2, RQ3을 해석하는 핵심 자료가 되었다.

(6) LDA 토픽 모델링

서지정보 데이터 전체를 대상으로 LDA(Latent Dirichlet Allocation) 토픽 모델링을 적용하여 주요 토픽을 도출하였다. 토픽 수는 예비 분석과 토픽 해석 가능성을 고려하여 5개로 설정하였다. 각 토픽에서 가중치가 높은 핵심 단어 목록을 추출하고, 해당 토픽에 속하는 논문 분포를 분석하여 중국어 어휘 연구의 주제 구조를 해석하였다. 이는 RQ4, 즉 “전체 연구가 어떤 토픽 구조를 형성하는가”를 규명하는 데 사용되었다.

3. Neo4j 기반 그래프 분석

Neo4j 기반 그래프 분석은 (1) 노드와 관계 모델링, (2) 네트워크 지표 산출과 시각화의 두 단계로 구성하였다.

(1) 노드와 관계 모델링

그래프 데이터베이스에서는 세 종류의 노드를 정의하였다. Document 노드는 개별 논문을, Word 노드는 분석에 포함된 주요 단어를, Topic 노드는 LDA 분석을 통해 도출된 토픽을 나타낸다.
관계는 다음과 같이 세 종류로 모델링하였다.
• CONTAINS: 특정 문서(Document)가 특정 단어(Word)를 포함하는 관계
• CO_OCCURS_WITH: 두 단어(Word)가 동일 문서에서 공출현하는 관계
• BELONGS_TO: 특정 문서(Document)가 특정 토픽(Topic)에 속하는 관계
이를 통해 문서–단어–토픽 간의 연결 구조를 하나의 그래프 위에서 통합적으로 표현하였다.

(2) 네트워크 지표 산출과 시각화

구축된 그래프를 바탕으로 단어 노드의 연결 개수(degree)와 공출현 가중치 합(weighted degree)을 계산하여 허브 개념을 도출하였다. 또한 토픽–단어–문서 관계를 시각화하여, 각 토픽의 핵심 단어와 해당 토픽에 속하는 논문의 분포를 확인하였다. 이러한 네트워크 지표와 시각화는 핵심 용어, 공기 구조, 허브 개념, 토픽 구조를 해석하는 데 활용되었다.

Ⅳ. 연구 결과 및 논의

1. 핵심 용어와 중국어 어휘 연구의 중심 개념 (RQ1)

지난 25년간 한국의 중국어 어휘 연구에서 가장 높은 빈도로 등장한 핵심 용어는 ‘어휘’, ‘중국어’, ‘학습’, ‘언어’, ‘한국어’와 같은 기초 어휘 및 언어 관련 용어가 가장 높은 빈도로 등장하였으며, 이를 바탕으로 교육·학습 맥락에서의 어휘 연구, 즉 ‘의미’, ‘교수’, ‘교육’, ‘평가’, ‘난이도’, ‘습득’ 등의 개념이 주요 연구 주제로 확장되어 왔다.

중국어휘 jpg1.jpg


이는 중국어 어휘 연구가 크게 의미·가치 의미 중심의 의미 연구와 학습·교수·평가 중심의 교육 연구라는 두 축을 중심으로 전개되어 왔음을 시사한다.
또한 TF-IDF 분석 결과, 일부 논문에서는 ‘가치 의미’, ‘밈’, ‘코퍼스’, ‘메타버스’와 같은 용어가 상대적으로 높은 중요도를 보였다. 이는 전체 코퍼스에서의 출현 빈도는 상대적으로 낮지만, 특정 연구 주제에서 핵심 역할을 하는 개념들이 존재함을 보여준다.

중국어휘 jpg2.jpg


시계열 관점에서 보면, 초반 기간(2000–2009)에는 ‘의미’, ‘의미 변화’와 같은 의미 중심 용어의 비중이 높았으나, 2010년대 이후에는 ‘학습자’, ‘난이도’, ‘시험’, ‘평가’ 등 교육·평가 관련 용어의 등장 빈도가 증가하였다. 2017년 이후에는 ‘코퍼스’, ‘데이터’, ‘네트워크’, ‘메타버스’와 같은 디지털 기반 개념이 새롭게 부상하며, 중국어 어휘 연구의 방법론이 전통적인 의미 이론에서 교육 실천, 나아가 디지털 기반 분석으로 확장되고 있음을 확인할 수 있었다.
이와 같은 결과는 한국의 중국어 어휘 연구가 의미 이론 중심 연구에서 출발하여 교육·평가 중심 연구로 확대되었고, 최근에는 디지털 기반 분석이 새로운 연구 축으로 추가되는 다층적 구조를 형성하고 있음을 보여준다.
공출현 네트워크 분석은 동일 논문에서 함께 등장하는 단어 쌍을 추출함으로써, 중국어 어휘 연구에서 실제로 결합되어 논의되는 개념 구조를 파악하는 데 목적이 있다.

2. 공기 네트워크와 연구 테마 구조 (RQ2)

본 연구에서는 공기 빈도 상위 30개 용어 쌍을 대상으로 분석을 수행하였으며, 그 결과 다음과 같은 세 가지 주요 결합 패턴이 확인되었다.

[표 1] 공기 빈도 상위 30개 용어
용어1 용어2 공기빈도
어휘 중국어 273
어휘 중국 135
어휘 학습 99
어휘 한국어 95
학습 한국어 56
어휘 중국인 51
국어 어휘 48
어휘 언어 46
어휘 코퍼스 44
중국인 한국어 43
중국어 학습 41
사전 어휘 40
중국어 한국어 39
중국인 학습 39
어휘 오류 37
어휘 한국 35
어휘 현대 35
중국 중국어 34
중국 학습 34
양상 어휘 34
빈도 어휘 33
어휘 이용 32
문화 어휘 32
비교 어휘 32
중국 코퍼스 31
중국 한국어 31
사전 중국 31
중국어 현대 30
어휘 표제어 30
인터넷 중국 30

첫째, ‘어휘’를 중심으로 한 언어·국가·학습 맥락 결합 패턴이 두드러지게 나타났다. 공기 빈도가 가장 높은 용어 쌍은 ‘어휘–중국어’(273)였으며, 이어서 ‘어휘–중국’(135), ‘어휘–한국어’(95), ‘어휘–중국인’(51), ‘어휘–한국’(35) 등의 결합이 확인되었다. 이는 중국어 어휘 연구가 특정 언어 체계 내부의 어휘 분석에 그치지 않고, 중국어–한국어, 중국–한국이라는 언어·국가 간 대비 맥락 속에서 어휘를 다루는 연구가 매우 활발하게 이루어졌음을 보여준다.
둘째, 어휘 학습 및 사용과 관련된 교육적 결합 패턴이 나타났다. ‘어휘–학습’(99), ‘중국어–학습’(41), ‘중국인–학습’(39), ‘중국–학습’(34)과 같은 용어 쌍은 어휘 연구가 학습자의 습득 과정, 학습 환경, 교육적 활용과 밀접하게 연관되어 있음을 시사한다. 또한 ‘어휘–이용’(32), ‘어휘–오류’(37), ‘어휘–빈도’(33) 등의 결합은 어휘를 실제 사용과 오류 분석, 빈도 기반 분석의 대상으로 다루는 연구 경향을 반영한다.
셋째, 사전·코퍼스·현대 언어 연구와 결합된 분석적 패턴도 확인되었다. ‘어휘–사전’(40), ‘사전–중국’(31), ‘어휘–표제어’(30)와 같은 결합은 사전학 및 어휘 기술 연구의 비중을 보여주며, ‘어휘–코퍼스’(44), ‘중국–코퍼스’(31)는 코퍼스 기반 어휘 분석이 중요한 연구 방법으로 활용되고 있음을 나타낸다. 또한 ‘어휘–현대’(35), ‘중국어–현대’(30) 등의 결합은 현대 중국어를 중심으로 한 공시적 어휘 연구가 지속적으로 수행되고 있음을 시사한다.
이러한 공출현 구조를 종합하면, 한국의 중국어 어휘 연구는 ‘어휘’를 핵심 중심 노드로 하여 언어·국가 대비 맥락, 학습과 사용, 사전 및 코퍼스 기반 분석이 서로 교차·결합된 구조를 형성하고 있음을 확인할 수 있다. 다만 공출현 관계는 동일 문헌 내 동시 등장에 기반한 통계적 관계이므로, 개념 간 인과 관계나 위계 구조를 직접적으로 의미하지는 않는다. 따라서 본 연구에서는 공기 빈도 해석 시 개별 연구의 맥락과 문헌 편중 가능성을 함께 고려하였다.

중국어휘4 png.png

<그림 1> 단어 공기 네트워크 시각화

허브 개념과 네트워크 중심 구조: Neo4j 그래프에서 단어 노드의 연결 개수와 공출현 가중치 합을 기준으로 허브 용어를 도출하였다.

3. 허브 개념과 네트워크 중심 구조 (RQ3)

허브 용어는 다양한 논문에서 여러 개념과 결합하여 등장하는 중심 개념으로, 연구 분야의 흐름을 교차적으로 연결하는 축 역할을 수행한다.
연결 개수와 연결 강도 상위 15개 용어를 분석한 결과, ‘어휘’가 중국어 어휘 연구 네트워크에서 가장 핵심적인 허브 개념으로 나타났다. ‘어휘’는 연결 개수(347)와 연결 강도(2887) 모두에서 최상위를 차지하여, 다수의 개념과 가장 빈번하고 강하게 연결되는 중심 노드로 기능하였다.
그 다음으로는 ‘중국어’, ‘중국’, ‘학습’, ‘한국어’ 등이 높은 연결 개수와 연결 강도를 보이며 주요 허브 개념으로 도출되었다. 이들 용어는 ‘어휘’를 중심으로 언어 대상, 학습 맥락, 비교 범주를 연결하는 중간 허브 역할을 수행하며, 중국어 어휘 연구가 특정 단일 주제에 국한되지 않고 다양한 연구 영역을 횡단하는 구조를 형성하고 있음을 보여준다.
또한 ‘언어’, ‘국어’, ‘중국인’, ‘코퍼스’, ‘사전’, ‘오류’, ‘빈도’, ‘인터넷’, ‘이용’ 등의 용어 역시 상대적으로 높은 중심성을 보여, 어휘 연구가 학습자, 사용 양상, 자료 유형, 분석 방법과 긴밀히 결합되어 있음을 확인할 수 있었다. 특히 ‘코퍼스’와 ‘사전’, ‘인터넷’은 연결 강도에 비해 연결 개수가 비교적 적은 반면, 특정 개념들과 강하게 결합되는 특성을 보여 자료·방법 중심의 선택적 허브로 기능하였다.
이와 같은 중심성 분석 결과는 한국의 중국어 어휘 연구 네트워크가 ‘어휘’를 최상위 중심축으로 하고, 그 주변에 언어 대상과 학습·사용·자료 관련 개념들이 다층적으로 연결된 허브 구조를 형성하고 있음을 명확히 보여준다.

[표 2] 허브 용어 상위 15개(연결 개수 및 연결 강도 기준)
용어 연결개수 연결강도
어휘 347 2887
중국어 257 1686
중국 178 1121
학습 113 719
한국어 121 695
언어 79 361
중국인 63 351
국어 82 312
코퍼스 32 304
사전 18 270
오류 41 249
빈도 33 244
인터넷 20 238
한국 62 236
이용 13 235

4. 토픽 구조와 주요 연구 영역 (RQ4)

토픽 구조와 주요 연구 영역 LDA 토픽 모델링 결과, 전체 중국어 어휘 연구는 다섯 개의 주요 토픽으로 구조화되었다 . 한국 중국어 어휘 연구의 구조적 특징 연구의 시사점 각 토픽은 핵심 단어와 관련 논문 분포를 바탕으로 다음과 같이 해석할 수 있다.

중국어휘3 png.png

<그림 2> 토픽–단어 네트워크 구조

토픽 1은 중국어 어휘 교육·교수 전략과 관련된 영역으로, ‘학습’, ‘교수’, ‘전략’, ‘어휘 지도’, ‘학습자’ 등의 단어가 높은 가중치를 보였다. 이 토픽에 속하는 논문들은 학습자 특성 분석, 교수 전략 개발, 수업 설계 등 교육 현장과 직결된 주제를 다루고 있다.
토픽 2는 의미 변화·가치 의미 분석 영역으로, ‘의미’, ‘가치 의미’, ‘변화’, ‘담론’, ‘사회적 맥락’ 등의 단어가 중심을 이룬다. 이 토픽에 속한 연구들은 시대·사회 변화와 결합된 의미 변화를 분석하며, 어휘의 가치 지향과 담론 구조를 함께 고찰한다.
토픽 3은 어휘 평가·난이도 분석 영역으로, ‘난이도’, ‘평가’, ‘HSK’, ‘수준’, ‘시험’, ‘모델링’ 등이 핵심 단어로 나타났다. 이 토픽은 시험 어휘, 난이도 모델링, 평가 체계 정립 등 정량적 접근을 중심으로 한다.
토픽 4는 문헌 기반 어휘사 연구 영역으로, ‘文獻’, ‘俗語’, ‘구어’, ‘근대 중국어’, ‘번역’ 등이 핵심 단어로 등장한다. 이 토픽에 속하는 논문들은 문헌과 구어 자료를 활용하여 역사적 중국어 어휘를 복원하고 시대별 어휘 사용 양상을 분석한다.
토픽 5는 디지털·코퍼스 기반 어휘 연구 영역으로, ‘코퍼스’, ‘데이터’, ‘네트워크’, ‘메타버스’, ‘시각화’ 등이 핵심 단어를 이룬다. 이 토픽은 디지털 언어 자료 분석과 가상환경 기반 어휘 교육 연구를 포함한다.
이와 같이 도출된 다섯 개 토픽은 전통 의미 연구, 교육·평가 연구, 어휘사 연구, 디지털 연구가 상호 연계된 구조를 형성하고 있음을 보여준다. 의미 중심 토픽과 교육·평가 중심 토픽 사이에는 공통 허브 개념(예: ‘어휘’, ‘학습’, ‘난이도’)이 존재하며, 디지털 토픽은 이들 전통적 연구 영역을 데이터 기반 분석 관점에서 재구성하는 역할을 수행한다.
문서–토픽 연결 구조를 분석한 결과, 다섯 개 토픽이 실제 논문들에 어떻게 분포하는지 확인할 수 있었다. 특정 토픽에는 많은 논문이 집중되고, 다른 토픽에는 상대적으로 적은 논문이 분포하는 등 연구 관심의 편중 양상도 관찰되었다.
전반적으로 어휘 교육·교수 전략과 어휘 평가·난이도 분석 토픽에 속한 논문 비중이 높았으며, 의미 변화·가치 의미 연구와 문헌 기반 어휘사 연구, 디지털·코퍼스 기반 연구는 상대적으로 적은 비중이지만 독립적인 연구 축을 형성하고 있었다. 이는 한국 중국어 어휘 연구가 교육 실천과 평가 체계에 강하게 초점을 두고 있으면서도, 의미·역사·디지털 영역에서의 이론적·방법론적 확장을 병행하고 있음을 보여준다.

5. 한국 중국어 어휘 연구의 구조적 함의

본 연구의 가장 큰 시사점은 국내 중국어 어휘 연구의 거시적 지형도를 제시했다는 점이다. 개별 논문 단위로 축적되어 온 연구를 텍스트 마이닝과 Neo4j 기반 그래프 데이터로 통합하고, 핵심 용어, 공출현 구조, 허브, 토픽 분석을 결합함으로써 지난 25년간 중국어 어휘 연구가 어떤 개념과 주제 축을 중심으로 조직되어 왔는지를 한눈에 파악할 수 있는 기초 자료를 마련하였다. 이는 후속 연구에서 특정 토픽과 개념군을 선택하거나, 상대적으로 연구가 부족한 영역을 식별하는 데 참고 자료로 활용될 수 있다.
또한 공출현 네트워크와 허브 분석에서 학습, 교수, 평가, 난이도 등 교육 관련 개념이 중심에 위치한다는 사실은, 어휘가 단순한 단어 목록이 아니라 교수와 학습, 평가 전반을 관통하는 핵심 요소임을 시사한다. 이러한 결과는 향후 중국어 어휘 교육과 평가 설계에서 어휘를 보다 구조적 관점에서 다루어야 한다는 점을 뒷받침하는 근거로 활용될 수 있다.

Ⅴ. 결론(Conclusion)

본 연구는 2000년부터 2025년 10월까지 KCI에 등재된 중국어 어휘 관련 논문 552편을 대상으로 텍스트 마이닝과 네트워크 분석을 결합하여 연구 동향을 분석하였다. 텍스트 마이닝 분석과 Neo4j 그래프데이터 구축을 통해 중국어 어휘 연구의 핵심 개념, 개념 결합 구조, 네트워크 중심성, 토픽 구조를 도출하였다.
그 결과, ‘어휘’, ‘의미’, ‘학습’, ‘교육’, ‘평가’, ‘난이도’ 등이 중심 개념으로 나타났으며, 중국어 어휘 연구가 의미 이론과 교육·평가를 양 축으로 발전해 왔음을 확인할 수 있었다. 또한 ‘코퍼스’, ‘데이터’, ‘네트워크’, ‘메타버스’와 같은 디지털 기반 개념이 최근 새로운 핵심 용어로 부상하면서, 연구 방법론이 데이터 기반 분석 체계로 확장되고 있음을 보여 주었다.
학문적 측면에서 본 연구는 한국 중국어 어휘 연구의 25년 흐름을 구조적으로 제시했다는 점에서 의의를 지닌다. 개별 논문 수준을 넘어, 연구 개념과 주제의 연결 구조를 시각화함으로써 연구 분야 전체의 경향을 해석할 수 있는 기초 자료를 마련하였다. 또한 중심 개념–결합 구조–허브–토픽을 통합적으로 분석하는 틀을 제시함으로써, 어휘 연구의 다층적 구조를 동시에 파악할 수 있는 방법론적 기반을 제공하였다. 디지털 기반 연구의 확산을 실증적으로 확인하고, 어휘 연구가 교육·평가·사회적 의미 변화 등 다양한 영역을 연결하는 중심 개념임을 밝힌 점도 중요한 기여라 할 수 있다.
물론 본 연구에는 몇 가지 한계가 존재한다. 그래프 분석은 개념 간 구조를 드러내는 데 효과적이지만, 개별 논문의 미세한 의미 차이를 완전히 반영하기는 어렵다. 공출현 빈도는 동시 등장에 기반하므로 인과 관계나 의미적 위계를 직접적으로 보장하지 않으며, 일부 일반어는 중심성이 높더라도 의미적 특수성이 낮아 해석에 제약이 있을 수 있다. 또한 토픽 모델링 결과의 해석에는 연구자의 주관적 판단이 일정 부분 개입될 수 있다.
향후 연구에서는 우선 세부 의미군(sense-group)에 대한 정밀 분석을 확대하여, 상위 개념뿐 아니라 내부 의미군의 구조를 밝히는 미시적 연구를 진행할 필요가 있다. 또한 학습자의 오류, 반응, 학습 기록 등 실제 학습자 데이터를 그래프 구조에 통합함으로써 교육 현장에서 활용 가능한 어휘 모델을 구축하는 방향도 고려할 수 있다. 더 나아가 장기적으로는 한국, 중국, 영미권 등의 어휘 연구 구조를 비교하는 언어권 비교 네트워크 연구나, 생성형 인공지능 분석과 가상환경 기반 학습 실험을 결합한 연구 방법론을 검토해 보는 것도 하나의 가능성이 될 것이다.

참고문헌

김진희(2022), 「의미장 접근법을 활용한 중국어 어휘지도 모형 개발」, 『인문사회21』, 13(4), 1203-1218.
문영희(2023), 「『訓世評話』에 반영된 명대 중국어 어휘 고찰」, 『중국어문학지』, 84, 345-369.
심상순(2025), 「밈의 관점에서 본 중국어 어휘의 핵심 의미 고찰 - 유형별 어휘군 사례 중심으로」, 『중국어문학지』, 90, 297-328.
신원철(2023), 「고대 시기 콩에 대한 중국어 어휘 변화 연구」, 『중국어문학지』, 84, 327-343.
얜후이젠(2023), 「현대 중국어 준접사 ‘X侠’의 인지언어학적 연구」, 『한중언어문화연구』, 70, 3-20.
이선희·허철(2023), 「현대 중국어 어휘의 가치 의미 변화 탐구 - 2000년 이후 어휘를 중심으로」, 『한중언어문화연구』, 67, 221-250.
이서이·한용수(2022), 「메타버스에서의 중국어 교육 방안 제안 - D대학의 ‘중국어 어휘와 문화’ 강좌를 중심으로 -」, 『중국인문과학』, 82, 107-126.
이현선(2023), 「『四聲通解』에 수록된 근대중국어 어휘 연구」, 『중국어문학지』, 83, 127-150.
진현(2024), 「중국어 어휘의 수용적 지식과 생산적 지식 비교 연구」, 『중국학』, 87, 23-42.
최금단(2022), 「초급·중급 TOPIK 한자어의 非專用·共用 조어 단위를 활용한 중국어 어휘 학습에 대하여」, 『중국문학연구』, 86, 203-228.

각주