RTCL(2025) Final Paper 01
CNUDH
1. 서론
현대 중국어에서 어기조사(语气助词)는 문장 종결부에 위치하여 화자의 태도, 문맥적 조건, 발화 의도를 직접적으로 표현하는 기능적 문법 범주로 정의된다. 이러한 특성 때문에 어기조사는 의미 해석뿐 아니라 화용론, 담화 구조, 음운적 리듬과도 밀접하게 연결되며, 의문·추정·제안·강조 등 다양한 담화 기능을 실현한다. 그러나 기존 연구들은 특정조사(예: 吗,吧,呢,啊)에 한정된 분석이 다수를 차지하였으며, 연구 방법 또한 개별 조사에 국한된 연구가 중심이었다. 기존의 중국어 어기조사 연구는 주로 '吗', '吧', '呢', '啊'의 의미 기능을 기술적으로 분석하는 방식이 중심이었다. 특히 '吗'는 의문 의미,'吧'는 추정·완곡 표현,'呢'는 화제 유지·대조, '啊'는 감탄·정동 기능에 초점을 맞추는 연구가 대부분이었다.
이러한 연구적 특성은 기존 선행연구가 다섯 가지 범주의 의미론적 연구, 화용론 연구, 대조 연구, 교육문법 연구, 방언·변이 연구로 분화되어 있다는 점과도 관련된다.
의미론적 연구로는 (张未然 2018)이 '吗', '吧', '呢'의 의미 기능 차이를 비교한 바 있고, 화용론 연구에서는 (赵璐 2021)가 '呢'의 문장 내 담화 기능을 분석하여 상황 지속·대조·화제 유지라는 화용 특성을 규명하였다.
학습자 언어 기반 대조 연구에서는 (彭小龙 2018)이 외국인 학습자의 문말조사 오류 양상을 분석하였고, 교육문법 연구에서는 (张玲瑛 2018)이 '吗', '啊', '吧', '呢'에 대한 교수문법 체계를 정립하려는 시도를 보였다.
최근에는 (王翔 2020; 李丹丹2022) 등이 코퍼스 기반 정량 분석을 활용하며 데이터 중심 연구가 증가하고 있다. 이러한 선행 연구들은 각 어기조사와 그 기능을 개별적으로 정밀하게 설명하는 데 중요한 기여를 해 왔다.
또한 최근 중국어 연구 환경에서는 구어 기반 자료와 AI 텍스트 분석 기술이 빠르게 확산되고 있으며, 어기조사 연구 역시 문어 중심의 기술적 분석에서 벗어나 화용과 상호작용, 실제 사용 패턴을 중시하는 방향으로 확장되고 있다. 이러한 연구 환경의 변화가 어기조사 연구 동향에 어떻게 반영되어 있는지를 계량적으로 확인하는 것이 본 연구의 중요한 목표이다.
이에 본 연구는 CNKI 데이터베이스에 2015년부터 2025년까지 수록된 중국어 어기조사 관련 연구 287편을 대상으로, 주요 연구 대상과 연구 방법, 의미·화용 연구의 비중, 키워드 네트워크 구조를 포함한 전반적 경향을 분석하였다. 이러한 분석을 바탕으로 다음과 같은 네 가지 연구 질문을 설정하였다.
1) CNKI에 수록된 중국어 어기조사 연구는 연도별로 어떤 동향을 보이는가?
2) 대표적인 문말 어기조사(吗,吧,呢,啊 등) 가운데 어떤 항목이 연구의 중심 대상으로 부각되는가?
3) 연구 키워드의 공출현 관계는 어떤 의미 네트워크 구조와 중심 개념을 드러내는가?
4) 연구 방법과 이론적 관점은 시기별로 어떻게 변화해왔는가?
특히 본 연구는 출판연도, 조사별 연구 비중, 키워드 공출현 빈도, 토픽 분포 등 계량적 지표와 Neo4j 기반 의미 네트워크 분석을 활용하여 중국어 어기조사 연구의 전체적 구조와 발전 방향을 탐색하는 데 목적을 둔다.
본 연구에서의 계량적 분석은 출판 연도별 논문 수, 어기조사별 연구 비중, 핵심 키워드 빈도 및 공출현 관계, 토픽별 논문 분포 등을 정량 지표로 측정하여 연구 동향을 체계적으로 분석하는 방식이다. 이에 본 연구는 코퍼스 기반 계량 분석을 통해 연구의 정량화와 체계화를 시도함으로써, 어기조사 연구의 전체 지형을 한번 그려보고자 한다.
2. 이론적 배경
2.1 어기조사의 개념과 기능
중국어 어기조사는 문장 종결부에 위치하며 문장의 의미양상이나 화자의 태도를 조정하는 문법 범주로 정의된다 (朱德熙 1999; 吕叔湘 1985). 이들은 의문 의미 실현(吗), 상황 지속·대조 및 화제 유지(呢), 추정·완화된 명령(吧), 감탄·정동 표현(啊)등 다양한 담화 기능을 수행하며, 문장 구조 자체보다는 담화 기능을 중심으로 분석된다. 특히 어기조사는 단일 의미 기능을 수행하는 데 그치지 않고, 화자의 심리적 거리 조절, 발화 책임의 분산, 친밀감 형성 등 발화 전략과 연동되어 대화의 상호작용적 특성을 구현하는 역할을 한다. 따라서 어기조사는 단순 문법 요소가 아니라 담화 맥락 속에서 화자의 의도와 사회적 관계를 조정하는 상호작용적 장치로 이해될 필요가 있다.
2.2 대표 어기조사 유형
| 어기조사 | 주요기능 | 예시 의미 범주 | 대표 사용 맥락 |
|---|---|---|---|
| 吗 | 의문·확인 요청 | 판단/일반 의문문 | 답해야 하는 질문 |
| 吧 | 추정·제안 완화 | 완곡 표현, 요청 | 부담 없는 권유 |
| 呢 | 진행·대조·화제 유지 | 정보 지속성 | 새로운 정보 제시 전 |
| 啊 | 감탄·강조 | 정동 표현 | 친밀도 표현·감탄 |
3. 연구 자료 및 방법
본 장에서는 연구에서 활용한 자료의 구성과 수집 절차, 텍스트 전처리 과정, 텍스트 마이닝 분석 방법, 그리고 네트워크 데이터 구축 및 Neo4j 분석 절차를 체계적으로 설명한다. 본 연구의 목적은 중국어 어기조사 연구의 흐름과 구조를 체계적으로 파악하는 데 있으므로, 자료 처리와 분석 방법의 정교성이 연구 결과의 신뢰도를 결정하는 핵심 요소가 된다.
3.1 분석자료: CNKI 어기조사 논문 콘퍼스
| 항목 | 내용 |
|---|---|
| 검색 플랫폼 | CNKI(中国知网) |
| 검색어 | '语气助词', '句末助词', '语气词' |
| 검색 기간 | 2015년-2025년 |
| 자료 유형 | 학술지 논문, 학위 논문 |
| 제외 기준 | 중복 논문, 초록만 존재하는 자료 |
본 연구는 중국 최대 학술 데이터베이스인 CNKI(中国知网)에 등재된 중국어 어기조사 관련 학술 논문 분석 대상으로 삼았다. 분석 범위는 2015년부터 2025년까지 발표된 문헌으로 설정하였으며, 이 시기 동안의 연구 동향을 포괄적으로 파악하기 위해 다음 절차에 따라 자료를 수집하였다.
우선 CNKI의 통합 검색 시스템에서'气助词', '句末助词', '语气词'을 핵심 검색어로 설정하여 관련 문헌을 추출하였다.
검색 결과에는 학술지 논문, 학위 논문, 회의 논문 등이 포함되었으나, 본 연구에서는 학술적 완성도와 분석 가능성을 고려하여 논문과 학위 논문만을 최종 자료 유형으로 선정하였다.
다음 단계에서는 초록만 존재하는 문헌, 데이터가 불완전한 문헌을 제외하였다. 이렇게 선별된 문헌만을 최종 분석 자료에 포함하였다.
이와 같은 선별 과정을 통해 구축된 CNKI 어기조사 코퍼스는 연구의 계량 분석과 네트워크 분석에 활용되었다. 이후 단계에서 수행된 키워드 추출, 공출현 분석, 토픽 모델링의 기반 데이터로 분석하였다.
3.2 텍스트 전처리
자료 수집 후 키워드는 Python 기반 정규화 과정을 거쳐 다음의 원칙에 따라 처리하였다.
| 처리 유형 | 예시 | 조치 |
|---|---|---|
| 동의어 통합 | 语气助词=句末助词 | 대표어로 통일 |
| 표기 변이 통합 | 語氣助詞=语气助词 | 간체자 기준 |
| 불용어 제거 | 研究, 分析, 问题 | 삭제 |
| 중복/단편화 수정 | 句末, 句末结构 | 동일 표현 그룹화 |
(1) 텍스트 및 키워드 추출
CNKI에서 수집한 논문의 제목, 키워드, 초록 텍스트를 대상으로 기본적인 정규화 작업을 수행하였다. 먼저 간체자와 번체자 표기를 간체자로 통일하고, 동일한 의미를 가지는 표현은 하나의 대표 형태로 묶어 키워드를 정리하였다. 예를 들어 '语气助词'와 '句末助词'는 동일 범주로 간주하여 하나의 키워드로 통합하였다. 또한 공백, 특수문자, 불필요한 줄 바꿈 등 분석에 영향을 주지 않는 형식 정보를 제거하여 분석에 적합한 형태의 텍스트를 구축하였다.
(2) 토큰화와 불용어 처리
정규화 된 텍스트를 어휘 단위로 토큰화하여 문장을 분석 단위로 분절하였다. 이후 의미 분석에 기여하지 않는 기능어, 일반적 연구 메타 표현('研究', '分析', '问题')등은 불용어로 간주, 의미어, 한 글자, 중국어 일반 학술용어는 제거하였다(语气词 제외). 이를 통해 핵심 개념이 아닌 단어가 빈도 분석과 공출현 분석에 영향을 미치는 것을 방지하였다.
(3) 초록 결측률 확인
후속 분석에서 핵심 자료로 활용되는 초록의 품질을 확인하기 위해, 수집된 전체 논문 287편을 대상으로 초록의 존재 여부와 결측률을 점검하였다. 그 결과, 초록이 누락된 논문은 확인되지 않았으며, 초록 결측률은 0.00%로 나타났다. 이는 모든 문헌이 텍스트 마이닝 및 LDA 토픽 모델링 분석에 필요한 최소한의 텍스트 정보를 충족하고 있음을 의미한다. 따라서 본 연구에서는 전처리 단계에서 문헌을 제외하지 않고, 전체 287편의 논문을 분석 대상으로 활용하였다.
3.3 텍스트 마이닝 분석 절차
본 연구는 수집된 텍스트 자료를 기반으로 중국어 어기조사 연구의 개념적 구조와 주제 경향을 파악하기 위해 여러 텍스트 마이닝 기법을 단계적으로 적용하였다. 분석 절차는 단어 빈도 분석, TF–IDF 가중치 산출, N-gram 분석, 공출현 네트워크 구축, LDA 토픽 모델링의 다섯 단계로 구성된다.
(1) 단어 빈도 분석 및 워드 클라우드 시각화
단어 빈도 분석을 통해 텍스트에서 가장 자주 등장하는 핵심 개념을 식별하였다. 단어 빈도는 특정 기간 또는 연구 주제에서 반복적으로 논의되는 개념을 파악하는 기초 지표로 기능하며, 상위 빈도 단어는 후속 의미 네트워크 분석의 중심 노드로 활용된다. 또한 빈도 기반 워드 클라우드 시각화를 통해 연구 경향을 직관적으로 파악할 수 있는 기반을 마련하였다.
(2) TF-IDF 분석
단순 빈도만으로는 특정 문헌이나 연구 주제에서의 상대적 중요성을 충분히 반영하기 어렵기 때문에, TF–IDF 분석을 수행하였다. TF–IDF는 한 문서에서 단어가 가진 중요도와 전체 문서 집합에서의 희소성을 동시에 고려하여 계산되므로, 연구 텍스트에서 특징적인 핵심 단어를 추출하는 데 적합한 방법론이다.
(3) N-gram 분석
텍스트의 연속적 의미 단위를 확인하기 위해 N-gram 분석을 적용하였다. 특히 2-gram 분석을 통해 단일 단어로는 파악하기 어려운 연어 구조나 조합 패턴을 탐지하였다. 이를 통해 어기조사 연구에서 특정 개념이 어떤 단어와 함께 빈번하게 출현하는지, 의미적 관계는 어떻게 구성되는지 확인할 수 있는 기반을 구축하였다.
(4) 공출현 네트워크 구축
텍스트 내 키워드 간 의미적 연결성을 파악하기 위해 공출현 네트워크를 구축하였다. 공출현 분석은 동일 문서 혹은 동일 문맥에서 두 단어가 함께 등장하는 빈도를 기반으로 하며, 얻어진 공출현 행렬을 네트워크 데이터로 변환하여 후속 Neo4j 분석에 활용하였다. 공출현 관계는 각 키워드의 의미적 연관성 강도를 반영하는 지표로 사용되었다.
(5) LDA 토픽 모델링
연구 주제의 잠재적 구조를 파악하기 위해 LDA 토픽 모델링을 실시하였다.
LDA는 문서 집합에 내재된 잠재 주제를 확률적으로 추정하는 비지도 학습 기법으로, 각 단어가 특정 주제에 기여하는 정도와 문서가 여러 주제에 혼합적으로 속할 수 있다는 특성을 반영한다.
이를 통해 중국어 어기조사와 연구가 어떤 주제 군집을 중심으로 구성되는지를 파악할 수 있는 분석적 틀을 제공하였다.
이와 같은 텍스트 마이닝 절차는 연구 키워드의 의미적 구조, 연구 주제의 잠재 분포, 개념 간 연결성을 다층적으로 탐색하기 위한 기반 분석으로 기능하였다.