"RTCL(2025) Final Paper 01"의 두 판 사이의 차이
CNUDH
(→7. 참고 문헌) |
|||
| (같은 사용자의 중간 판 40개는 보이지 않습니다) | |||
| 6번째 줄: | 6번째 줄: | ||
| − | <font size=" | + | ==<font size="6">'''서론'''</font>== |
현대 중국어에서 어기조사(语气助词)는 문장 종결부에 위치하여 화자의 태도, 문맥적 조건, 발화 의도를 직접적으로 표현하는 기능적 문법 범주로 정의된다. | 현대 중국어에서 어기조사(语气助词)는 문장 종결부에 위치하여 화자의 태도, 문맥적 조건, 발화 의도를 직접적으로 표현하는 기능적 문법 범주로 정의된다. | ||
| 17번째 줄: | 17번째 줄: | ||
이러한 연구적 특성은 기존 선행연구가 다섯 가지 범주의 의미론적 연구, 화용론 연구, 대조 연구, 교육문법 연구, 방언·변이 연구로 분화되어 있다는 점과도 관련된다. | 이러한 연구적 특성은 기존 선행연구가 다섯 가지 범주의 의미론적 연구, 화용론 연구, 대조 연구, 교육문법 연구, 방언·변이 연구로 분화되어 있다는 점과도 관련된다. | ||
의미론적 연구로는 ''(张未然 2018)''이 '吗', '吧', '呢'의 의미 기능 차이를 비교한 바 있고, 화용론 연구에서는 ''(赵璐 2021)''가 '呢'의 문장 내 담화 기능을 분석하여 상황 지속·대조·화제 유지라는 화용 특성을 규명하였다. | 의미론적 연구로는 ''(张未然 2018)''이 '吗', '吧', '呢'의 의미 기능 차이를 비교한 바 있고, 화용론 연구에서는 ''(赵璐 2021)''가 '呢'의 문장 내 담화 기능을 분석하여 상황 지속·대조·화제 유지라는 화용 특성을 규명하였다. | ||
| − | 학습자 언어 기반 대조 연구에서는 (彭小龙 2018)이 외국인 학습자의 문말조사 오류 양상을 분석하였고, 교육문법 연구에서는 ''(张玲瑛 2018)''이 '吗', '啊', '吧', '呢'에 대한 교수문법 체계를 정립하려는 시도를 보였다. | + | 학습자 언어 기반 대조 연구에서는 ''(彭小龙 2018)''이 외국인 학습자의 문말조사 오류 양상을 분석하였고, 교육문법 연구에서는 ''(张玲瑛 2018)''이 '吗', '啊', '吧', '呢'에 대한 교수문법 체계를 정립하려는 시도를 보였다. |
최근에는 ''(王翔 2020; 李丹丹2022)'' 등이 코퍼스 기반 정량 분석을 활용하며 데이터 중심 연구가 증가하고 있다. 이러한 선행 연구들은 각 어기조사와 그 기능을 개별적으로 정밀하게 설명하는 데 중요한 기여를 해 왔다. | 최근에는 ''(王翔 2020; 李丹丹2022)'' 등이 코퍼스 기반 정량 분석을 활용하며 데이터 중심 연구가 증가하고 있다. 이러한 선행 연구들은 각 어기조사와 그 기능을 개별적으로 정밀하게 설명하는 데 중요한 기여를 해 왔다. | ||
| 40번째 줄: | 40번째 줄: | ||
본 연구에서의 계량적 분석은 출판 연도별 논문 수, 어기조사별 연구 비중, 핵심 키워드 빈도 및 공출현 관계, 토픽별 논문 분포 등을 정량 지표로 측정하여 연구 동향을 체계적으로 분석하는 방식이다. 이에 본 연구는 코퍼스 기반 계량 분석을 통해 연구의 정량화와 체계화를 시도함으로써, 어기조사 연구의 전체 지형을 한번 그려보고자 한다. | 본 연구에서의 계량적 분석은 출판 연도별 논문 수, 어기조사별 연구 비중, 핵심 키워드 빈도 및 공출현 관계, 토픽별 논문 분포 등을 정량 지표로 측정하여 연구 동향을 체계적으로 분석하는 방식이다. 이에 본 연구는 코퍼스 기반 계량 분석을 통해 연구의 정량화와 체계화를 시도함으로써, 어기조사 연구의 전체 지형을 한번 그려보고자 한다. | ||
| + | ==<font size="6">'''이론적 배경'''</font>== | ||
| − | <font size=" | + | ===<font size="5">'''어기조사의 개념과 기능'''</font>=== |
| − | <font size="3">'''2.1 어기조사의 | + | 중국어 어기조사는 문장 종결부에 위치하며 문장의 의미양상이나 화자의 태도를 조정하는 문법 범주로 정의된다 ''(朱德熙 1999; 吕叔湘 1985)''. |
| + | 이들은 의문 의미 실현(吗), 상황 지속·대조 및 화제 유지(呢), 추정·완화된 명령(吧), 감탄·정동 표현(啊)등 다양한 담화 기능을 수행하며, 문장 구조 자체보다는 담화 기능을 중심으로 분석된다. | ||
| + | 특히 어기조사는 단일 의미 기능을 수행하는 데 그치지 않고, 화자의 심리적 거리 조절, 발화 책임의 분산, 친밀감 형성 등 발화 전략과 연동되어 대화의 상호작용적 특성을 구현하는 역할을 한다. | ||
| + | 따라서 어기조사는 단순 문법 요소가 아니라 담화 맥락 속에서 화자의 의도와 사회적 관계를 조정하는 상호작용적 장치로 이해될 필요가 있다. | ||
| + | |||
| + | |||
| + | ===<font size="5">'''대표 어기조사 유형'''</font>=== | ||
| + | |||
| + | {|class="sortable wikitable" style="text-align:center" | ||
| + | ! 어기조사 || 주요기능 || 예시 의미 범주 || 대표 사용 맥락 | ||
| + | |- | ||
| + | | 吗 || 의문·확인 요청 || 판단/일반 의문문 || 답해야 하는 질문 | ||
| + | |- | ||
| + | | 吧 || 추정·제안 완화 || 완곡 표현, 요청 || 부담 없는 권유 | ||
| + | |- | ||
| + | | 呢 || 진행·대조·화제 유지 || 정보 지속성 || 새로운 정보 제시 전 | ||
| + | |- | ||
| + | | 啊 || 감탄·강조 || 정동 표현 || 친밀도 표현·감탄 | ||
| + | |} | ||
| + | |||
| + | ==<font size="6">'''연구 자료 및 방법'''</font>== | ||
| + | |||
| + | 본 장에서는 연구에서 활용한 자료의 구성과 수집 절차, 텍스트 전처리 과정, 텍스트 마이닝 분석 방법, 그리고 네트워크 데이터 구축 및 Neo4j 분석 절차를 체계적으로 설명한다. | ||
| + | 본 연구의 목적은 중국어 어기조사 연구의 흐름과 구조를 체계적으로 파악하는 데 있으므로, 자료 처리와 분석 방법의 정교성이 연구 결과의 신뢰도를 결정하는 핵심 요소가 된다. | ||
| + | |||
| + | |||
| + | ===<font size="5">'''분석자료: CNKI 어기조사 논문 콘퍼스'''</font>=== | ||
| + | |||
| + | {|class="sortable wikitable" style="text-align:center" | ||
| + | ! 항목 || 내용 | ||
| + | |- | ||
| + | | 검색 플랫폼 || CNKI(中国知网) | ||
| + | |- | ||
| + | | 검색어 || '语气助词', '句末助词', '语气词' | ||
| + | |- | ||
| + | | 검색 기간 || 2015년-2025년 | ||
| + | |- | ||
| + | | 자료 유형 || 학술지 논문, 학위 논문 | ||
| + | |- | ||
| + | | 제외 기준 || 중복 논문, 초록만 존재하는 자료 | ||
| + | |} | ||
| + | |||
| + | 본 연구는 중국 최대 학술 데이터베이스인 CNKI(中国知网)에 등재된 중국어 어기조사 관련 학술 논문 분석 대상으로 삼았다. | ||
| + | 분석 범위는 2015년부터 2025년까지 발표된 문헌으로 설정하였으며, 이 시기 동안의 연구 동향을 포괄적으로 파악하기 위해 다음 절차에 따라 자료를 수집하였다. | ||
| + | |||
| + | |||
| + | 우선 CNKI의 통합 검색 시스템에서'气助词', '句末助词', '语气词'을 핵심 검색어로 설정하여 관련 문헌을 추출하였다. | ||
| + | 검색 결과에는 학술지 논문, 학위 논문, 회의 논문 등이 포함되었으나, 본 연구에서는 학술적 완성도와 분석 가능성을 고려하여 논문과 학위 논문만을 최종 자료 유형으로 선정하였다. | ||
| + | 다음 단계에서는 초록만 존재하는 문헌, 데이터가 불완전한 문헌을 제외하였다. 이렇게 선별된 문헌만을 최종 분석 자료에 포함하였다. | ||
| + | |||
| + | |||
| + | 이와 같은 선별 과정을 통해 구축된 CNKI 어기조사 코퍼스는 연구의 계량 분석과 네트워크 분석에 활용되었다. 이후 단계에서 수행된 키워드 추출, 공출현 분석, 토픽 모델링의 기반 데이터로 분석하였다. | ||
| + | |||
| + | |||
| + | ===<font size="5">'''텍스트 전처리'''</font>=== | ||
| + | |||
| + | 자료 수집 후 키워드는 Python 기반 정규화 과정을 거쳐 다음의 원칙에 따라 처리하였다. | ||
| + | |||
| + | {|class="sortable wikitable" style="text-align:center" | ||
| + | ! 처리 유형 || 예시 || 조치 | ||
| + | |- | ||
| + | | 동의어 통합 || 语气助词=句末助词 || 대표어로 통일 | ||
| + | |- | ||
| + | | 표기 변이 통합 || 語氣助詞=语气助词 || 간체자 기준 | ||
| + | |- | ||
| + | | 불용어 제거 || 研究, 分析, 问题 || 삭제 | ||
| + | |- | ||
| + | | 중복/단편화 수정 || 句末, 句末结构 || 동일 표현 그룹화 | ||
| + | |} | ||
| + | |||
| + | |||
| + | '''(1) 텍스트 및 키워드 추출''' | ||
| + | |||
| + | CNKI에서 수집한 논문의 제목, 키워드, 초록 텍스트를 대상으로 기본적인 정규화 작업을 수행하였다. | ||
| + | 먼저 간체자와 번체자 표기를 간체자로 통일하고, 동일한 의미를 가지는 표현은 하나의 대표 형태로 묶어 키워드를 정리하였다. 예를 들어 '语气助词'와 '句末助词'는 동일 범주로 간주하여 하나의 키워드로 통합하였다. | ||
| + | 또한 공백, 특수문자, 불필요한 줄 바꿈 등 분석에 영향을 주지 않는 형식 정보를 제거하여 분석에 적합한 형태의 텍스트를 구축하였다. | ||
| + | |||
| + | |||
| + | '''(2) 토큰화와 불용어 처리''' | ||
| + | |||
| + | 정규화 된 텍스트를 어휘 단위로 토큰화하여 문장을 분석 단위로 분절하였다. | ||
| + | 이후 의미 분석에 기여하지 않는 기능어, 일반적 연구 메타 표현('研究', '分析', '问题')등은 불용어로 간주, 의미어, 한 글자, 중국어 일반 학술용어는 제거하였다(语气词 제외). | ||
| + | 이를 통해 핵심 개념이 아닌 단어가 빈도 분석과 공출현 분석에 영향을 미치는 것을 방지하였다. | ||
| + | |||
| + | |||
| + | '''(3) 초록 결측률 확인''' | ||
| + | |||
| + | 후속 분석에서 핵심 자료로 활용되는 초록의 품질을 확인하기 위해, 수집된 전체 논문 287편을 대상으로 초록의 존재 여부와 결측률을 점검하였다. | ||
| + | 그 결과, 초록이 누락된 논문은 확인되지 않았으며, 초록 결측률은 0.00%로 나타났다. | ||
| + | 이는 모든 문헌이 텍스트 마이닝 및 LDA 토픽 모델링 분석에 필요한 최소한의 텍스트 정보를 충족하고 있음을 의미한다. | ||
| + | 따라서 본 연구에서는 전처리 단계에서 문헌을 제외하지 않고, 전체 287편의 논문을 분석 대상으로 활용하였다. | ||
| + | |||
| + | |||
| + | ===<font size="5">'''텍스트 마이닝 분석 절차'''</font>=== | ||
| + | |||
| + | 본 연구는 수집된 텍스트 자료를 기반으로 중국어 어기조사 연구의 개념적 구조와 주제 경향을 파악하기 위해 여러 텍스트 마이닝 기법을 단계적으로 적용하였다. | ||
| + | 분석 절차는 단어 빈도 분석, TF–IDF 가중치 산출, N-gram 분석, 공출현 네트워크 구축, LDA 토픽 모델링의 다섯 단계로 구성된다. | ||
| + | |||
| + | |||
| + | '''(1) 단어 빈도 분석 및 워드 클라우드 시각화''' | ||
| + | |||
| + | 단어 빈도 분석을 통해 텍스트에서 가장 자주 등장하는 핵심 개념을 식별하였다. | ||
| + | 단어 빈도는 특정 기간 또는 연구 주제에서 반복적으로 논의되는 개념을 파악하는 기초 지표로 기능하며, 상위 빈도 단어는 후속 의미 네트워크 분석의 중심 노드로 활용된다. | ||
| + | 또한 빈도 기반 워드 클라우드 시각화를 통해 연구 경향을 직관적으로 파악할 수 있는 기반을 마련하였다. | ||
| + | |||
| + | |||
| + | '''(2) TF-IDF 분석''' | ||
| + | |||
| + | 단순 빈도만으로는 특정 문헌이나 연구 주제에서의 상대적 중요성을 충분히 반영하기 어렵기 때문에, TF–IDF 분석을 수행하였다. | ||
| + | TF–IDF는 한 문서에서 단어가 가진 중요도와 전체 문서 집합에서의 희소성을 동시에 고려하여 계산되므로, 연구 텍스트에서 특징적인 핵심 단어를 추출하는 데 적합한 방법론이다. | ||
| + | |||
| + | |||
| + | '''(3) N-gram 분석''' | ||
| + | |||
| + | 텍스트의 연속적 의미 단위를 확인하기 위해 N-gram 분석을 적용하였다. | ||
| + | 특히 2-gram 분석을 통해 단일 단어로는 파악하기 어려운 연어 구조나 조합 패턴을 탐지하였다. | ||
| + | 이를 통해 어기조사 연구에서 특정 개념이 어떤 단어와 함께 빈번하게 출현하는지, 의미적 관계는 어떻게 구성되는지 확인할 수 있는 기반을 구축하였다. | ||
| + | |||
| + | |||
| + | '''(4) 공출현 네트워크 구축''' | ||
| + | |||
| + | 텍스트 내 키워드 간 의미적 연결성을 파악하기 위해 공출현 네트워크를 구축하였다. | ||
| + | 공출현 분석은 동일 문서 혹은 동일 문맥에서 두 단어가 함께 등장하는 빈도를 기반으로 하며, 얻어진 공출현 행렬을 네트워크 데이터로 변환하여 후속 Neo4j 분석에 활용하였다. | ||
| + | 공출현 관계는 각 키워드의 의미적 연관성 강도를 반영하는 지표로 사용되었다. | ||
| + | |||
| + | |||
| + | '''(5) LDA 토픽 모델링''' | ||
| + | |||
| + | 연구 주제의 잠재적 구조를 파악하기 위해 LDA 토픽 모델링을 실시하였다. | ||
| + | LDA는 문서 집합에 내재된 잠재 주제를 확률적으로 추정하는 비지도 학습 기법으로, 각 단어가 특정 주제에 기여하는 정도와 문서가 여러 주제에 혼합적으로 속할 수 있다는 특성을 반영한다. | ||
| + | 이를 통해 중국어 어기조사와 연구가 어떤 주제 군집을 중심으로 구성되는지를 파악할 수 있는 분석적 틀을 제공하였다. | ||
| + | |||
| + | |||
| + | 이와 같은 텍스트 마이닝 절차는 연구 키워드의 의미적 구조, 연구 주제의 잠재 분포, 개념 간 연결성을 다층적으로 탐색하기 위한 기반 분석으로 기능하였다. | ||
| + | |||
| + | |||
| + | ===<font size="5">'''Neo4j 기반 그래프 시각화 및 네트워크 분석'''</font>=== | ||
| + | |||
| + | 텍스트 마이닝 단계에서 도출한 키워드 공출현 정보를 바탕으로 그래프 데이터베이스인 Neo4j를 활용하여 의미 네트워크를 구축하였다. | ||
| + | 이를 통해 중국어 어기조사 연구에서 주요 개념들이 어떠한 구조적 관계망을 이루는지 시각적으로 모형화하고, 네트워크 분석 지표를 통해 핵심 개념과 매개 개념을 파악할 수 있는 기반을 마련하였다. | ||
| + | |||
| + | |||
| + | '''(1) 노드 밑 관계 스키마 설계''' | ||
| + | |||
| + | 텍스트 분석을 통해 얻은 키워드 목록과 공출현을 Neo4j에서 활용 가능한 네트워크 데이터 형식으로 변환하였다. | ||
| + | 그래프 모델링 과정에서 각 키워드를 하나의 노드로 정의하고, 두 키워드가 동일 문헌 또는 동일 문맥에서 함께 출현한 관계를 관계로 설정하였다. | ||
| + | 노드에는 키워드 문자열뿐 아니라, 단어 빈도, TF–IDF 값 등 후속 분석에 활용할 수 있는 속성들을 부여하였다. | ||
| + | 관계 유형은 CO_OCCUR로 통일하였으며, 관계의 가중치는 두 키워드가 함께 등장한 횟수 또는 공출현 점수로 설정하였다. | ||
| + | 이때, 의미적 연관성이 약한 관계를 제거하기 위해 일정 빈도 미만의 공출현 쌍은 네트워크에 포함하지 않았다. | ||
| + | |||
| + | |||
| + | Neo4j로의 데이터 적재는 CSV 형식의 노드·관계 파일을 생성한 뒤, Cypher 쿼리를 통해 LOAD CSV 구문을 사용하여 수행하였다. 이를 통해 키워드 간 공출현 정보가 Keyword–[CO_OCCUR]–Keyword 구조의 그래프 데이터로 변환되었다. | ||
| + | |||
| + | |||
| + | '''(2) 그래프 시각화 중심성 지표 분석''' | ||
| + | |||
| + | 그래프 구조가 구축된 후, Neo4j를 활용하여 네트워크를 시각화 하였다. | ||
| + | 시각화 과정에서는 강제지향 레이아웃과 같은 네트워크 레이아웃 알고리즘을 적용하여, 서로 연관성이 높은 키워드들이 인접한 위치에 배치되도록 하였다. | ||
| + | 이를 통해 어기조사 연구에서 형성되는 개념 군집과 중심 영역을 직관적으로 파악할 수 있는 그래프를 생성하였다. | ||
| + | 또한, 의미 네트워크에서 핵심 개념과 매개 개념을 식별하기 위해 중심성 지표를 산출하였다. | ||
| + | 구체적으로는 각 노드의 연결 정도를 나타내는 연결 중심성, 네트워크 내에서 다른 노드들 사이의 경로를 얼마나 많이 매개하는지를 나타내는 매개 중심성 등을 계산하였다. | ||
| + | 연결 중심성은 어기조사 연구에서 자주 함께 언급되는 핵심 용어를 파악하는 데 활용되었고, 매개 중심성은 서로 다른 연구 주제나 영역을 연결해 주는 중간 개념을 찾는 데 활용되었다. | ||
| + | 이와 같은 Neo4j 기반 그래프 시각화 및 중심성 분석 절차는 텍스트 마이닝으로 얻은 정량적 정보를 구조화된 네트워크 형태로 재구성함으로써, 중국어 어기조사 연구의 의미적 연결 구조를 다층적으로 이해하기 위한 방법론적 틀을 제공한다. | ||
| + | |||
| + | ==<font size="6">'''연구 결과'''</font>== | ||
| + | |||
| + | ===<font size="5">'''키워드 빈도 및 공출현 네트워크(RQ3)'''</font>=== | ||
| + | [[파일: 워드클라우드_시각화_김두환.png]] | ||
| + | <div style="text-align:center;"><사진 1: 워드 클라우드 시각화> </div> | ||
| + | |||
| + | 워드 클라우드 시각화 분석 결과, 어기조사 연구는 문법·의미·기능 중심의 전통적 연구를 기반으로 하면서도, 화용·대조·학습자 오류 연구로 점차 확장되는 경향을 보였다. | ||
| + | |||
| + | |||
| + | [[파일: TF-IDF_분석_김두환.png]] | ||
| + | <div style="text-align:center;"><사진 2: TF-IDF 분석> </div> | ||
| + | |||
| + | TF–IDF 분석 결과, 전체 논문에서 빈번하게 등장하는 일반적 개념과 달리, 특정 문헌에서 상대적으로 높은 중요도를 갖는 핵심 키워드가 확인되었다. | ||
| + | 이는 단순 빈도 분석만으로는 포착하기 어려운 문헌별 특징적 연구 초점을 드러내는 결과로, 어기조사 연구가 동일한 주제를 반복적으로 다루는 동시에 각 연구마다 강조점이 상이함을 보여준다. | ||
| + | 특히 일부 키워드는 제한된 문서에서만 높은 TF–IDF 값을 나타내어, 특정 연구 주제나 이론적 관점에 집중된 분석이 이루어지고 있음을 시사한다. | ||
| + | 이러한 결과는 이후 공출현 네트워크 분석과 토픽 모델링에서 핵심 키워드를 선별하는 근거로 활용되었다. | ||
| + | |||
| + | |||
| + | [[파일: 공출현_네트워크_김두환.png]] | ||
| + | <div style="text-align:center;"><사진 3: 공출현 네트워크> </div> | ||
| + | |||
| + | Neo4j 기반 공출현 네트워크 분석 결과, 중국어 어기조사 연구는 여러 핵심 개념들이 서로 긴밀한 의미적 관계를 형성하며, 특정 개념이 중심성 높은 허브 역할을 수행하는 구조를 보였다. | ||
| + | 공출현 네트워크의 중심부에는 '语法', '功能', '语义', '句末', '语用'과 같은 핵심 노드가 위치하며, 이들은 다른 개념들과 가장 높은 연결 강도를 보였다. | ||
| + | |||
| + | |||
| + | 예를 들어, '功能'은 '标记', '差异', '信息' 등 화용·담화적 요소들과 다수의 공출현 관계를 형성하여, 어기조사 연구가 단순한 문법적 기능 기술을 넘어 담화 기능·표지 기능·정보 구조 분석으로 확장되고 있음을 보여준다. | ||
| + | 또한 '语义' 노드는 '构式', '语境', '语料' 등과 함께 나타나, 의미 해석이 구문 구조·문맥 조건과 함께 통합적으로 논의되는 경향을 보여준다. | ||
| + | 이러한 네트워크 구조는 중국어 어기조사 연구가 개별 조사 하나를 독립적으로 분석하는 방식에서 벗어나, '문법–의미–화용–담화–코퍼스'가 상호 연동된 다층적 연구 체계로 발전하고 있음을 시사한다. | ||
| + | |||
| + | |||
| + | [[파일: 핵심_키워드_상위_20개_김두환.png]] | ||
| + | <div style="text-align:center;"><사진 4: 핵심 키워드 상위 20개> </div> | ||
| + | |||
| + | 위 그래프는 분석 코퍼스에서 가장 높은 빈도를 보인 핵심 키워드 20개를 제시한 것이다. | ||
| + | 상위 키워드는 다음과 같은 범주적 특성을 보인다. | ||
| + | 키워드 빈도 상위 20개는 크게 문법·구문(语法, 句法, 结构), 의미·기능(语义, 功能), 화용·담화(语用, 标记, 信息), 방언·번역·역사(方言, 翻译, 虚词, 演变) 네 범주로 나타났다. | ||
| + | 이 가운데 '语法', '功能', '语义' 등은 가장 높은 빈도를 보이며 전통 문법과 의미·화용 기능 분석이 어기조사 연구의 핵심 축임을 보여준다. | ||
| + | 또한 '方言', '翻译' 키워드의 빈도 상승은 최근 연구가 방언 비교 연구와 번역 기반 연구로 확장되고 있음을 시사한다. | ||
| + | |||
| + | |||
| + | 공출현 네트워크에서도 이러한 경향이 반복적으로 확인되며, 예를 들어 '功能'은 '标记', '差异', '信息'과 강하게 연결되어 담화 기능·표지 기능 분석이 활발함을 보여준다. | ||
| + | 이는 어기조사 연구가 단일 문법 요소 분석이 아니라 언어 체계와 담화 구조를 연결하는 다핵적 구조로 발전하고 있음을 의미한다. | ||
| + | |||
| + | |||
| + | 즉 어기조사 연구는 단순히 '문법소'의 특징을 기술하는 단일 범주 연구에서 벗어나, 언어 내부 구조와 언어 사용의 실제 양상을 다층적으로 통합하는 연구 영역으로 확장되었다. | ||
| + | |||
| + | |||
| + | ===<font size="5">'''LAD 토픽 구조 및 토픽-문서 네트워크(RQ4)'''</font>=== | ||
| + | |||
| + | [[파일: LAD_토픽_결과_김두환.png]] | ||
| + | |||
| + | <div style="text-align:center;"><사진 5: LAD 토픽 결과> </div> | ||
| + | |||
| + | LDA 토픽 모델링 결과, 현대 중국어 어기조사 연구는 다섯 개의 주요 토픽으로 분류되었다. | ||
| + | 각 토픽은 함께 등장하는 키워드의 군집을 기준으로 도출되었으며, 논문 한 편이 두 개 이상의 토픽에 동시에 속하는 경우도 있다. | ||
| + | |||
| + | |||
| + | 먼저 토픽별 핵심 키워드와 연구 내용의 특징은 다음과 같다. | ||
| + | |||
| + | {|class="sortable wikitable" style="text-align:center" | ||
| + | ! 토픽 || 핵심 키워드 및 연구 내용 | ||
| + | |- | ||
| + | | Topic 1 (67편) || 의문문 및 통사 구조 중심 연구 (키워드: 句末, 疑问, 句法) | ||
| + | |- | ||
| + | | Topic 2 (65편) || 화용 기능 및 학습자 오류/대조 연구 (키워드: 偏误, 对比, 呢, 吧) | ||
| + | |- | ||
| + | | Topic 3 (53편) || 중국어 교육 및 교재 편찬 (키워드: 编写, 学生, 教学) | ||
| + | |- | ||
| + | | Topic 4 (110편) || 문법화 및 역사적 변천/구문론 (키워드: 构式, 演变, 虚词) | ||
| + | |- | ||
| + | | Topic 5 (113편) || 방언 및 번역 연구 (키워드: 方言, 翻译, 副词) | ||
| + | |} | ||
| + | |||
| + | 논문 한 편이 두 개 이상의 토픽에 배정될 수 있기 때문에, 토픽별 논문 수의 합계는 전체 논문 수(287편)를 초과한다. | ||
| + | 그 가운데 Topic 4와 Topic 5가 가장 큰 비중을 차지하여, 문법화·역사 연구와 방언·번역 연구가 현대 어기조사 연구의 중요한 두 축을 형성하고 있음을 보여 준다. | ||
| + | 반면 Topic 2와 Topic 3은 화용, 학습자 오류, 교육·교재 연구를 연결하는 중간층으로 기능하면서, 전통 문법 연구와 교육 현장을 매개하는 역할을 담당한다. | ||
| + | |||
| + | |||
| + | [[파일: 토픽-문서_언결_구조_김두환.png]] | ||
| + | <div style="text-align:center;"><사진 6: 토픽-문서 연결 구조> </div> | ||
| + | |||
| + | 위 그림은 각 토픽과 개별 논문 간의 연결 구조를 시각화 한 것이다. | ||
| + | 중심부에 위치한 Topic 4와 Topic 5는 여러 시기와 다양한 어기조사 연구와 폭넓게 연결되어 있고, 주변부의 Topic 2와 Topic 3은 특정 시기 이후에 집중적으로 분포하는 경향을 보인다. | ||
| + | 이러한 토픽 분포와 연결 구조는 어기조사 연구가 단일 범주나 개별 조사에 한정되지 않고, 의미, 역사, 교육, 방언 연구가 공존하는 다핵적 구조로 확장되고 있음을 잘 보여 준다. | ||
| + | |||
| + | |||
| + | ===<font size="5">'''대표 어기조사별 연구 비중(RQ2)'''</font>=== | ||
| + | |||
| + | 분석 결과, '吗'가 가장 높은 연구 비중 빈도를 보였으며(전체 287편 중 82편), 이어 '吧'(67편), '呢'(53편), '啊'(46편), ‘방언·역사·교육·구문·번역’ 등 어기조사 간접 연구(39편)순으로 나타났다. | ||
| + | 이는 의문 기능과 화용 기능에 대한 연구 관심이 상대적으로 높음을 의미한다. | ||
| + | |||
| + | |||
| + | ===<font size="5">'''연도별 연구 추세(RQ1)'''</font>=== | ||
| + | |||
| + | 연구 수는 2015년 이후 전반적으로 증가하는 경향을 보이며, 특히 2020-2024년 사이 연구량이 뚜렷하게 확대되었다. | ||
| + | 아래 <사진 7>은 2015-2025년까지의 연도별 논문 수 변화를 시각화한 것이다. | ||
| + | |||
| + | [[파일: 연도별_논문_수_김두환.png]] | ||
| + | <div style="text-align:center;"><사진 7: 2015-2025년 연도별 논문 수> </div> | ||
| + | |||
| + | 위 그래프에 따르면 2015-2019년까지는 소규모 증가세를 유지하였으나, 2020년 이후 연구량이 급격히 상승하여 2021년(41편), 2022년(43편)에 정점을 보였다. | ||
| + | 이는 다음과 같은 연구 환경 변화와 직접 연관된다. | ||
| + | |||
| + | 1) 코퍼스 기반 언어 연구 확산: 대규모 언어 데이터 구축이 이루어지며 어기조사 연구도 정량적 분석이 가능했다. | ||
| + | |||
| + | 2) 자연어 처리 기술 발전: 텍스트 마이닝, 키워드 네트워크 분석, 토픽 모델링을 활용하는 연구가 증가하였다. | ||
| + | |||
| + | 3) 담화·화용 중심 연구의 확대: 문법 요소를 단순 기술하는 방식에서 벗어나 사용 기반 접근이 강화됐다. | ||
| + | |||
| + | |||
| + | 2024년에는 연구량이 다시 크게 증가하였으나, 2025년은 자료 수집 시점의 미완료 데이터 가능성이 높아 단정적인 감소로 보기 어렵다. | ||
| + | 전반적으로 중국어 어기조사 연구는 2020년을 기점으로 양적·방법론적 전환을 맞이한 연구 분야임을 확인할 수 있다. | ||
| + | |||
| + | |||
| + | [[파일: 문서별_메인_토픽에_대한_연도별_분석_김두환.jpg]] | ||
| + | <div style="text-align:center;"><사진 8: 문서별 메인 토픽에 대한 연도별 분석> </div> | ||
| + | |||
| + | 위 그래프는 2020-2025년 사이에 등장한 주요 LDA 토픽(Topic 1-5)의 연도별 분포를 보여주는 것이다. | ||
| + | 토픽별 문서 수 변화를 통해 단순한 연구량 증가뿐 아니라 연구 주제의 구조적 이동도 함께 확인할 수 있다. | ||
| + | |||
| + | |||
| + | 1) Topic 4(문법화·역사)와 Topic 5(방언·번역 연구)는 지속적으로 높은 비중을 유지했다. | ||
| + | :- 2020-2025년 전 기간에 걸쳐 가장 안정적으로 높은 연구량을 차지한다. | ||
| + | :- 어기조사의 기원·변천, 방언 변이, 번역 이론 등 ‘언어체계적 연구’가 강한 축을 형성하고 있음을 의미한다. | ||
| + | :- 현대 어기조사 연구의 중심축은 여전히 문법화·역사·방언 연구한다. | ||
| + | |||
| + | 2) Topic 2(화용·대조·학습자 오류)는 시기별로 유동적 증가했다. | ||
| + | :- 2023년-2024년에 증가세이다. | ||
| + | :- 이는 외국인 학습자 코퍼스 확장 및 오류 분석 연구 증가와 관련, 언어교육 관점의 어기조사 연구도 꾸준히 확장 중이다. | ||
| + | |||
| + | 3) Topic 3(중국어 교육·교재·학습자 연구)는 점진적 증가 후 2024년에 확장했다. | ||
| + | :- Topic 3는 교수, 학습, 교재 편찬, 학습자 중심의 연구를 포함하는 교육 기반 연구 토픽이다. | ||
| + | :- 2020-2022년 간에는 비교적 안정된 소규모 비중을 유지했다. | ||
| + | :- 2023-2024년 사이 교육·학습자 오류 분석 연구가 증가하며 분명한 상승세를 보였다. | ||
| + | |||
| + | 4) Topic 1(의문·구문 구조 중심 연구)은 완만한 증가 후 안정화 | ||
| + | :- 의문문·문말 구조·통사 기능을 다루는 전통적 문법 연구는 꾸준히 유지 | ||
| + | :- 어기조사 연구의 기반을 이루는 핵심 토픽 | ||
| + | |||
| + | |||
| + | 2024년의 거의 모든 Topic이 일시적으로 증가하는 현상은 전체 연구량이 증가한 해와 일치하다. 이는, 연구자 유입 증가와 데이터 기반 연구 기법의 보편화 영향으로 볼 수 있다. | ||
| + | |||
| + | |||
| + | 두 그래프는 다음 사실을 함께 지지한다. | ||
| + | |||
| + | 1) 2020년 이후 어기조사 연구는 양적으로 크게 증가하였다. | ||
| + | |||
| + | 2) 연구 주제는 단일 문법 분석에서 벗어나 다핵적 구조(문법-화용-교육-방언-역사)로 확장되었다. | ||
| + | |||
| + | 3) 특히 문법화·역사 연구와 방언·번역 연구가 가장 안정적이고 비중이 크다. | ||
| + | |||
| + | 4) 2024년은 연구량과 연구 주제가 동시에 확대된 전환점이다. | ||
| + | |||
| + | |||
| + | ==<font size="6">'''논의'''</font>== | ||
| + | |||
| + | 본 연구의 의의는 중국어 어기조사 연구 영역 간의 연결 구조를 계량 분석을 통해 구체적으로 제시했다는 데 있다. | ||
| + | 분석 결과, 현대 중국어 어기조사 연구는 개별 문법 항목 기술에서 출발하여 화용 기능 분석으로 확장되었고, 최근에는 코퍼스와 네트워크 분석을 활용한 구조화 연구로 발전하는 경향을 보인다. | ||
| + | 또한 키워드 공출현 네트워크는 문법, 화용, 교육, 방언, 역사 연구가 서로 분리된 축이 아니라 상호 연결된 다층 구조를 형성하고 있음을 보여 주며, 향후 연구 방법론에서도 데이터 기반 접근과 복수 영역을 통합하는 시도가 중요해질 가능성을 시사한다. | ||
| + | |||
| + | |||
| + | 어기조사 사용은 중국어 학습자의 발화가 얼마나 자연스럽게 들리는지를 결정짓는 핵심 요소이므로, 이러한 결과는 교재 개발과 AI 기반 발화 교정 시스템에도 응용될 수 있다. | ||
| + | 예를 들어 자연어 처리 기반 문장 생성 모델에서 어기조사의 누락이나 과잉 사용을 자동 검출하여 학습자에게 피드백을 제공하는 시스템을 설계한다면, 실제 사용 맥락을 반영한 어기조사 교육에 기여할 수 있을 것이다. | ||
| + | |||
| + | |||
| + | ==<font size="6">'''결론'''</font>== | ||
| + | |||
| + | 본 연구는 2015-2025년 사이 CNKI에 수록된 중국어 어기조사 관련 논문을 대상으로 텍스트 마이닝과 Neo4j 기반 네트워크 분석 등 계량적 방법을 적용하여 연구 경향을 체계적으로 정리하였다. | ||
| + | 이를 통해 주요 연구 대상과 연구 방법, 핵심 키워드의 공출현 구조, 시기별 연구 흐름을 총제적으로 파악할 수 있었다. | ||
| + | 향후 연구는 실제 구어 코퍼스와 교육 현장 자료, 대조언어학적 관점을 결합한 통합 모델 개발 방향으로 확장될 필요가 있다. | ||
| + | 요컨대 본 연구는 어기조사 연구를 개별 조사 중심의 기술적 분석에서 한 걸음 나아가, 계량 기반 네트워크 분석을 통해 상호 연결된 연구 지형을 제시했다는 점에서 학문적 의의를 지닌다. | ||
| + | |||
| + | |||
| + | 기존 연구는 특정 어기조사에 대한 개별적으로 분석하는 데 집중 되어있어, 조사들 간의 관계나 의미 네트워크 구조를 종합적으로 비교하는 연구가 부족하였다. | ||
| + | 본 연구 또한 CNKI 자료에 한정된 분석이라는 제약이 있어, 타 데이터베이스의 연구 흐름을 충분히 반영하지 못했다는 것이 기존 연구 및 본 연구의 한계이다. | ||
| + | |||
| + | |||
| + | 향후 연구 방향은 다음과 같이 제시될 수 있다. | ||
| + | |||
| + | 첫째, 기존 문헌 중심의 분석을 넘어 대규모 구어 자료를 기반으로 한 실제 사용 패턴 연구가 필요하다. 지금까지의 연구가 주로 문어 자료에 의존해 왔다면, 앞으로는 상황별 화용 기능, 담화 맥락, 음운·억양 요소를 포함하는 담화 중심 연구 설계가 요구된다. | ||
| + | |||
| + | |||
| + | 둘째, 학습자 코퍼스 기반 대조 연구는 외국어로서 중국어 교육에 중요한 기여를 할 수 있으며, 어기조사의 습득 난이도와 오류 유형을 분석하여 교육문법과 교수 전략 개선에 활용될 수 있다. | ||
| + | |||
| + | |||
| + | 셋째, 방언 연구와 역사 언어학적 비교 연구는 특정 어기조사의 의미 변화 과정과 지역별 변이를 설명하는 데 핵심적 연구 축을 형성할 것이다. | ||
| + | |||
| + | |||
| + | 넷째, 텍스트 마이닝·의미 네트워크 분석·AI 기반 자동 태깅 기술을 결합한 통합적 분석 방법론이 요구되며, 이는 개별 조사 중심의 연구를 넘어 언어 체계 내부의 상호 연계성을 밝히는 데 기여할 것이다. | ||
| + | |||
| + | |||
| + | 마지막으로, 어기조사 연구 결과를 실제 교육·평가·AI 언어 처리 모델에 적용하는 응용 연구 역시 중요한 과제로 남아 있으며, 자연어 생성 모델, 자동 채점 시스템, 음성-문자 변환 등에서 어기조사의 의미 기능을 반영하는 것은 높은 실질적 활용 가치를 지닌다. | ||
| + | |||
| + | |||
| + | ==<font size="6">'''참고 문헌'''</font>== | ||
| + | |||
| + | - 吕叔湘. 1985. 『中国文法要略』. 北京: 商务印书馆. | ||
| + | |||
| + | - 朱德熙. 1999. 『语法讲义』. 北京: 商务印书馆. | ||
| + | |||
| + | - 彭小龙. 2018. 汉语学习者句末语气词偏误研究:语料库视角. 语言文字应用, 2: 33-44. | ||
| + | |||
| + | - 张未然. 2018. 现代汉语句末助词“吗、吧、呢”的语义功能对比研究. 北京: 北京语言大学硕士论文. | ||
| + | |||
| + | - 胡明. 2019. 汉语语气词“吧”的语用功能及其使用限制. 汉语学习, 3: 27-38. | ||
| + | |||
| + | - 王翔. 2020. 基于语料库的语气词“吧”使用偏误分析. 对外汉语教学研究, 4: 87-99. | ||
| + | |||
| + | - 赵璐. 2021. 句末语气词“呢”的篇章功能研究. 语言教学与研究, 5: 94-102. | ||
| + | |||
| + | - 褚晓玲. 2021. 基于网络分析的汉语语汇关系研究. 语言研究集刊, 12(4):77-89. | ||
| + | |||
| + | - 李丹丹. 2022. 学习者语料库中句末助词使用的语体差异研究. 世界汉语教学, 36(3): 114–129. | ||
2025년 12월 17일 (수) 22:34 기준 최신판
목차
서론
현대 중국어에서 어기조사(语气助词)는 문장 종결부에 위치하여 화자의 태도, 문맥적 조건, 발화 의도를 직접적으로 표현하는 기능적 문법 범주로 정의된다. 이러한 특성 때문에 어기조사는 의미 해석뿐 아니라 화용론, 담화 구조, 음운적 리듬과도 밀접하게 연결되며, 의문·추정·제안·강조 등 다양한 담화 기능을 실현한다. 그러나 기존 연구들은 특정조사(예: 吗,吧,呢,啊)에 한정된 분석이 다수를 차지하였으며, 연구 방법 또한 개별 조사에 국한된 연구가 중심이었다. 기존의 중국어 어기조사 연구는 주로 '吗', '吧', '呢', '啊'의 의미 기능을 기술적으로 분석하는 방식이 중심이었다. 특히 '吗'는 의문 의미,'吧'는 추정·완곡 표현,'呢'는 화제 유지·대조, '啊'는 감탄·정동 기능에 초점을 맞추는 연구가 대부분이었다.
이러한 연구적 특성은 기존 선행연구가 다섯 가지 범주의 의미론적 연구, 화용론 연구, 대조 연구, 교육문법 연구, 방언·변이 연구로 분화되어 있다는 점과도 관련된다.
의미론적 연구로는 (张未然 2018)이 '吗', '吧', '呢'의 의미 기능 차이를 비교한 바 있고, 화용론 연구에서는 (赵璐 2021)가 '呢'의 문장 내 담화 기능을 분석하여 상황 지속·대조·화제 유지라는 화용 특성을 규명하였다.
학습자 언어 기반 대조 연구에서는 (彭小龙 2018)이 외국인 학습자의 문말조사 오류 양상을 분석하였고, 교육문법 연구에서는 (张玲瑛 2018)이 '吗', '啊', '吧', '呢'에 대한 교수문법 체계를 정립하려는 시도를 보였다.
최근에는 (王翔 2020; 李丹丹2022) 등이 코퍼스 기반 정량 분석을 활용하며 데이터 중심 연구가 증가하고 있다. 이러한 선행 연구들은 각 어기조사와 그 기능을 개별적으로 정밀하게 설명하는 데 중요한 기여를 해 왔다.
또한 최근 중국어 연구 환경에서는 구어 기반 자료와 AI 텍스트 분석 기술이 빠르게 확산되고 있으며, 어기조사 연구 역시 문어 중심의 기술적 분석에서 벗어나 화용과 상호작용, 실제 사용 패턴을 중시하는 방향으로 확장되고 있다. 이러한 연구 환경의 변화가 어기조사 연구 동향에 어떻게 반영되어 있는지를 계량적으로 확인하는 것이 본 연구의 중요한 목표이다.
이에 본 연구는 CNKI 데이터베이스에 2015년부터 2025년까지 수록된 중국어 어기조사 관련 연구 287편을 대상으로, 주요 연구 대상과 연구 방법, 의미·화용 연구의 비중, 키워드 네트워크 구조를 포함한 전반적 경향을 분석하였다. 이러한 분석을 바탕으로 다음과 같은 네 가지 연구 질문을 설정하였다.
1) CNKI에 수록된 중국어 어기조사 연구는 연도별로 어떤 동향을 보이는가?
2) 대표적인 문말 어기조사(吗,吧,呢,啊 등) 가운데 어떤 항목이 연구의 중심 대상으로 부각되는가?
3) 연구 키워드의 공출현 관계는 어떤 의미 네트워크 구조와 중심 개념을 드러내는가?
4) 연구 방법과 이론적 관점은 시기별로 어떻게 변화해왔는가?
특히 본 연구는 출판연도, 조사별 연구 비중, 키워드 공출현 빈도, 토픽 분포 등 계량적 지표와 Neo4j 기반 의미 네트워크 분석을 활용하여 중국어 어기조사 연구의 전체적 구조와 발전 방향을 탐색하는 데 목적을 둔다.
본 연구에서의 계량적 분석은 출판 연도별 논문 수, 어기조사별 연구 비중, 핵심 키워드 빈도 및 공출현 관계, 토픽별 논문 분포 등을 정량 지표로 측정하여 연구 동향을 체계적으로 분석하는 방식이다. 이에 본 연구는 코퍼스 기반 계량 분석을 통해 연구의 정량화와 체계화를 시도함으로써, 어기조사 연구의 전체 지형을 한번 그려보고자 한다.
이론적 배경
어기조사의 개념과 기능
중국어 어기조사는 문장 종결부에 위치하며 문장의 의미양상이나 화자의 태도를 조정하는 문법 범주로 정의된다 (朱德熙 1999; 吕叔湘 1985). 이들은 의문 의미 실현(吗), 상황 지속·대조 및 화제 유지(呢), 추정·완화된 명령(吧), 감탄·정동 표현(啊)등 다양한 담화 기능을 수행하며, 문장 구조 자체보다는 담화 기능을 중심으로 분석된다. 특히 어기조사는 단일 의미 기능을 수행하는 데 그치지 않고, 화자의 심리적 거리 조절, 발화 책임의 분산, 친밀감 형성 등 발화 전략과 연동되어 대화의 상호작용적 특성을 구현하는 역할을 한다. 따라서 어기조사는 단순 문법 요소가 아니라 담화 맥락 속에서 화자의 의도와 사회적 관계를 조정하는 상호작용적 장치로 이해될 필요가 있다.
대표 어기조사 유형
| 어기조사 | 주요기능 | 예시 의미 범주 | 대표 사용 맥락 |
|---|---|---|---|
| 吗 | 의문·확인 요청 | 판단/일반 의문문 | 답해야 하는 질문 |
| 吧 | 추정·제안 완화 | 완곡 표현, 요청 | 부담 없는 권유 |
| 呢 | 진행·대조·화제 유지 | 정보 지속성 | 새로운 정보 제시 전 |
| 啊 | 감탄·강조 | 정동 표현 | 친밀도 표현·감탄 |
연구 자료 및 방법
본 장에서는 연구에서 활용한 자료의 구성과 수집 절차, 텍스트 전처리 과정, 텍스트 마이닝 분석 방법, 그리고 네트워크 데이터 구축 및 Neo4j 분석 절차를 체계적으로 설명한다. 본 연구의 목적은 중국어 어기조사 연구의 흐름과 구조를 체계적으로 파악하는 데 있으므로, 자료 처리와 분석 방법의 정교성이 연구 결과의 신뢰도를 결정하는 핵심 요소가 된다.
분석자료: CNKI 어기조사 논문 콘퍼스
| 항목 | 내용 |
|---|---|
| 검색 플랫폼 | CNKI(中国知网) |
| 검색어 | '语气助词', '句末助词', '语气词' |
| 검색 기간 | 2015년-2025년 |
| 자료 유형 | 학술지 논문, 학위 논문 |
| 제외 기준 | 중복 논문, 초록만 존재하는 자료 |
본 연구는 중국 최대 학술 데이터베이스인 CNKI(中国知网)에 등재된 중국어 어기조사 관련 학술 논문 분석 대상으로 삼았다. 분석 범위는 2015년부터 2025년까지 발표된 문헌으로 설정하였으며, 이 시기 동안의 연구 동향을 포괄적으로 파악하기 위해 다음 절차에 따라 자료를 수집하였다.
우선 CNKI의 통합 검색 시스템에서'气助词', '句末助词', '语气词'을 핵심 검색어로 설정하여 관련 문헌을 추출하였다.
검색 결과에는 학술지 논문, 학위 논문, 회의 논문 등이 포함되었으나, 본 연구에서는 학술적 완성도와 분석 가능성을 고려하여 논문과 학위 논문만을 최종 자료 유형으로 선정하였다.
다음 단계에서는 초록만 존재하는 문헌, 데이터가 불완전한 문헌을 제외하였다. 이렇게 선별된 문헌만을 최종 분석 자료에 포함하였다.
이와 같은 선별 과정을 통해 구축된 CNKI 어기조사 코퍼스는 연구의 계량 분석과 네트워크 분석에 활용되었다. 이후 단계에서 수행된 키워드 추출, 공출현 분석, 토픽 모델링의 기반 데이터로 분석하였다.
텍스트 전처리
자료 수집 후 키워드는 Python 기반 정규화 과정을 거쳐 다음의 원칙에 따라 처리하였다.
| 처리 유형 | 예시 | 조치 |
|---|---|---|
| 동의어 통합 | 语气助词=句末助词 | 대표어로 통일 |
| 표기 변이 통합 | 語氣助詞=语气助词 | 간체자 기준 |
| 불용어 제거 | 研究, 分析, 问题 | 삭제 |
| 중복/단편화 수정 | 句末, 句末结构 | 동일 표현 그룹화 |
(1) 텍스트 및 키워드 추출
CNKI에서 수집한 논문의 제목, 키워드, 초록 텍스트를 대상으로 기본적인 정규화 작업을 수행하였다. 먼저 간체자와 번체자 표기를 간체자로 통일하고, 동일한 의미를 가지는 표현은 하나의 대표 형태로 묶어 키워드를 정리하였다. 예를 들어 '语气助词'와 '句末助词'는 동일 범주로 간주하여 하나의 키워드로 통합하였다. 또한 공백, 특수문자, 불필요한 줄 바꿈 등 분석에 영향을 주지 않는 형식 정보를 제거하여 분석에 적합한 형태의 텍스트를 구축하였다.
(2) 토큰화와 불용어 처리
정규화 된 텍스트를 어휘 단위로 토큰화하여 문장을 분석 단위로 분절하였다. 이후 의미 분석에 기여하지 않는 기능어, 일반적 연구 메타 표현('研究', '分析', '问题')등은 불용어로 간주, 의미어, 한 글자, 중국어 일반 학술용어는 제거하였다(语气词 제외). 이를 통해 핵심 개념이 아닌 단어가 빈도 분석과 공출현 분석에 영향을 미치는 것을 방지하였다.
(3) 초록 결측률 확인
후속 분석에서 핵심 자료로 활용되는 초록의 품질을 확인하기 위해, 수집된 전체 논문 287편을 대상으로 초록의 존재 여부와 결측률을 점검하였다. 그 결과, 초록이 누락된 논문은 확인되지 않았으며, 초록 결측률은 0.00%로 나타났다. 이는 모든 문헌이 텍스트 마이닝 및 LDA 토픽 모델링 분석에 필요한 최소한의 텍스트 정보를 충족하고 있음을 의미한다. 따라서 본 연구에서는 전처리 단계에서 문헌을 제외하지 않고, 전체 287편의 논문을 분석 대상으로 활용하였다.
텍스트 마이닝 분석 절차
본 연구는 수집된 텍스트 자료를 기반으로 중국어 어기조사 연구의 개념적 구조와 주제 경향을 파악하기 위해 여러 텍스트 마이닝 기법을 단계적으로 적용하였다. 분석 절차는 단어 빈도 분석, TF–IDF 가중치 산출, N-gram 분석, 공출현 네트워크 구축, LDA 토픽 모델링의 다섯 단계로 구성된다.
(1) 단어 빈도 분석 및 워드 클라우드 시각화
단어 빈도 분석을 통해 텍스트에서 가장 자주 등장하는 핵심 개념을 식별하였다. 단어 빈도는 특정 기간 또는 연구 주제에서 반복적으로 논의되는 개념을 파악하는 기초 지표로 기능하며, 상위 빈도 단어는 후속 의미 네트워크 분석의 중심 노드로 활용된다. 또한 빈도 기반 워드 클라우드 시각화를 통해 연구 경향을 직관적으로 파악할 수 있는 기반을 마련하였다.
(2) TF-IDF 분석
단순 빈도만으로는 특정 문헌이나 연구 주제에서의 상대적 중요성을 충분히 반영하기 어렵기 때문에, TF–IDF 분석을 수행하였다. TF–IDF는 한 문서에서 단어가 가진 중요도와 전체 문서 집합에서의 희소성을 동시에 고려하여 계산되므로, 연구 텍스트에서 특징적인 핵심 단어를 추출하는 데 적합한 방법론이다.
(3) N-gram 분석
텍스트의 연속적 의미 단위를 확인하기 위해 N-gram 분석을 적용하였다. 특히 2-gram 분석을 통해 단일 단어로는 파악하기 어려운 연어 구조나 조합 패턴을 탐지하였다. 이를 통해 어기조사 연구에서 특정 개념이 어떤 단어와 함께 빈번하게 출현하는지, 의미적 관계는 어떻게 구성되는지 확인할 수 있는 기반을 구축하였다.
(4) 공출현 네트워크 구축
텍스트 내 키워드 간 의미적 연결성을 파악하기 위해 공출현 네트워크를 구축하였다. 공출현 분석은 동일 문서 혹은 동일 문맥에서 두 단어가 함께 등장하는 빈도를 기반으로 하며, 얻어진 공출현 행렬을 네트워크 데이터로 변환하여 후속 Neo4j 분석에 활용하였다. 공출현 관계는 각 키워드의 의미적 연관성 강도를 반영하는 지표로 사용되었다.
(5) LDA 토픽 모델링
연구 주제의 잠재적 구조를 파악하기 위해 LDA 토픽 모델링을 실시하였다. LDA는 문서 집합에 내재된 잠재 주제를 확률적으로 추정하는 비지도 학습 기법으로, 각 단어가 특정 주제에 기여하는 정도와 문서가 여러 주제에 혼합적으로 속할 수 있다는 특성을 반영한다. 이를 통해 중국어 어기조사와 연구가 어떤 주제 군집을 중심으로 구성되는지를 파악할 수 있는 분석적 틀을 제공하였다.
이와 같은 텍스트 마이닝 절차는 연구 키워드의 의미적 구조, 연구 주제의 잠재 분포, 개념 간 연결성을 다층적으로 탐색하기 위한 기반 분석으로 기능하였다.
Neo4j 기반 그래프 시각화 및 네트워크 분석
텍스트 마이닝 단계에서 도출한 키워드 공출현 정보를 바탕으로 그래프 데이터베이스인 Neo4j를 활용하여 의미 네트워크를 구축하였다. 이를 통해 중국어 어기조사 연구에서 주요 개념들이 어떠한 구조적 관계망을 이루는지 시각적으로 모형화하고, 네트워크 분석 지표를 통해 핵심 개념과 매개 개념을 파악할 수 있는 기반을 마련하였다.
(1) 노드 밑 관계 스키마 설계
텍스트 분석을 통해 얻은 키워드 목록과 공출현을 Neo4j에서 활용 가능한 네트워크 데이터 형식으로 변환하였다. 그래프 모델링 과정에서 각 키워드를 하나의 노드로 정의하고, 두 키워드가 동일 문헌 또는 동일 문맥에서 함께 출현한 관계를 관계로 설정하였다. 노드에는 키워드 문자열뿐 아니라, 단어 빈도, TF–IDF 값 등 후속 분석에 활용할 수 있는 속성들을 부여하였다. 관계 유형은 CO_OCCUR로 통일하였으며, 관계의 가중치는 두 키워드가 함께 등장한 횟수 또는 공출현 점수로 설정하였다. 이때, 의미적 연관성이 약한 관계를 제거하기 위해 일정 빈도 미만의 공출현 쌍은 네트워크에 포함하지 않았다.
Neo4j로의 데이터 적재는 CSV 형식의 노드·관계 파일을 생성한 뒤, Cypher 쿼리를 통해 LOAD CSV 구문을 사용하여 수행하였다. 이를 통해 키워드 간 공출현 정보가 Keyword–[CO_OCCUR]–Keyword 구조의 그래프 데이터로 변환되었다.
(2) 그래프 시각화 중심성 지표 분석
그래프 구조가 구축된 후, Neo4j를 활용하여 네트워크를 시각화 하였다. 시각화 과정에서는 강제지향 레이아웃과 같은 네트워크 레이아웃 알고리즘을 적용하여, 서로 연관성이 높은 키워드들이 인접한 위치에 배치되도록 하였다. 이를 통해 어기조사 연구에서 형성되는 개념 군집과 중심 영역을 직관적으로 파악할 수 있는 그래프를 생성하였다. 또한, 의미 네트워크에서 핵심 개념과 매개 개념을 식별하기 위해 중심성 지표를 산출하였다. 구체적으로는 각 노드의 연결 정도를 나타내는 연결 중심성, 네트워크 내에서 다른 노드들 사이의 경로를 얼마나 많이 매개하는지를 나타내는 매개 중심성 등을 계산하였다. 연결 중심성은 어기조사 연구에서 자주 함께 언급되는 핵심 용어를 파악하는 데 활용되었고, 매개 중심성은 서로 다른 연구 주제나 영역을 연결해 주는 중간 개념을 찾는 데 활용되었다. 이와 같은 Neo4j 기반 그래프 시각화 및 중심성 분석 절차는 텍스트 마이닝으로 얻은 정량적 정보를 구조화된 네트워크 형태로 재구성함으로써, 중국어 어기조사 연구의 의미적 연결 구조를 다층적으로 이해하기 위한 방법론적 틀을 제공한다.
연구 결과
키워드 빈도 및 공출현 네트워크(RQ3)
워드 클라우드 시각화 분석 결과, 어기조사 연구는 문법·의미·기능 중심의 전통적 연구를 기반으로 하면서도, 화용·대조·학습자 오류 연구로 점차 확장되는 경향을 보였다.
TF–IDF 분석 결과, 전체 논문에서 빈번하게 등장하는 일반적 개념과 달리, 특정 문헌에서 상대적으로 높은 중요도를 갖는 핵심 키워드가 확인되었다. 이는 단순 빈도 분석만으로는 포착하기 어려운 문헌별 특징적 연구 초점을 드러내는 결과로, 어기조사 연구가 동일한 주제를 반복적으로 다루는 동시에 각 연구마다 강조점이 상이함을 보여준다. 특히 일부 키워드는 제한된 문서에서만 높은 TF–IDF 값을 나타내어, 특정 연구 주제나 이론적 관점에 집중된 분석이 이루어지고 있음을 시사한다. 이러한 결과는 이후 공출현 네트워크 분석과 토픽 모델링에서 핵심 키워드를 선별하는 근거로 활용되었다.
Neo4j 기반 공출현 네트워크 분석 결과, 중국어 어기조사 연구는 여러 핵심 개념들이 서로 긴밀한 의미적 관계를 형성하며, 특정 개념이 중심성 높은 허브 역할을 수행하는 구조를 보였다. 공출현 네트워크의 중심부에는 '语法', '功能', '语义', '句末', '语用'과 같은 핵심 노드가 위치하며, 이들은 다른 개념들과 가장 높은 연결 강도를 보였다.
예를 들어, '功能'은 '标记', '差异', '信息' 등 화용·담화적 요소들과 다수의 공출현 관계를 형성하여, 어기조사 연구가 단순한 문법적 기능 기술을 넘어 담화 기능·표지 기능·정보 구조 분석으로 확장되고 있음을 보여준다.
또한 '语义' 노드는 '构式', '语境', '语料' 등과 함께 나타나, 의미 해석이 구문 구조·문맥 조건과 함께 통합적으로 논의되는 경향을 보여준다.
이러한 네트워크 구조는 중국어 어기조사 연구가 개별 조사 하나를 독립적으로 분석하는 방식에서 벗어나, '문법–의미–화용–담화–코퍼스'가 상호 연동된 다층적 연구 체계로 발전하고 있음을 시사한다.
위 그래프는 분석 코퍼스에서 가장 높은 빈도를 보인 핵심 키워드 20개를 제시한 것이다. 상위 키워드는 다음과 같은 범주적 특성을 보인다. 키워드 빈도 상위 20개는 크게 문법·구문(语法, 句法, 结构), 의미·기능(语义, 功能), 화용·담화(语用, 标记, 信息), 방언·번역·역사(方言, 翻译, 虚词, 演变) 네 범주로 나타났다. 이 가운데 '语法', '功能', '语义' 등은 가장 높은 빈도를 보이며 전통 문법과 의미·화용 기능 분석이 어기조사 연구의 핵심 축임을 보여준다. 또한 '方言', '翻译' 키워드의 빈도 상승은 최근 연구가 방언 비교 연구와 번역 기반 연구로 확장되고 있음을 시사한다.
공출현 네트워크에서도 이러한 경향이 반복적으로 확인되며, 예를 들어 '功能'은 '标记', '差异', '信息'과 강하게 연결되어 담화 기능·표지 기능 분석이 활발함을 보여준다.
이는 어기조사 연구가 단일 문법 요소 분석이 아니라 언어 체계와 담화 구조를 연결하는 다핵적 구조로 발전하고 있음을 의미한다.
즉 어기조사 연구는 단순히 '문법소'의 특징을 기술하는 단일 범주 연구에서 벗어나, 언어 내부 구조와 언어 사용의 실제 양상을 다층적으로 통합하는 연구 영역으로 확장되었다.
LAD 토픽 구조 및 토픽-문서 네트워크(RQ4)
LDA 토픽 모델링 결과, 현대 중국어 어기조사 연구는 다섯 개의 주요 토픽으로 분류되었다. 각 토픽은 함께 등장하는 키워드의 군집을 기준으로 도출되었으며, 논문 한 편이 두 개 이상의 토픽에 동시에 속하는 경우도 있다.
먼저 토픽별 핵심 키워드와 연구 내용의 특징은 다음과 같다.
| 토픽 | 핵심 키워드 및 연구 내용 |
|---|---|
| Topic 1 (67편) | 의문문 및 통사 구조 중심 연구 (키워드: 句末, 疑问, 句法) |
| Topic 2 (65편) | 화용 기능 및 학습자 오류/대조 연구 (키워드: 偏误, 对比, 呢, 吧) |
| Topic 3 (53편) | 중국어 교육 및 교재 편찬 (키워드: 编写, 学生, 教学) |
| Topic 4 (110편) | 문법화 및 역사적 변천/구문론 (키워드: 构式, 演变, 虚词) |
| Topic 5 (113편) | 방언 및 번역 연구 (키워드: 方言, 翻译, 副词) |
논문 한 편이 두 개 이상의 토픽에 배정될 수 있기 때문에, 토픽별 논문 수의 합계는 전체 논문 수(287편)를 초과한다. 그 가운데 Topic 4와 Topic 5가 가장 큰 비중을 차지하여, 문법화·역사 연구와 방언·번역 연구가 현대 어기조사 연구의 중요한 두 축을 형성하고 있음을 보여 준다. 반면 Topic 2와 Topic 3은 화용, 학습자 오류, 교육·교재 연구를 연결하는 중간층으로 기능하면서, 전통 문법 연구와 교육 현장을 매개하는 역할을 담당한다.
위 그림은 각 토픽과 개별 논문 간의 연결 구조를 시각화 한 것이다. 중심부에 위치한 Topic 4와 Topic 5는 여러 시기와 다양한 어기조사 연구와 폭넓게 연결되어 있고, 주변부의 Topic 2와 Topic 3은 특정 시기 이후에 집중적으로 분포하는 경향을 보인다. 이러한 토픽 분포와 연결 구조는 어기조사 연구가 단일 범주나 개별 조사에 한정되지 않고, 의미, 역사, 교육, 방언 연구가 공존하는 다핵적 구조로 확장되고 있음을 잘 보여 준다.
대표 어기조사별 연구 비중(RQ2)
분석 결과, '吗'가 가장 높은 연구 비중 빈도를 보였으며(전체 287편 중 82편), 이어 '吧'(67편), '呢'(53편), '啊'(46편), ‘방언·역사·교육·구문·번역’ 등 어기조사 간접 연구(39편)순으로 나타났다. 이는 의문 기능과 화용 기능에 대한 연구 관심이 상대적으로 높음을 의미한다.
연도별 연구 추세(RQ1)
연구 수는 2015년 이후 전반적으로 증가하는 경향을 보이며, 특히 2020-2024년 사이 연구량이 뚜렷하게 확대되었다. 아래 <사진 7>은 2015-2025년까지의 연도별 논문 수 변화를 시각화한 것이다.
위 그래프에 따르면 2015-2019년까지는 소규모 증가세를 유지하였으나, 2020년 이후 연구량이 급격히 상승하여 2021년(41편), 2022년(43편)에 정점을 보였다. 이는 다음과 같은 연구 환경 변화와 직접 연관된다.
1) 코퍼스 기반 언어 연구 확산: 대규모 언어 데이터 구축이 이루어지며 어기조사 연구도 정량적 분석이 가능했다.
2) 자연어 처리 기술 발전: 텍스트 마이닝, 키워드 네트워크 분석, 토픽 모델링을 활용하는 연구가 증가하였다.
3) 담화·화용 중심 연구의 확대: 문법 요소를 단순 기술하는 방식에서 벗어나 사용 기반 접근이 강화됐다.
2024년에는 연구량이 다시 크게 증가하였으나, 2025년은 자료 수집 시점의 미완료 데이터 가능성이 높아 단정적인 감소로 보기 어렵다.
전반적으로 중국어 어기조사 연구는 2020년을 기점으로 양적·방법론적 전환을 맞이한 연구 분야임을 확인할 수 있다.
위 그래프는 2020-2025년 사이에 등장한 주요 LDA 토픽(Topic 1-5)의 연도별 분포를 보여주는 것이다. 토픽별 문서 수 변화를 통해 단순한 연구량 증가뿐 아니라 연구 주제의 구조적 이동도 함께 확인할 수 있다.
1) Topic 4(문법화·역사)와 Topic 5(방언·번역 연구)는 지속적으로 높은 비중을 유지했다.
- - 2020-2025년 전 기간에 걸쳐 가장 안정적으로 높은 연구량을 차지한다.
- - 어기조사의 기원·변천, 방언 변이, 번역 이론 등 ‘언어체계적 연구’가 강한 축을 형성하고 있음을 의미한다.
- - 현대 어기조사 연구의 중심축은 여전히 문법화·역사·방언 연구한다.
2) Topic 2(화용·대조·학습자 오류)는 시기별로 유동적 증가했다.
- - 2023년-2024년에 증가세이다.
- - 이는 외국인 학습자 코퍼스 확장 및 오류 분석 연구 증가와 관련, 언어교육 관점의 어기조사 연구도 꾸준히 확장 중이다.
3) Topic 3(중국어 교육·교재·학습자 연구)는 점진적 증가 후 2024년에 확장했다.
- - Topic 3는 교수, 학습, 교재 편찬, 학습자 중심의 연구를 포함하는 교육 기반 연구 토픽이다.
- - 2020-2022년 간에는 비교적 안정된 소규모 비중을 유지했다.
- - 2023-2024년 사이 교육·학습자 오류 분석 연구가 증가하며 분명한 상승세를 보였다.
4) Topic 1(의문·구문 구조 중심 연구)은 완만한 증가 후 안정화
- - 의문문·문말 구조·통사 기능을 다루는 전통적 문법 연구는 꾸준히 유지
- - 어기조사 연구의 기반을 이루는 핵심 토픽
2024년의 거의 모든 Topic이 일시적으로 증가하는 현상은 전체 연구량이 증가한 해와 일치하다. 이는, 연구자 유입 증가와 데이터 기반 연구 기법의 보편화 영향으로 볼 수 있다.
두 그래프는 다음 사실을 함께 지지한다.
1) 2020년 이후 어기조사 연구는 양적으로 크게 증가하였다.
2) 연구 주제는 단일 문법 분석에서 벗어나 다핵적 구조(문법-화용-교육-방언-역사)로 확장되었다.
3) 특히 문법화·역사 연구와 방언·번역 연구가 가장 안정적이고 비중이 크다.
4) 2024년은 연구량과 연구 주제가 동시에 확대된 전환점이다.
논의
본 연구의 의의는 중국어 어기조사 연구 영역 간의 연결 구조를 계량 분석을 통해 구체적으로 제시했다는 데 있다. 분석 결과, 현대 중국어 어기조사 연구는 개별 문법 항목 기술에서 출발하여 화용 기능 분석으로 확장되었고, 최근에는 코퍼스와 네트워크 분석을 활용한 구조화 연구로 발전하는 경향을 보인다. 또한 키워드 공출현 네트워크는 문법, 화용, 교육, 방언, 역사 연구가 서로 분리된 축이 아니라 상호 연결된 다층 구조를 형성하고 있음을 보여 주며, 향후 연구 방법론에서도 데이터 기반 접근과 복수 영역을 통합하는 시도가 중요해질 가능성을 시사한다.
어기조사 사용은 중국어 학습자의 발화가 얼마나 자연스럽게 들리는지를 결정짓는 핵심 요소이므로, 이러한 결과는 교재 개발과 AI 기반 발화 교정 시스템에도 응용될 수 있다.
예를 들어 자연어 처리 기반 문장 생성 모델에서 어기조사의 누락이나 과잉 사용을 자동 검출하여 학습자에게 피드백을 제공하는 시스템을 설계한다면, 실제 사용 맥락을 반영한 어기조사 교육에 기여할 수 있을 것이다.
결론
본 연구는 2015-2025년 사이 CNKI에 수록된 중국어 어기조사 관련 논문을 대상으로 텍스트 마이닝과 Neo4j 기반 네트워크 분석 등 계량적 방법을 적용하여 연구 경향을 체계적으로 정리하였다. 이를 통해 주요 연구 대상과 연구 방법, 핵심 키워드의 공출현 구조, 시기별 연구 흐름을 총제적으로 파악할 수 있었다. 향후 연구는 실제 구어 코퍼스와 교육 현장 자료, 대조언어학적 관점을 결합한 통합 모델 개발 방향으로 확장될 필요가 있다. 요컨대 본 연구는 어기조사 연구를 개별 조사 중심의 기술적 분석에서 한 걸음 나아가, 계량 기반 네트워크 분석을 통해 상호 연결된 연구 지형을 제시했다는 점에서 학문적 의의를 지닌다.
기존 연구는 특정 어기조사에 대한 개별적으로 분석하는 데 집중 되어있어, 조사들 간의 관계나 의미 네트워크 구조를 종합적으로 비교하는 연구가 부족하였다.
본 연구 또한 CNKI 자료에 한정된 분석이라는 제약이 있어, 타 데이터베이스의 연구 흐름을 충분히 반영하지 못했다는 것이 기존 연구 및 본 연구의 한계이다.
향후 연구 방향은 다음과 같이 제시될 수 있다.
첫째, 기존 문헌 중심의 분석을 넘어 대규모 구어 자료를 기반으로 한 실제 사용 패턴 연구가 필요하다. 지금까지의 연구가 주로 문어 자료에 의존해 왔다면, 앞으로는 상황별 화용 기능, 담화 맥락, 음운·억양 요소를 포함하는 담화 중심 연구 설계가 요구된다.
둘째, 학습자 코퍼스 기반 대조 연구는 외국어로서 중국어 교육에 중요한 기여를 할 수 있으며, 어기조사의 습득 난이도와 오류 유형을 분석하여 교육문법과 교수 전략 개선에 활용될 수 있다.
셋째, 방언 연구와 역사 언어학적 비교 연구는 특정 어기조사의 의미 변화 과정과 지역별 변이를 설명하는 데 핵심적 연구 축을 형성할 것이다.
넷째, 텍스트 마이닝·의미 네트워크 분석·AI 기반 자동 태깅 기술을 결합한 통합적 분석 방법론이 요구되며, 이는 개별 조사 중심의 연구를 넘어 언어 체계 내부의 상호 연계성을 밝히는 데 기여할 것이다.
마지막으로, 어기조사 연구 결과를 실제 교육·평가·AI 언어 처리 모델에 적용하는 응용 연구 역시 중요한 과제로 남아 있으며, 자연어 생성 모델, 자동 채점 시스템, 음성-문자 변환 등에서 어기조사의 의미 기능을 반영하는 것은 높은 실질적 활용 가치를 지닌다.
참고 문헌
- 吕叔湘. 1985. 『中国文法要略』. 北京: 商务印书馆.
- 朱德熙. 1999. 『语法讲义』. 北京: 商务印书馆.
- 彭小龙. 2018. 汉语学习者句末语气词偏误研究:语料库视角. 语言文字应用, 2: 33-44.
- 张未然. 2018. 现代汉语句末助词“吗、吧、呢”的语义功能对比研究. 北京: 北京语言大学硕士论文.
- 胡明. 2019. 汉语语气词“吧”的语用功能及其使用限制. 汉语学习, 3: 27-38.
- 王翔. 2020. 基于语料库的语气词“吧”使用偏误分析. 对外汉语教学研究, 4: 87-99.
- 赵璐. 2021. 句末语气词“呢”的篇章功能研究. 语言教学与研究, 5: 94-102.
- 褚晓玲. 2021. 基于网络分析的汉语语汇关系研究. 语言研究集刊, 12(4):77-89.
- 李丹丹. 2022. 学习者语料库中句末助词使用的语体差异研究. 世界汉语教学, 36(3): 114–129.







