행위

"RTCL(2025) Final Paper 05"의 두 판 사이의 차이

CNUDH

28번째 줄: 28번째 줄:
 
<br/>
 
<br/>
 
결론적으로 본 연구는 데이터 기반의 네트워크 분석을 통해 한국 내 중국 연구의 지적 궤적을 체계화하고, 연구 의제의 변천 과정을 객관적으로 조망하고자 한다. 이러한 작업은 과거의 담론 지형을 정리하는 데 그치지 않고, 변화하는 국제 정세 속에서 향후 한국의 중국 연구가 지향해야 할 학술적 좌표를 설정하는 데 기여할 것이다.<br/>
 
결론적으로 본 연구는 데이터 기반의 네트워크 분석을 통해 한국 내 중국 연구의 지적 궤적을 체계화하고, 연구 의제의 변천 과정을 객관적으로 조망하고자 한다. 이러한 작업은 과거의 담론 지형을 정리하는 데 그치지 않고, 변화하는 국제 정세 속에서 향후 한국의 중국 연구가 지향해야 할 학술적 좌표를 설정하는 데 기여할 것이다.<br/>
 +
<br/>
 +
(2) 연구 목적
 +
<br/>
 +
본 연구는 KCI 등재(후보) 학술지에 게재된 논문 가운데 ‘개혁개방’과 ‘중국’을 핵심 키워드로 포함하는 연구들을 수집하여 하나의 텍스트 자료를 구축하고, 텍스트 마이닝과 네트워크 분석을 통해 한국 학계의 중국 개혁개방 담론 구조를 체계적으로 살펴보고자 한다. 구체적인 목적은 다음과 같다.<br/>
 +
<br/>
 +
첫째, 개혁개방(改革開放) 이후 약 40여 년 동안 한국 학계에서 전개된 관련 연구를 대상으로, 제목과 초록에 나타난 주요 키워드의 시기별 출현 양상을 분석함으로써 경제, 정치, 사회, 대외 관계 등 어떤 주제들이 어떠한 흐름 속에서 부상·쇠퇴해 왔는지를 파악한다.<br/>
 +
<br/>
 +
둘째, LDA 기반 토픽 모델링을 통해 시기별 핵심 주제를 도출하고 각 토픽의 비중 변화를 비교함으로써, 한국 학계의 개혁·개방 연구 관심사가 경제 성장 중심 논의에서 정치·사회 통제, 이념, 국제 관계 및 안보 문제 등 보다 복합적인 영역으로 어떻게 확장·분화되어 왔는지를 규명한다.<br/>
 +
<br/>
 +
셋째, Neo4j를 활용한 키워드 공기(共起) 네트워크 분석을 통해 ‘개혁·개방’과 ‘중국’을 중심으로 한 주요 개념들의 연결 구조와 중심성 변화를 살펴보고, 이를 통해 중국의 국가 전략 변화(내부 통치 강화, 대외적 강국 전략 등)가 한국 학계 담론에서 어떠한 방식으로 재구성되고 있는지를 분석한다.<br/>
 +
<br/>
 +
이와 같은 분석을 통해 본 연구는 한국 학계의 중국 개혁·개방 담론이 단일한 경제 성장 서사를 넘어, 정치·사회·대외 전략이 교차하는 다층적 담론 네트워크로 전개되어 왔는지를 구조적으로 밝히는 것을 궁극적인 목표로 한다.<br/>
 +
 +
Ⅱ. 이론적 배경 및 선행연구
 +
 +
1. 개혁개방이란<br/>
 +
<br/>
 +
개혁개방은 1978년 12월, 중국공산당 덩샤오핑(鄧小平) 지도 체제 하에서 시작된 중국의 근대화 정책이다. 이는 기존의 사회주의 계획경제 체제를 수정하고, 시장 경제 요소를 도입하며, 대외적으로 문호를 개방하여 경제 발전을 추구한 일련의 과정이다.<br/>
 +
<br/>
 +
2. 개혁개방 관련 선행연구 <br/>
 +
 +
<br/>중국의 개혁개방에 관한 기존의 학술적 논의는 주로 지난 40년간의 역사적 변천 과정을 복기하고, 그에 따른 경제적 성과를 다각도로 평가하는 데 주력해 왔다. 관련 선행연구들의 흐름을 분석해 볼 때, 주요 연구 경향은 다음과 같이 세 가지 차원으로 요약된다.<br/>
 +
<br/>
 +
첫째, 거시경제적 성과 분석과 패러다임의 전환에 관한 연구이다. 기존 연구들은 개혁개방 이후 중국이 이룩한 양적 성장을 고찰하고, 소위 ‘중국경제 3.0’으로 대변되는 질적 전환기에 따른 정책적 긍·부정적 효과를 규명하는 데 집중해 왔다.<br/>
 +
<br/>
 +
둘째, 주민 소득 구조 및 후생 수준의 변화에 관한 고찰이다. 개혁개방 40년이라는 장기적 시계열을 바탕으로 주민들의 실질 소득 변화와 분배 구조를 분석함으로써, 경제 성장이 가계 경제 및 삶의 질에 미친 실증적 영향을 도출하는 연구가 비중 있게 다루어졌다.<br/>
 +
<br/>
 +
셋째, 성과 회고를 통한 미래 과제의 도출이다. 주로 개혁개방 40주년을 기점으로 지난 성과를 총체적으로 정리하고, 향후 지속 가능한 발전을 가로막는 구조적 한계와 정책적 대안을 제시하는 회고적 성격의 연구가 주를 이루고 있다.<br/>
 +
<br/>
 +
결론적으로 기존의 연구 동향은 개혁개방 40년의 역사적 평가와 경제적 지표 변화를 규명하는 거시적 담론에 편중되어 있는 양상을 보인다.<br/>
 +
 +
III. 연구 데이터 및 분석 방법
 +
<br/>
 +
본 연구는 한국 학계의 중국 개혁·개방 관련 연구 담론의 구조를 분석하기 위해 한국연구재단(NRF)의 학술지 인용색인 서비스인 KCI(Korea Citation Index)를 활용하여 분석 대상 문헌을 수집하였다. 구체적인 자료 선정 및 수집 기준은 다음과 같다.<br/>
 +
<br/>
 +
먼저 검색어는 중국의 개혁·개방 정책과 관련된 학술적 논의를 포괄할 수 있도록 “개혁개방” AND “중국”을 조합하여 설정하였으며, 학계의 최신 연구 동향을 반영하기 위해 2010년 1월부터 2025년 12월까지 발행된 논문을 대상으로 하였다. 검색 범위는 연구의 주제가 명확히 드러나는 제목, 초록, 저자 키워드를 포함하였으며, 학술적 신뢰성을 확보하기 위해 KCI 등재(후보) 학술지로 한정하였다.<br/>
 +
<br/>
 +
이와 같은 조건으로 1차 검색을 실시한 결과 총 707편의 논문이 수집되었으며, 이 중 학술논문이 아닌 서평, 학술대회 자료집, 중복 게재물 등을 제외하는 정제 과정을 거쳐 최종 707편의 논문을 본 연구의 분석 대상으로 확정하였다.<br/>
 +
<br/>
 +
1. 데이터 구조 및 정제 과정
 +
<br/>
 +
본 연구는 수집된 KCI 서지 자료의 신뢰성을 높이고 텍스트 마이닝 분석의 정확도를 확보하기 위해 다음과 같은 데이터 구조 최적화 및 정제 과정을 수행하였다.<br/>
 +
<br/>
 +
1.1 서지 데이터 구조 및 분석 대상<br/>
 +
<br/>
 +
KCI에서 반출된 원본 데이터는 논문명, 저자명, 소속기관, 학술지명, 발행연도, 초록, 저자 키워드 등을 포함한 총 14개의 컬럼으로 구성되었다. 이 중 본 연구의 핵심 분석(기술 통계, 토픽 모델링, 네트워크 분석)을 위해 실제로 사용된 주요 컬럼은 다음과 같다.<br/>
 +
<br/>
 +
-텍스트 분석용: 논문명(title), 초록(abstract), 저자 키워드(keywords)<br/>
 +
<br/>
 +
-메타데이터 분석용: 저자명(authors), 학술지명(journal), 발행연도(year), DOI, URL<br/>
 +
<br/>
 +
1.2.. 결측치 처리 및 컬럼 표준화<br/>
 +
<br/>
 +
데이터의 일관성을 유지하고 프로그래밍 분석의 효율성을 높이기 위해 다음과 같은 표준화 작업을 진행하였다.<br/>
 +
<br/>
 +
(1)결측치 처리: 분석의 핵심인 초록(abstract) 데이터의 경우, 전체 707건 중 16건에서 결측이 확인되어 약 2.26%의 결측률을 보였다. 이는 토픽 모델링 수행 기준(결측률 50% 이하)을 충분히 충족하는 수치로, 결측치는 빈 문자열("")로 치환하여 분석에서 제외되지 않도록 처리하였다.<br/>
 +
<br/>
 +
(2)컬럼명 표준화: 다양한 환경에서 코드의 재사용성을 높이기 위해 한글 컬럼명을 영문 표준 명칭으로 통일하였다. (예: 논문명 → title, 발행연도 → year, 초록 → abstract 등)<br/>
 +
<br/>
 +
(3)데이터 타입 변환: 문자열로 인식된 발행연도(year) 데이터를 정수형(Int64)으로 변환하여 시계열 분석 시 연산 오류를 방지하고 정확한 연도별 집계가 가능하도록 하였다.<br/>
 +
 +
 +
2. 텍스트 전처리 방법
 +
<br/>
 +
본 연구는 정제된 서지 데이터를 바탕으로 텍스트 마이닝의 정확도를 높이기 위해 다음과 같은 형태소 분석 및 키워드 정제 과정을 수행하였다.<br/>
 +
<br/>
 +
2.1. 형태소 분석 및 토큰화<br/>
 +
<br/>
 +
결합된 분석 텍스트(제목+초록)에서 의미 있는 단어 단위를 추출하기 위해 한국어 형태소 분석기인 KoNLPy의 Komoran을 활용하였다. 분석의 효율성과 담론 파악의 정확성을 기하기 위해 다음과 같은 기준을 적용하여 토큰화를 진행하였다.<br/>
 +
<br/>
 +
(1)추출 품사 제한: 연구 주제의 핵심 개념을 반영하는 일반명사(NNG), 고유명사(NNP)를 중심으로 추출하였으며, 외래어 및 영문 용어 처리를 위한 외래어(SL), 그리고 수치적 정보 파악을 위한 수사(SN) 품사를 포함하였다.<br/>
 +
<br/>
 +
(2)단어 길이 필터링: 의미적 변별력이 낮은 한 글자 단어를 제외하고, 두 글자 이상의 단어만을 유효한 토큰으로 선정하였다.<br/>
 +
<br/>
 +
(3)텍스트 정규화: 토큰화 전 단계에서 영문은 소문자로 통일하였으며, UTF-8 인코딩 및 디코딩 과정을 통해 분석 중 발생할 수 있는 문자 깨짐 오류를 방지하였다.<br/>
 +
<br/>
 +
2.2. 불용어 사전 구성 및 키워드 정리<br/>
 +
<br/>
 +
분석 결과의 노이즈를 제거하고 실제 중국 개혁개방 담론에 집중하기 위해 불용어(Stopwords) 처리 및 키워드 정제 작업을 수행하였다.<br/>
 +
<br/>
 +
(1)불용어 사전 구축: 학술 논문 데이터의 특성상 빈번하게 등장하지만 실제 연구 주제와는 거리가 먼 일반적인 용어들을 불용어로 정의하여 제거하였다.<br/>
 +
<br/>
 +
(2)제거 대상: 연구, 분석, 결과, 고찰, 방법, 사례, 효과, 제시, 논의, 접근, 변화, 동향 등 연구 행위 관련 용어.<br/>
 +
<br/>
 +
(3)접속사 및 관용어: 대한, 통해, 그리고, 그러나, 또한, 따라서, 또는, 등, 중심 등 문장 연결용 어휘.<br/>
 +
<br/>
 +
(4)도메인 일반 용어: 교육, 수업, 학생, 교사, 자료, 제도 등 사회과학 분야의 광범위한 일반 용어.<br/>
 +
<br/>
 +
(5)저자 키워드 정제: 논문에 명시된 저자 키워드(keywords)의 경우, 세미콜론(;), 가운뎃점(·), 파이프(|) 등 연구자마다 제각각인 구분자를 콤마(,)로 통일하여 리스트화하였다. 이후 각 키워드에 대해 앞서 정의한 텍스트 정규화 로직을 동일하게 적용하여 데이터의 일관성을 확보하였다.<br/>
 +
<br/>
 +
3. 텍스트 마이닝 분석<br/>
 +
<br/>
 +
본 연구는 중국 개혁·개방 관련 담론의 구조를 다각도로 조명하기 위해, 전처리 된 텍스트 데이터를 대상으로 다음과 같은 다섯 가지 텍스트 마이닝 분석 기법을 적용하였다.<br/>
 +
<br/>
 +
(1) 단어 빈도 분석 및 워드클라우드 시각화<br/>
 +
<br/>
 +
전처리 과정을 통해 추출된 토큰을 대상으로 출현 빈도를 산출하여 담론의 핵심 키워드를 파악한다. 단순 빈도 산출은 전체 데이터에서 어떤 개념이 가장 지배적으로 다루어졌는지 직관적으로 보여주며, 이를 바탕으로 단어의 크기를 빈도에 비례하게 배치하는 워드클라우드(Wordcloud) 시각화를 수행하여 연구의 주요 소재를 시각적으로 제시한다.<br/>
 +
<br/>
 +
(2) TF-IDF 분석<br/>
 +
<br/>
 +
단순 빈도 분석의 한계를 보완하기 위해 TF-IDF(Term Frequency-Inverse Document Frequency) 분석을 실시한다. 이는 특정 단어가 해당 문서 내에서 발생하는 빈도(TF)와 전체 문서군에서 등장하는 빈도의 역수(IDF)를 곱한 값으로, 모든 문서에 공통으로 등장하는 일반적인 단어보다는 특정 문서에서 핵심적인 의미를 지니는 '변별력 있는 키워드'를 추출하는 데 활용한다.<br/>
 +
<br/>
 +
(3) N-gram 분석<br/>
 +
<br/>
 +
개별 단어 단위의 분석에서 나아가, 단어 간의 연쇄적인 맥락을 파악하기 위해 N-gram 분석을 수행한다. 본 연구에서는 인접한 두 단어가 동시에 등장하는 바이그램(Bigram)을 중심으로 분석하여, '개혁'이나 '개방'과 같이 단독으로 쓰일 때보다 '개혁-개방', '시장-경제' 등과 같이 복합어로 쓰일 때 발생하는 구체적인 담론의 의미 단위를 포착한다.<br/>
 +
<br/>
 +
(4) 공출현 네트워크 구축<br/>
 +
<br/>
 +
키워드 간의 구조적 관계를 파악하기 위해 공출현(Co-occurrence) 네트워크를 구축한다. 저자 키워드 및 상위 빈도 단어를 대상으로 한 문장 또는 한 논문 내에 동시에 출현하는 단어 쌍의 빈도를 행렬로 구성한다. 이를 시각화하여 담론의 중심에 위치한 핵심 개념과 세부 연구 주제 간의 연결 구조를 파악하며, 매개 중심성 등 네트워크 지표를 통해 담론의 교량 역할을 하는 키워드를 식별한다.<br/>
 +
<br/>
 +
(5) LDA 토픽 모델링<br/>
 +
<br/>
 +
707편의 논문에 내재된 잠재적 주제를 식별하기 위해 확률 기반의 LDA(Latent Dirichlet Allocation) 토픽 모델링을 적용한다. 이는 각 문서가 여러 토픽의 혼합으로 구성되어 있고, 각 토픽은 특정 단어들의 확률 분포로 정의된다는 가정을 바탕으로 한다. 대량의 서지 데이터 내에 숨겨진 주제 군집을 통계적으로 도출함으로써, 중국 개혁·개방 연구 담론이 어떤 세부 영역으로 분화되어 있는지 구조적으로 분석한다.<br/>
 +
<br/>
 +
4. Neo4j를 활용한 분석<br/>
 +
<br/>
 +
- Neo4j 기반 그래프 데이터베이스 구축-<br/>
 +
<br/>
 +
1) 노드 설계<br/>
 +
<br/>
 +
① 문서 노드(documents_nodes) 는 KCI 논문 한 편을 하나의 노드로 대응시킨 것으로, 논문 ID, 제목, 발행연도 등 서지 정보를 속성으로 저장하였다.<br/>
 +
<br/>
 +
② 토픽 노드(topics_nodes) 는 LDA 모델링을 통해 도출된 잠재 토픽을 나타내며, 토픽 번호와 토픽 명칭(예: ‘경제 성장과 시장 개혁’, ‘정치·체제와 사회관리’ 등)을 속성으로 부여하였다.<br/>
 +
<br/>
 +
③ 단어 노드(word_nodes) 는 전처리된 텍스트에서 추출된 명사 키워드를 하나의 노드로 구성한 것으로, 단어 표기와 전체 빈도 등의 정보를 포함하였다.<br/>
 +
<br/>
 +
2) 관계 설계<br/>
 +
<br/>
 +
① 단어 공출현 관계(cooccurrence_relationships) 는 동일 문서 내에서 함께 등장한 두 단어 노드 간의 공기(共起) 관계를 나타낸다. 실제 Neo4j 모델에서는 Word 노드 사이에 :CO_OCCURS_WITH 관계를 생성하고, 관계 속성 weight에 공출현 빈도값을 저장하여 단어 쌍의 결합 강도를 정량적으로 표현하였다.<br/>
 +
<br/>
 +
② 문서–토픽 관계(doc_topic_relationships) 는 LDA 결과에서 각 문서가 특정 토픽에 속할 확률(γ 값)을 나타내는 관계이다. Neo4j에서는 Document 노드와 Topic 노드 사이에 관계를 부여하고, 관계 속성 weight에 해당 문서–토픽 확률값을 기록하였다. 이를 통해 개별 논문이 어떤 토픽과 상대적으로 더 밀접하게 연결되는지를 그래프 구조에서 직관적으로 파악할 수 있다.<br/>
 +
<br/>
 +
③ 토픽–단어 관계(topic_word_relationships) 는 각 토픽을 구성하는 핵심 단어와 그 중요도를 연결하는 간선이다. 구현 단계에서는 Topic 노드와 Word 노드 사이에 :CONTAINS 관계를 생성하고, 관계 속성 weight에 LDA에서 산출된 토픽 내 단어 기여도(즉 토픽별 단어 확률)를 저장하였다. 이 관계를 통해 각 토픽의 의미 구조와 핵심 키워드 묶음을 한눈에 확인할 수 있다.<br/>
 +
<br/>
 +
3) 분석 쿼리 및 활용<br/>
 +
<br/>
 +
구축된 그래프 데이터베이스를 실질적으로 운용하기 위해 Cypher 쿼리를 설계하였으며, 이를 통해 단순 통계로 파악하기 어려운 복합적인 연구 트렌드를 도출한다. 주요 분석 쿼리의 구성과 활용 방안은 다음과 같다.<br/>
 +
<br/>
 +
① 토픽 기반 핵심 연구 및 지식 구성 탐색 특정 토픽과 연결된 문서 및 단어 노드를 결합하여 조회한다. 토픽-단어 관계(:CONTAINS)의 가중치가 높은 단어들을 통해 토픽의 성격을 규명하고, 문서-토픽 관계의 가중치가 높은 문서를 추출하여 해당 주제의 질적 분석을 수행한다. 이는 대규모 논문 데이터 내에서 연구자가 원하는 특정 주제의 핵심 자료를 빠르게 필터링하는 데 활용된다.<br/>
 +
<br/>
 +
② 단어 네트워크를 통한 지식 결합 구조 분석 단어 간의 공출현 관계(:CO_OCCURS_WITH)를 기반으로 특정 중심 단어와 연결된 고차원 네트워크를 분석한다. 단순히 빈도가 높은 단어를 나열하는 것을 넘어, 특정 키워드와 함께 빈번하게 언급되는 연관어 군집을 추적함으로써 학술적 개념이 어떠한 맥락에서 결합하고 분화되는지 파악한다. 이는 연구 분야의 세부적인 지식 지형도를 구축하는 데 기여한다.<br/>
 +
<br/>
 +
③ 토픽 간 유사성 및 융합 연구 식별 서로 다른 토픽 노드가 공통으로 공유하고 있는 문서 노드나 단어 노드의 연결 패턴을 분석한다. 두 개 이상의 토픽에 동시에 높은 확률로 연결된 '브릿지(Bridge)' 논문을 탐색함으로써, 학제 간 연구가 활발히 일어나는 지점이나 새로운 학문적 융합이 시도되는 영역을 객관적으로 식별할 수 있다.<br/>
 +
<br/>
 +
④ 연도별 그래프 속성 변화를 통한 동적 트렌드 분석 문서 노드의 발행연도 속성을 쿼리 조건으로 설정하여, 특정 시점마다 변화하는 그래프의 구조적 특성을 비교한다. 특정 토픽과 연결된 문서의 수적 팽창이나 단어 간 연결 강도의 변화를 시계열적으로 추적함으로써, 해당 연구 분야의 역사적 흐름과 미래 유망 기술 및 주제를 예측하는 근거로 활용한다.<br/>

2025년 12월 21일 (일) 23:17 판

목차

Ⅰ. 서론(Introduction)
1. 연구 배경
2. 연구 목적
Ⅱ. 이론적 배경 및 선행연구
1. 개혁개방이란
2. 개혁개방 관련 선행연구
Ⅲ.연구 데이터 및 분석 방법
1. 데이터 구조 및 정제 과정
2. 텍스트 전처리 방법
3. 텍스트 마이닝 분석
4. Neo4j를 활용한 분석
Ⅳ. 연구 결과
1. 텍스트 마이닝 분석 결과
2. Neo4j를 활용한 분석 결과
Ⅴ. 결론(Conclusion)

Ⅰ.서론

(1) 연구 배경
1978년 제11기 3중전회를 기점으로 단행된 중국의 개혁·개방은 경제 체제의 전면적 전환을 넘어 정치, 경제, 문화 전반의 구조적 변곡점을 형성한 역사적 사건이다. 지난 40여 년간 중국은 계획경제에서 탈피하여 시장 메커니즘을 수용함으로써 유례없는 고도성장을 달성하였으며, 이는 한국을 포함한 동아시아와 세계 경제 질서에 지대한 영향을 미쳤다. 이에 따라 한국 학계에서도 중국의 개혁·개방과 그에 따른 사회적 변화를 규명하기 위한 다학제적 연구가 지속적으로 축적되어 왔다.

본 연구는 이처럼 장기간 축적된 한국 학계의 중국 연구 자산을 하나의 체계적인 텍스트 자료로 간주하고, 이를 관통하는 지적 담론의 흐름을 거시적으로 조망하는 데 그 목적이 있다. 개별 연구들이 지닌 미시적 통찰을 연결하여 하나의 거대한 지형도로 구조화함으로써, 한국 사회가 중국의 변화를 어떠한 시각과 문제의식으로 수용하고 해석해 왔는지 그 진화 과정을 규명하고자 한다.

특히 방대한 학술 데이터를 처리하기 위해 도입한 텍스트 마이닝 기법과 Neo4j 기반의 그래프 데이터베이스 분석은 파편화된 개별 연구들 사이의 유기적 연결성을 가시화하는 핵심적인 도구이다. 이는 단순히 개별 정책이나 거시 지표를 평가하는 수준을 넘어, 시기별로 부상한 핵심 키워드와 주제 간의 연관 구조를 정량적으로 추적함으로써 담론의 동학을 입체적으로 파악하게 한다.

결론적으로 본 연구는 데이터 기반의 네트워크 분석을 통해 한국 내 중국 연구의 지적 궤적을 체계화하고, 연구 의제의 변천 과정을 객관적으로 조망하고자 한다. 이러한 작업은 과거의 담론 지형을 정리하는 데 그치지 않고, 변화하는 국제 정세 속에서 향후 한국의 중국 연구가 지향해야 할 학술적 좌표를 설정하는 데 기여할 것이다.

(2) 연구 목적
본 연구는 KCI 등재(후보) 학술지에 게재된 논문 가운데 ‘개혁개방’과 ‘중국’을 핵심 키워드로 포함하는 연구들을 수집하여 하나의 텍스트 자료를 구축하고, 텍스트 마이닝과 네트워크 분석을 통해 한국 학계의 중국 개혁개방 담론 구조를 체계적으로 살펴보고자 한다. 구체적인 목적은 다음과 같다.

첫째, 개혁개방(改革開放) 이후 약 40여 년 동안 한국 학계에서 전개된 관련 연구를 대상으로, 제목과 초록에 나타난 주요 키워드의 시기별 출현 양상을 분석함으로써 경제, 정치, 사회, 대외 관계 등 어떤 주제들이 어떠한 흐름 속에서 부상·쇠퇴해 왔는지를 파악한다.

둘째, LDA 기반 토픽 모델링을 통해 시기별 핵심 주제를 도출하고 각 토픽의 비중 변화를 비교함으로써, 한국 학계의 개혁·개방 연구 관심사가 경제 성장 중심 논의에서 정치·사회 통제, 이념, 국제 관계 및 안보 문제 등 보다 복합적인 영역으로 어떻게 확장·분화되어 왔는지를 규명한다.

셋째, Neo4j를 활용한 키워드 공기(共起) 네트워크 분석을 통해 ‘개혁·개방’과 ‘중국’을 중심으로 한 주요 개념들의 연결 구조와 중심성 변화를 살펴보고, 이를 통해 중국의 국가 전략 변화(내부 통치 강화, 대외적 강국 전략 등)가 한국 학계 담론에서 어떠한 방식으로 재구성되고 있는지를 분석한다.

이와 같은 분석을 통해 본 연구는 한국 학계의 중국 개혁·개방 담론이 단일한 경제 성장 서사를 넘어, 정치·사회·대외 전략이 교차하는 다층적 담론 네트워크로 전개되어 왔는지를 구조적으로 밝히는 것을 궁극적인 목표로 한다.

Ⅱ. 이론적 배경 및 선행연구

1. 개혁개방이란

개혁개방은 1978년 12월, 중국공산당 덩샤오핑(鄧小平) 지도 체제 하에서 시작된 중국의 근대화 정책이다. 이는 기존의 사회주의 계획경제 체제를 수정하고, 시장 경제 요소를 도입하며, 대외적으로 문호를 개방하여 경제 발전을 추구한 일련의 과정이다.

2. 개혁개방 관련 선행연구


중국의 개혁개방에 관한 기존의 학술적 논의는 주로 지난 40년간의 역사적 변천 과정을 복기하고, 그에 따른 경제적 성과를 다각도로 평가하는 데 주력해 왔다. 관련 선행연구들의 흐름을 분석해 볼 때, 주요 연구 경향은 다음과 같이 세 가지 차원으로 요약된다.

첫째, 거시경제적 성과 분석과 패러다임의 전환에 관한 연구이다. 기존 연구들은 개혁개방 이후 중국이 이룩한 양적 성장을 고찰하고, 소위 ‘중국경제 3.0’으로 대변되는 질적 전환기에 따른 정책적 긍·부정적 효과를 규명하는 데 집중해 왔다.

둘째, 주민 소득 구조 및 후생 수준의 변화에 관한 고찰이다. 개혁개방 40년이라는 장기적 시계열을 바탕으로 주민들의 실질 소득 변화와 분배 구조를 분석함으로써, 경제 성장이 가계 경제 및 삶의 질에 미친 실증적 영향을 도출하는 연구가 비중 있게 다루어졌다.

셋째, 성과 회고를 통한 미래 과제의 도출이다. 주로 개혁개방 40주년을 기점으로 지난 성과를 총체적으로 정리하고, 향후 지속 가능한 발전을 가로막는 구조적 한계와 정책적 대안을 제시하는 회고적 성격의 연구가 주를 이루고 있다.

결론적으로 기존의 연구 동향은 개혁개방 40년의 역사적 평가와 경제적 지표 변화를 규명하는 거시적 담론에 편중되어 있는 양상을 보인다.

III. 연구 데이터 및 분석 방법
본 연구는 한국 학계의 중국 개혁·개방 관련 연구 담론의 구조를 분석하기 위해 한국연구재단(NRF)의 학술지 인용색인 서비스인 KCI(Korea Citation Index)를 활용하여 분석 대상 문헌을 수집하였다. 구체적인 자료 선정 및 수집 기준은 다음과 같다.

먼저 검색어는 중국의 개혁·개방 정책과 관련된 학술적 논의를 포괄할 수 있도록 “개혁개방” AND “중국”을 조합하여 설정하였으며, 학계의 최신 연구 동향을 반영하기 위해 2010년 1월부터 2025년 12월까지 발행된 논문을 대상으로 하였다. 검색 범위는 연구의 주제가 명확히 드러나는 제목, 초록, 저자 키워드를 포함하였으며, 학술적 신뢰성을 확보하기 위해 KCI 등재(후보) 학술지로 한정하였다.

이와 같은 조건으로 1차 검색을 실시한 결과 총 707편의 논문이 수집되었으며, 이 중 학술논문이 아닌 서평, 학술대회 자료집, 중복 게재물 등을 제외하는 정제 과정을 거쳐 최종 707편의 논문을 본 연구의 분석 대상으로 확정하였다.

1. 데이터 구조 및 정제 과정
본 연구는 수집된 KCI 서지 자료의 신뢰성을 높이고 텍스트 마이닝 분석의 정확도를 확보하기 위해 다음과 같은 데이터 구조 최적화 및 정제 과정을 수행하였다.

1.1 서지 데이터 구조 및 분석 대상

KCI에서 반출된 원본 데이터는 논문명, 저자명, 소속기관, 학술지명, 발행연도, 초록, 저자 키워드 등을 포함한 총 14개의 컬럼으로 구성되었다. 이 중 본 연구의 핵심 분석(기술 통계, 토픽 모델링, 네트워크 분석)을 위해 실제로 사용된 주요 컬럼은 다음과 같다.

-텍스트 분석용: 논문명(title), 초록(abstract), 저자 키워드(keywords)

-메타데이터 분석용: 저자명(authors), 학술지명(journal), 발행연도(year), DOI, URL

1.2.. 결측치 처리 및 컬럼 표준화

데이터의 일관성을 유지하고 프로그래밍 분석의 효율성을 높이기 위해 다음과 같은 표준화 작업을 진행하였다.

(1)결측치 처리: 분석의 핵심인 초록(abstract) 데이터의 경우, 전체 707건 중 16건에서 결측이 확인되어 약 2.26%의 결측률을 보였다. 이는 토픽 모델링 수행 기준(결측률 50% 이하)을 충분히 충족하는 수치로, 결측치는 빈 문자열("")로 치환하여 분석에서 제외되지 않도록 처리하였다.

(2)컬럼명 표준화: 다양한 환경에서 코드의 재사용성을 높이기 위해 한글 컬럼명을 영문 표준 명칭으로 통일하였다. (예: 논문명 → title, 발행연도 → year, 초록 → abstract 등)

(3)데이터 타입 변환: 문자열로 인식된 발행연도(year) 데이터를 정수형(Int64)으로 변환하여 시계열 분석 시 연산 오류를 방지하고 정확한 연도별 집계가 가능하도록 하였다.


2. 텍스트 전처리 방법
본 연구는 정제된 서지 데이터를 바탕으로 텍스트 마이닝의 정확도를 높이기 위해 다음과 같은 형태소 분석 및 키워드 정제 과정을 수행하였다.

2.1. 형태소 분석 및 토큰화

결합된 분석 텍스트(제목+초록)에서 의미 있는 단어 단위를 추출하기 위해 한국어 형태소 분석기인 KoNLPy의 Komoran을 활용하였다. 분석의 효율성과 담론 파악의 정확성을 기하기 위해 다음과 같은 기준을 적용하여 토큰화를 진행하였다.

(1)추출 품사 제한: 연구 주제의 핵심 개념을 반영하는 일반명사(NNG), 고유명사(NNP)를 중심으로 추출하였으며, 외래어 및 영문 용어 처리를 위한 외래어(SL), 그리고 수치적 정보 파악을 위한 수사(SN) 품사를 포함하였다.

(2)단어 길이 필터링: 의미적 변별력이 낮은 한 글자 단어를 제외하고, 두 글자 이상의 단어만을 유효한 토큰으로 선정하였다.

(3)텍스트 정규화: 토큰화 전 단계에서 영문은 소문자로 통일하였으며, UTF-8 인코딩 및 디코딩 과정을 통해 분석 중 발생할 수 있는 문자 깨짐 오류를 방지하였다.

2.2. 불용어 사전 구성 및 키워드 정리

분석 결과의 노이즈를 제거하고 실제 중국 개혁개방 담론에 집중하기 위해 불용어(Stopwords) 처리 및 키워드 정제 작업을 수행하였다.

(1)불용어 사전 구축: 학술 논문 데이터의 특성상 빈번하게 등장하지만 실제 연구 주제와는 거리가 먼 일반적인 용어들을 불용어로 정의하여 제거하였다.

(2)제거 대상: 연구, 분석, 결과, 고찰, 방법, 사례, 효과, 제시, 논의, 접근, 변화, 동향 등 연구 행위 관련 용어.

(3)접속사 및 관용어: 대한, 통해, 그리고, 그러나, 또한, 따라서, 또는, 등, 중심 등 문장 연결용 어휘.

(4)도메인 일반 용어: 교육, 수업, 학생, 교사, 자료, 제도 등 사회과학 분야의 광범위한 일반 용어.

(5)저자 키워드 정제: 논문에 명시된 저자 키워드(keywords)의 경우, 세미콜론(;), 가운뎃점(·), 파이프(|) 등 연구자마다 제각각인 구분자를 콤마(,)로 통일하여 리스트화하였다. 이후 각 키워드에 대해 앞서 정의한 텍스트 정규화 로직을 동일하게 적용하여 데이터의 일관성을 확보하였다.

3. 텍스트 마이닝 분석

본 연구는 중국 개혁·개방 관련 담론의 구조를 다각도로 조명하기 위해, 전처리 된 텍스트 데이터를 대상으로 다음과 같은 다섯 가지 텍스트 마이닝 분석 기법을 적용하였다.

(1) 단어 빈도 분석 및 워드클라우드 시각화

전처리 과정을 통해 추출된 토큰을 대상으로 출현 빈도를 산출하여 담론의 핵심 키워드를 파악한다. 단순 빈도 산출은 전체 데이터에서 어떤 개념이 가장 지배적으로 다루어졌는지 직관적으로 보여주며, 이를 바탕으로 단어의 크기를 빈도에 비례하게 배치하는 워드클라우드(Wordcloud) 시각화를 수행하여 연구의 주요 소재를 시각적으로 제시한다.

(2) TF-IDF 분석

단순 빈도 분석의 한계를 보완하기 위해 TF-IDF(Term Frequency-Inverse Document Frequency) 분석을 실시한다. 이는 특정 단어가 해당 문서 내에서 발생하는 빈도(TF)와 전체 문서군에서 등장하는 빈도의 역수(IDF)를 곱한 값으로, 모든 문서에 공통으로 등장하는 일반적인 단어보다는 특정 문서에서 핵심적인 의미를 지니는 '변별력 있는 키워드'를 추출하는 데 활용한다.

(3) N-gram 분석

개별 단어 단위의 분석에서 나아가, 단어 간의 연쇄적인 맥락을 파악하기 위해 N-gram 분석을 수행한다. 본 연구에서는 인접한 두 단어가 동시에 등장하는 바이그램(Bigram)을 중심으로 분석하여, '개혁'이나 '개방'과 같이 단독으로 쓰일 때보다 '개혁-개방', '시장-경제' 등과 같이 복합어로 쓰일 때 발생하는 구체적인 담론의 의미 단위를 포착한다.

(4) 공출현 네트워크 구축

키워드 간의 구조적 관계를 파악하기 위해 공출현(Co-occurrence) 네트워크를 구축한다. 저자 키워드 및 상위 빈도 단어를 대상으로 한 문장 또는 한 논문 내에 동시에 출현하는 단어 쌍의 빈도를 행렬로 구성한다. 이를 시각화하여 담론의 중심에 위치한 핵심 개념과 세부 연구 주제 간의 연결 구조를 파악하며, 매개 중심성 등 네트워크 지표를 통해 담론의 교량 역할을 하는 키워드를 식별한다.

(5) LDA 토픽 모델링

707편의 논문에 내재된 잠재적 주제를 식별하기 위해 확률 기반의 LDA(Latent Dirichlet Allocation) 토픽 모델링을 적용한다. 이는 각 문서가 여러 토픽의 혼합으로 구성되어 있고, 각 토픽은 특정 단어들의 확률 분포로 정의된다는 가정을 바탕으로 한다. 대량의 서지 데이터 내에 숨겨진 주제 군집을 통계적으로 도출함으로써, 중국 개혁·개방 연구 담론이 어떤 세부 영역으로 분화되어 있는지 구조적으로 분석한다.

4. Neo4j를 활용한 분석

- Neo4j 기반 그래프 데이터베이스 구축-

1) 노드 설계

① 문서 노드(documents_nodes) 는 KCI 논문 한 편을 하나의 노드로 대응시킨 것으로, 논문 ID, 제목, 발행연도 등 서지 정보를 속성으로 저장하였다.

② 토픽 노드(topics_nodes) 는 LDA 모델링을 통해 도출된 잠재 토픽을 나타내며, 토픽 번호와 토픽 명칭(예: ‘경제 성장과 시장 개혁’, ‘정치·체제와 사회관리’ 등)을 속성으로 부여하였다.

③ 단어 노드(word_nodes) 는 전처리된 텍스트에서 추출된 명사 키워드를 하나의 노드로 구성한 것으로, 단어 표기와 전체 빈도 등의 정보를 포함하였다.

2) 관계 설계

① 단어 공출현 관계(cooccurrence_relationships) 는 동일 문서 내에서 함께 등장한 두 단어 노드 간의 공기(共起) 관계를 나타낸다. 실제 Neo4j 모델에서는 Word 노드 사이에 :CO_OCCURS_WITH 관계를 생성하고, 관계 속성 weight에 공출현 빈도값을 저장하여 단어 쌍의 결합 강도를 정량적으로 표현하였다.

② 문서–토픽 관계(doc_topic_relationships) 는 LDA 결과에서 각 문서가 특정 토픽에 속할 확률(γ 값)을 나타내는 관계이다. Neo4j에서는 Document 노드와 Topic 노드 사이에 관계를 부여하고, 관계 속성 weight에 해당 문서–토픽 확률값을 기록하였다. 이를 통해 개별 논문이 어떤 토픽과 상대적으로 더 밀접하게 연결되는지를 그래프 구조에서 직관적으로 파악할 수 있다.

③ 토픽–단어 관계(topic_word_relationships) 는 각 토픽을 구성하는 핵심 단어와 그 중요도를 연결하는 간선이다. 구현 단계에서는 Topic 노드와 Word 노드 사이에 :CONTAINS 관계를 생성하고, 관계 속성 weight에 LDA에서 산출된 토픽 내 단어 기여도(즉 토픽별 단어 확률)를 저장하였다. 이 관계를 통해 각 토픽의 의미 구조와 핵심 키워드 묶음을 한눈에 확인할 수 있다.

3) 분석 쿼리 및 활용

구축된 그래프 데이터베이스를 실질적으로 운용하기 위해 Cypher 쿼리를 설계하였으며, 이를 통해 단순 통계로 파악하기 어려운 복합적인 연구 트렌드를 도출한다. 주요 분석 쿼리의 구성과 활용 방안은 다음과 같다.


① 토픽 기반 핵심 연구 및 지식 구성 탐색 특정 토픽과 연결된 문서 및 단어 노드를 결합하여 조회한다. 토픽-단어 관계(:CONTAINS)의 가중치가 높은 단어들을 통해 토픽의 성격을 규명하고, 문서-토픽 관계의 가중치가 높은 문서를 추출하여 해당 주제의 질적 분석을 수행한다. 이는 대규모 논문 데이터 내에서 연구자가 원하는 특정 주제의 핵심 자료를 빠르게 필터링하는 데 활용된다.


② 단어 네트워크를 통한 지식 결합 구조 분석 단어 간의 공출현 관계(:CO_OCCURS_WITH)를 기반으로 특정 중심 단어와 연결된 고차원 네트워크를 분석한다. 단순히 빈도가 높은 단어를 나열하는 것을 넘어, 특정 키워드와 함께 빈번하게 언급되는 연관어 군집을 추적함으로써 학술적 개념이 어떠한 맥락에서 결합하고 분화되는지 파악한다. 이는 연구 분야의 세부적인 지식 지형도를 구축하는 데 기여한다.


③ 토픽 간 유사성 및 융합 연구 식별 서로 다른 토픽 노드가 공통으로 공유하고 있는 문서 노드나 단어 노드의 연결 패턴을 분석한다. 두 개 이상의 토픽에 동시에 높은 확률로 연결된 '브릿지(Bridge)' 논문을 탐색함으로써, 학제 간 연구가 활발히 일어나는 지점이나 새로운 학문적 융합이 시도되는 영역을 객관적으로 식별할 수 있다.

④ 연도별 그래프 속성 변화를 통한 동적 트렌드 분석 문서 노드의 발행연도 속성을 쿼리 조건으로 설정하여, 특정 시점마다 변화하는 그래프의 구조적 특성을 비교한다. 특정 토픽과 연결된 문서의 수적 팽창이나 단어 간 연결 강도의 변화를 시계열적으로 추적함으로써, 해당 연구 분야의 역사적 흐름과 미래 유망 기술 및 주제를 예측하는 근거로 활용한다.