행위

RCCTD CDHReview02

CNUDH

데이터로 읽는 중국문화(2025) 강의 페이지로 가기





〈CBDB〉 Review

(URL: https://projects.iq.harvard.edu/cbdb)

중어중문학과 정선한






목차

Contents


누가(Who) 언제(When) 어디서(Where) 무엇을(What) 어떻게(How) 왜(Why)



CBDB(China Biographical Database Project)는 무료로 접근 가능한 관계형 데이터베이스로, 주로 7세기부터 19세기까지 약 649,533명에 대한 정보가 포함되어 있다(2025년 5월 기준). 온라인과 오프라인 버전의 데이터는 일종의 전기 자료로서 통계, 소셜 네트워크, 공간 분석에 활용할 수 있다.

누가(Who)


주요 연구자
- Robert M. Hartwell(1932-1996) [1]
- Peter K. Bol [2]
- Micheal A. Fuller [3]

핵심기관
- 하버드대학교 페어뱅크 중국학센터
- 대만 중앙연구원 중국역사연구소
- 북경대학교 중국고대사연구센터



CBDB 프로젝트는 하버드-옌칭 연구소에서 물려받은 Robert M. Hartwell 교수의 '주식회사 중국역사학 소프트웨어(China Historical Software, Inc.)' 데이터셋과 소프트웨어 프로그램을 기반으로 시작되었다.

하트웰은 대학 교수로 재직하면서 중국 역사의 사회⋅경제적 변화에 대한 연구에 관심을 가졌다. 주로 中唐에서 元代까지의 ‘중기 자료’를 다루었다. 1970년대 중반에 중국사 연구를 위해 가장 광범위한 인물연구 데이터셋을 축적하는 프로그램을 만들었으며, 1995년에 사망할 때까지 작업은 계속되었다.

1990년대 초, 하버드 대학의 Peter K. Bol 교수가 의장으로 한 자문 위원회를 구성하여 '중국역사연구소'를 설립했으며, 연구소에 하트웰의 데이터 세트와 응용 프로그램의 사본을 제공하였다. 하트웰이 사망할 당시의 데이터베이스는 기술적인 측면에서 1990년대 초반의 IT환경에 머물러있었다. 이에 Micheal A. Fuller 교수는 FoxPro 애플리케이션 형식의 CBDBwin을 통해 Windows 환경에서도 기능할 수 있는 데이터베이스를 구현했다.

2005년에 북경대학교 중국고대사연구센터가 이 프로젝트에 참여했다. 연구센터의 연구진들은 하트웰의 수집 목록을 확인하고 교정했으며, 새로운 데이터를 추가하는 작업을 거쳤다. 프로젝트를 위해 대만 중앙연구원 역사언어연구소에서 제공한『송인전기자료색인(宋人傳記資料索引)』(Chang Pide:昌彼得 편, Wang De-yi:王德毅 역)을 기반으로 콘텐츠를 추가했고, Chen Song(陳松)이 2006년부터 시작해서 이 애플리케이션에 대한 추가 작업을 마쳤다. 더불어 2006년부터 대만 중앙연구원 역사언어연구소의 재정적 지원을 받았고, 2008년 가을에 애플리케이션이 출시됐다.

2009년 2월, 하버드-옌칭 연구소는 디지털화 된 전기자료 데이터를 성공적으로 추출하기 위해 관련 전문가와 협력하기 시작했고, 이후 페어뱅크 중국학 센터로 권한을 이전했다.





언제(When)



1. 초기 연구 및 데이터 축적 (1970년대 중반 ~ 1996년)

- 1970년대 중반: 로버트 하트웰(Robert M. Hartwell) 교수, 중국 중기(中唐-元)의 사회경제사 연구를 위해 방대한 인물 연구 데이터셋을 구축하는 프로그램 시작

- 1990년대 초: 하트웰 교수는 수집한 데이터를 학술적 용도로 활용할 수 있도록 준비
- 중국역사연구소(Chinese Historical Studies, Inc.)를 설립, 피터 볼(Peter K. Bol) 교수를 의장으로 한 자문위원회 구성

- 1996년: 하트웰 교수의 사망
- 하트웰 교수 사망 당시 데이터베이스는 MS-DOS의 dBase 형식, 25,000명 이상의 인물 정보, 4,500개 이상의 서지 정보, 지리 정보 등이 포함됨

2. 기술적 전환 및 국제 협력의 시작 (2004년 ~ 2007년)

- 2004년~2005년: 마이클 풀러(Michael A. Fuller) 교수, 기존의 MS-DOS 프로그램을 Windows 환경에서 작동하는 MS Access 데이터베이스(CBDB.mdb)와 FoxPro 애플리케이션(CBDBWin)으로 재설계

- 2005년: 북경대학교 중국고대사연구센터가 프로젝트에 참여

- 2006년: 대만 중앙연구원 역사언어연구소의 재정 지원 시작
- 천송(陳松), 북경대에서 애플리케이션 추가 작업 완료

- 2007년 봄: 온라인을 통한 데이터 입력 애플리케이션 운영


3. 시스템 공식화 및 기술 혁신 (2008년 ~ 2009년)

- 2008년 가을:

- 일반 사용자를 위한 공식적인 온라인 검색 및 기록 애플리케이션이 출시

- 하버드 그룹은 데이터 마이닝 기술자들과 협력하여, '정규 표현식'을 활용해 디지털화 된 전기 자료에서 데이터를 자동으로 추출하는 작업을 시작

- 2009년 2월: 하버드-옌칭 연구소 → 하버드 대학교 페어뱅크 중국학 센터로 프로젝트에 대한 모든 권한 이관

- 2009년 봄: 데이터 마이닝을 통한 자동 데이터 추출 방식이 매우 성공적이라는 것이 확인
- 프로젝트의 데이터 확장 능력이 획기적으로 향상





어디서(Where)



CBDB는 주로 아래의 문헌에서 데이터를 추출하고 있다.[4]

전기자료 색인
송인전기자료색인(宋人傳記資料索引)
원인전기자료색인(元人傳記資料索引)
명인전기자료색인(明人傳記資料索引)
청대인물생졸년표(清代人物生卒年表)

사료
정사열전(正史列傳)
묘지명(墓誌銘) 및 묘표(墓表) 등
지방지 열전(地方志列傳)

문학작품
문집의 제문(祭文)‧서(序)‧기(記)‧묘지명(墓誌銘)‧제발(題跋)‧서간(書簡) 등

공식문서
군수연표(郡守年表)
회요(會要) 및 실록(實錄) 등

기타 전기자료 데이터베이스
명‧청대 부녀저작 明清婦女著作[Ming Qing Women's Writings (MQWW)][5]
명‧청파일 인명권한 자료검색 明清檔案人名權威資料庫 Ming Qing Name Authority files
당대 인물지식 베이스 唐代人物知識ベース Pers-DB Knowledge Base of Tang Persons (Kyoto)





무엇을(What)


CBDB와 같은 관계형 데이터베이스는 각각의 독립성이 높고, 관계 조작에 의해서 자유롭게 구조를 바꿀 수 있다. 설계할 때에는 대상들을 추상화하고 ‘엔터티 테이블’을 사용해 구체화한다. 데이터베이스에서 인물의 전기 자료를 정의하는 핵심 엔터티는 다음과 같다.

CBDB의 구조[6]

① 인물 기본 자료(성명, 성별, 생몰년), 종족, 군망, 지수년[7] ⑧ 재산 역사 문헌에 나타난 교역유형(구매, 증여 등)
② 혈연 개인의 혈연관계는 본인/친척/친속관계 세 부분으로 구성됨 ⑨ 사회기구 기구명칭 ID/기구 코드, 기구유형, 기구 일자(시작일, 종료일)
지명 ID, X-Y좌표, 네트워크 유형
개인 ID, 기구에서의 역할, 역할 기간
③ 비혈연 관계 인물의 정치‧사회문화 조직 및 활동 관계 ⑩ 저술[8] 문헌 ID, 문헌명, 저술일, 현재 존재여부, 현재 출판정보/ 인물 ID, 역할 ID
④ 사회적 구분 신분 코드, 신분 순위, 날짜, 자료의 출처 및 설명 ⑪ 위도 및 경도 「중국역사지리정보시스템(中國歷史地理信息系統)」(CHGIS)의 방식을 통해 지명 코드 설정
⑤ 입사 인물의 ID, 입사 유형 코드, 입사 관계유형, 과거일자, 과거제 합격 순위 등 ⑫ CBDB에서 얻은 정보의 출처 행정구역상의 지리 및 관료제도에 관한 정보에 집중
⑥ 관직임명 임명, 발령, 발령지 등 ⑬ 행정구역 등급 행정단위의 정치 용어로 구분
⑦ 인물이 참여한 주요 사건 사건 ID, 사건명칭, 사건일자/사건-기록 ID, 인물 ID, 일자/ 지명 ID ⑭ 관료조직 관료체제의 변화 및 상응하는 직책의 요구


사용자는 CBDB 웹사이트에서 전체 데이터베이스와 함께 질의 양식, 그리고 네트워크 및 공간 분석용 데이터 추출 유틸리티를 다운로드하여 Microsoft Access가 설치된 모든 컴퓨터에서 데이터베이스를 탐색할 수 있다. 양적 연구자들과 Mac 사용자를 위해 SQLite 형식의 데이터베이스도 제공된다. [9]



서비스 활용 사례

i) 온라인 서비스

002.png

001.png

003.png

004.png



ii) 오프라인 서비스







어떻게(How)


CBDB 메인 홈페이지에서는 데이터 다운로드만 제공하고 자체적으로 검색이 되지 않으며, 검색할 수 있는 별도의 페이지를 안내하고 있다. 또한 CBDB는 인물의 기본 정보를 바탕으로 다양한 '관계 네트워크'를 한눈에 확인하는 것이 목적이므로 CBDB 내 구축된 관계들의 타입과 속성이 무엇인지를 알아두는 것이 필요하다.


서비스 활용 사례 개요[10]

사용자 검색서비스
002.png
CBDB 편집위원회에서는 사용자를 위한 검색서비스를 제공하고 있다. 이 홈페이지는 베이징 위엔인 테크놀로지 유한회사에서 제작한 디지털인문자원 플랫폼이며, 이 플랫폼에서는 역대인물, 역대문헌, 지명연혁, 역대관직, 역대기구 등을 검색할 수 있다. 이밖에도 공간분포라든가 역사의 흐름 속에서 어떤 인물들이 활약했는지 등 다양한 시각화 자료를 볼 수 있다.

특정 인물을 검색하면 인물의 이칭, 주소, 입사경로 및 신분이나 사회관계, 혈연관계, 학술관계, 교우관계, 정치관계, 저술관계 등이 모두 보여지며, 이를 관계망이나 관계도 형식으로도 볼 수 있다.


CBDB 온라인 입력시스템
001.png
하버드대학교에서 개방하고 있는 CBDB 온라인 입력시스템(Online Inputting System)이다. 인물의 ID, 중문명, 영문명 등을 통해 개별 인물의 정보를 검색할 수 있다. CBDB의 장기목표는 학술적인 용도로 이용하는 사용자들에게 해당 데이터를 무료로 제공하는 것이기 때문에, 이러한 서비스를 개방하고 있다.


상해도서관 CBDB 온톨로지 서비스
003.png
상해도서관에서는 CBDB를 구조화하여 온톨로지[11]를 설계하였다. 온톨로지는 클래스(class, 또는 개념[concept]), 인스턴스(instance, 또는 indivisual), 속성(property), 관계(relation) 등의 구성 요소로 표현된다.


온톨로지 쿼리 센터-CBDB
004.png
온톨로지 쿼리센터(OntHub.NET)는 상해도서관에서 설계한 여러 온톨로지를 그래프로 시각화하여 모아 놓은 곳으로, CBDB가 포함되어 있다. 이 외에도 온톨로지 명세서 rdf/XML파일 및 webVOWL 툴을 이용한 그래프도 볼 수 있다.


오프라인 다운로드 서비스, Stand-alone
CBDB 데이터셋은 MS Access를 통해 소장할 수 있는데, 공식 홈페이지에서 파일을 다운받아 MS 엑세스에서 열기만 하면 된다. 이 과정은 유튜브에서 CBDB Stand-alone 다운로드와 설치 및 다양한 쿼리를 통해 볼 수 있다.



검색 예시(사용자 검색서비스)

중문 한글
991.png
9911.png
992.png
9922.png
993.png
9933.png
994.png
9944.png
995.png
9955.png
996.png
9966.png
997.png
9977.png





왜(Why)



중국 역사인물 전기 데이터베이스(The China Biographical Database, CBDB)는 단순히 인물 정보를 보아둔 사전이 아닌 역사 연구의 패러다임을 바꾼 연구 도구이다.

관계형 데이터베이스인 CBDB는 "특정 지역 출신 인물은 누구인가?"와 같은 간단한 질문부터 "특정 기간 동안 특정 지역에서 과거 시험을 통해 관직에 진출한 모든 인물들의 사회적, 친족적 관계는 어떠했는가?"와 같은 훨씬 복잡한 질문에 이르기까지, 다양한 전기적 데이터 질의에 응답할 수 있다.

CBDB를 통한 역사의 분석은 거시적인 분석이 가능하며, 사회적 관계망 가운데서의 보이지 않던 영향력을 밝히고 시각화도 가능하게 만들었다. 또한 역사학 외에도 문학, 사회학, 지리학, 정치학 등 다양한 분야의 연구자들이 탐구하고 활용할 수 있는 지평을 열어주었다.






주석


  1. China Historical Software 개발
  2. 하버드대 교수, 프로젝트 디렉터
  3. 데이터베이스 구축 실무자
  4. https://cbdb.hsites.harvard.edu/cbdb-sources
  5. https://digital.library.mcgill.ca/mingqing/
  6. 김서윤. (2024). 디지털 아카이브와 온톨로지 모델. 김서윤(편저), _선행 온톨로지 모델 탐색 - 디지털인문학 시리즈_. 위키독스. https://wikidocs.net/216505
  7. 추산된 출생년도, 전기 자료를 통해 분석해낸 인위적인 수치
  8. 저작물‧편찬물과 고대 문서자료 포함
  9. 사용자 가이드: https://prod-cbdb.drupalsites.harvard.edu/sites/g/files/omnuum3101/files/2025-09/cbdb_users_guide.pdf
  10. 김서윤. (2024). 디지털 아카이브와 온톨로지 모델. 김서윤(편저), _선행 온톨로지 모델 탐색 - 디지털인문학 시리즈_. 위키독스. https://wikidocs.net/216506
  11. 정보시스템의 대상이 되는 분야에 존재하는 개체와 개념에 대한 명세로서, 사람과 컴퓨터간에 공유되는 지식을 개념화한 구체적인 형식이며, 개념화와 개념화간의 관계를 표현한 것