행위

RCCTD CDHReview07

CNUDH

데이터로 읽는 중국문화(2025) 강의 페이지로 가기



〈사례 제목〉 Review

(URL: )

중어중문학과 박승정





목차

Contents


누가(Who) 언제(When) 어디서(Where) 무엇을(What) 어떻게(How) 왜(Why)



누가(Who)


[1]이 프로젝트는 현재 영국 케임브리지 대학교(University of Cambridge)에서 아시아학 박사 과정을 밟고 있는 진패조(Peichao Qin) 학생의 박사 연구의 일환으로 만들어졌다.


그는 갑골문 연구 분야의 표준화된 글꼴 및 서체 데이터베이스 부족 문제를 해결하기 위해 2020년 여름부터 파이썬, C++, 자바스크립트 등 다양한 프로그래밍 언어를 독학하여 이 플랫폼을 구축했다고 밝혔다.


도움을 준 사람 (Individuals)
루얼·스터크스 (Roel Sterckx) 교수
소속:케임브리지 대학교 중국학 교수, 진패조의 박사과정 지도교수


송전하오 (Song Zhenhao) 교수, 지샤오나 (Zhi Xiaona) 박사, 쑨야빙(Sun Yabing) 박사
소속:중국 사회과학원 선진사 연구


류용거 (Liu Yongge) 학장
소속:안양사범대학교


왕차오양 (Wang Chaoyang), 후이펑위(Hui Pengyu)
소속:텐센트 SSV 연구소


허옌 (He Yan) 박사
소속:케임브리지 대학교 도서관 중국 섹션 책임자






언제(When)


초기 구상 및 학습(2020년 여름)
웹사이트 구축을 위한 초기 아이디어와 데이터 수집, 코딩 작업 독학이 2020년 여름부터 시작 되었다.
핵심 기술 개발(2021년~)
2021년부터는 갑골문 자형 폰트 생성 및 자동 트레이싱 기술 연구 개발에 집중했습니다.
이 기간에 매일 200-500자의 갑골문 자형을 수정하며 데이터베이스 구축 작업을 수행했다.
박사 과정 연구(2022년~)
케임브리지 대학교 박사 과정에 입학하여 루얼 스터크스 교수의 지도를 받으며 연구를 하고 있다.
공식 출시 및 업데이트(2024년)
Jingyuan Oracle Bone Font라는 이름의 폰트가 2024년 7월30일에 저작권으로 등록되었다.
2024년 10월 5일에 Jingyuan Oracle Bone Font v1.0.1이 출시되고 주요 기능이 추가되었다
2024년 10월 15일에는 탁본-판독문 통합 뷰어 페이지가 출시되었다.





어디서(Where)


웹사이트는 진패조(Qin Peicho)가 직접 데이터를 구축하고 수집했다.

핵심 학술 편찬물
웹사이트의 핵심인 50000개 이상의 갑골물 자형 데이터베이스는 기존의 권위 있는 갑골문 자형 모음집을 기반으로 한다.
리종쿤(Li Zhongkun)교수의 갑골문자편(Oracle Bone Character Compliation, 甲骨文字編에 포함된 모든 문자를 수집했다.
또한 신갑골문편(Xin jiaguwen bian, 新甲骨文編)과 같은 다른 주요 편찬물 및 원본 탁본을 참조하여 데이터를 보완하고 수정했다.
그리고 또한 개발자 본인이 매일 200-500자의 갑골문 자형을 직접 벡터 이미지로 트레이싱(따라 그리기)하는 작업을 수행했다.


연구에 도움을 준 기관
프로젝트는 개인이 구성하였지만 도와준 기관들로는 안양사범대학교, 중국 사회과학원 선진사 연구부, 텐센트 SSV 연구소, 케임브리지 대학교 도서관, 텐센트 클라우드와 화웨이 클라우드 쉬창 슈퍼컴퓨팅 센터 등이 있다.



무엇을(What)


Oracle Digital Platform은 갑골문 연구를 위한 디지털 인문학 프로젝트로, 컴퓨터 그래픽 처리 기술(CV), 자연어 처리(NLP), 딥러닝, 풀스택 웹 기술을 포함한 디지털 방식을 통해 갑골문 연구의 기술적, 난해한 영역과 문제점을 체계적으로 디지털화, 분석, 연구하는 것을 목표로 한다. 현재 단계에서는 주로 갑골문 글꼴, 갑골문 문자 데이터베이스, 갑골문 입력 방식 등에 중점을 두고 있다.


첫 페이지부터 갑골문 글꼴을 다운받을 수 있다.
[2]글꼴은 또한 SIL 오픈 폰트 라이선스에 따라 라이선스가 등록이 되어있다.
Oracle download1.png


字库(문자 데이터베이스) 페이지
3,700개 이상의 "그래프"와 5,500개 이상의 "하위 그래프"를 포함하여 50,000개 이상의 오라클 본 글리프가 포함되어 있으며, 모두 2048*2048 픽셀 이상의 해상도로 선명도를 유지하면서 렌더링할 수 있습니다.
글꼴들은 Graph, subgraph, varient 3단계의 계층으로 나뉘어져 있다.
Oracle database.png


统计图表(통계 차트) 페이지
대표 글자,하위 글자, 글꼴 모양, 구성 요소의 개수를 볼 수 있고 아래에는 글꼴을 만들거나 수집할 때 참고하고 인용한 문헌들이 어디서 왔는지 분포에 대한 차트와 수지뵌 글꼴들을 특정 기준으로 나누었을 때 각 그룹이 얼마나 많은 비중을 차지하는지에 대한 차트가 있다.
Oracle chart.png


待收字形(처리 대기중인 글꼴) 페이지
경원 문자 데이터베이스에 수록 대기 중인 갑골문 자형 목록을 보여준다.
Oracle list.png


释文库(다중 모드 통합 갑골문 마찰-전사 보기) 페이지
총 10,077개의 마찰 이미지, 21,941개의 문장, 115,319개의 문자가 포함되어 있으며 이미지를 검사할 수 있는 디스플레이 인터페이스는 물론 고대 및 현대 갑골문 마찰 전사의 형태도 제공한다.
이미지와 필사된 문자는 [3]다중 모드 오라클 본 데이터세트 의 레이블이 지정된 데이터에서 전적으로 소싱 및 생성되었다.
Oracle trans.png


全球甲骨分布图(국가별 갑골 소장 현황표) 페이지
전 세계 주요 기관들이 보유하고 있는 갑골문의 현재 분포를 보여준다. 통계는 쑨야빙의 [4]"지난 세기 갑골 재료 재통계"와 거량의 "지난 120년간 갑골 재료 예비 통계"를 기반으로 작성되었다.
Oracle map.png


甲骨大事年表(갑골 관련 주요 사건 연표) 페이지
갑골 관련의 주요 사건을 1899년부터 2024년까지 연표로 정리 해놓았다.
Oracle time.png


镜原甲骨智能输入法(경원 갑골 지능형 입력기) 페이지
Shang Oracle Bone 스크립트 시스템용으로 설계된 강력한 텍스트 편집기이다. 갑골문 글꼴 데이터베이스를 기반으로 엄격하고 느슨한 표준화 쌍 자동 일치, 단어 및 숙어 자동 완성, 병음 입력, 구성 요소 입력, 마우스 오버 시 빠른 링크 탐색 등 여러 기능을 구현했다.
Oracle key.png





어떻게(How)


字库(문자 데이터베이스) 페이지에서는 8가지의 쿼리 모드를 제공한다.
[5]자세한건 링크 참고
1.Standardization
현대 문자 대응 기능이고 현재 언어로 车", "車", "che"를 모두 사용하여 "車" 문자를 찾을 수 있다.
Database1.png

2. Component

다른 문자에서 구성 요소로 사용된 문자를 허용한다
Component.png

3. Corpus No

일반적으로 사용되는 오라클 본 코퍼스 및 컬렉션의 마찰 번호를 기반으로 검색을 지원한다.
Corpus.png

4. Moxi No

甲骨文摹本大系 시리즈의 참조 번호를 검색하고 숫자로만 검색을 지원한다.
Moxi no.png

5. Zibian No

甲骨文字编 출판물의 색인 번호이며 "合文 123"과 같은 숫자와 접두사를 지원한다.
Zibian.png

6. Xibian Page No

新甲骨文编의 페이지 번호는 숫자로만 검색을 지원한다.
Xibian page no.png

7. Gulin No

甲骨文字诂林 출판물의 색인 번호는 숫자로만 검색을 지원한다.
Gulin.png

8. UID

"고유 식별자" 쿼리 모드이다. 이 데이터베이스의 각 문자는 고유 UID 번호를 가지며, 이를 사용하여 해당 문자를 직접 쿼리할 수 있다.
Uid.png


첫화면에서 tools창에 들어가면 텍스트 편집기가 나오는데 텍스트 편집기도 세가지의 기능이 있다.[6]자세한 설명은 사이트에 나와있다.
간단하게 설명하자면 Default Mode, @Substitue Mode, %Component_Input가 있다.

1. Default Mode

편집기에서 정상적으로 입력할 때 활성화된다.
Default.png

2. @Substitute Mode

(임의로 정의된 문자) 에 의해 트리거되며 , 주로 동일한 문자의 대체 형태를 제공하는 데 사용된다.
Default.png

3. %Component_Input

특수 문자% 에 의해 트리거되는데  %문자는 분할을 의미한다.
Default.png



왜(Why)


1. 표준화된 데이터베이스의 부재
표준화된 갑골문 폰트(자형)데이터 베이스와 판독문(transcritions)데이터 베이스가 심각하게 부족했다.

2. 검색의 비효율성
연구자가 원하는 특정 글자나 관련 해독 문헌을 찾는 것이 매우 비효율적이고 고통스러운 작업이었다.

3. 입력의 한계
오랫동안 마이크로소프트 워드 같은 일반 프로그램에서 갑골문자를 타이핑하는 것조차 불가능했다.

4. 기존 자료의 노후화
기존에 존재하던 디지털 데이터베이스는 내용이 오래되었고, 글자 인코딩 문제 등으로 인해 업데이트가 어려워 연구에 한계가 있었다.

5. 개인적인 소감
처음에는 다른 주제를 가지고 하려고 했으나 적어낼 내용이 마땅치 않았다. 갑골문에 대한 이야기는 내용이 많을 것 같았고 갑골문과 관련된 수업도 듣고 있기 때문에 도움이 될 것이라고 생각했다.
또한 연구자가 느낀 갑골문을 워드 파일에 옮길 때 깨지는 문제를 똑같이 겪고 있었기 때문에 더욱 흥미롭게 느껴졌다.
이 사이트를 보면서 고대 자료들을 연구하는 것이 상당히 중요하다는 것을 깨달았고 연구가 사람들의 불편함을 해소할 수 있음을 다시한번 깨달았다.



주석