인용관계 그래프를 텍스트와 함께 보여준다면, 번역이 되지 않은 경학 자료라도 연구자들이 좀더 빠르게 문맥을 파악하는데 도움을 줄 수 있을 것이다. 이에 본 연구의 결과물로서 인명 및 서명 등을 표시한 XML 문서와 인용관계를 정리한 근거가 되는 Excel 데이터, 그리고 테이블 데이터를 직관적으로 파악할 수 있는 네트워크 그래프를 DocuSky에서 구축해 보았다. 또 모든 연구과정에서 나온 결과물인 각 주석서 학이편의 인용관계를 그래프는 한국학중앙연구원 디지털인문학연구소 Wiki의 Make-Graph로 아카이브할 예정이다.
DocuSky는 ‘정보공학과 디지털 고전과 자동 추론 실험 프로젝트’라는 주제로 項潔(Jieh Hsiang) 교수의 주관 하에 杜協昌(Hsieh-Chang Tu) 박사가 설계 및 개발을 담당하고 있는 국립대만대학교 디지털인문학 연구센터의 ‘디지털 인문학술 연구플랫폼’이다. 대만대학 디지털인문학연구센터는 2016년 12월에 DADH에서 사용자 본인이 직접 필요한 자료를 데이터베이스로 구축하고 분석할 수 있는 플랫폼 개발에 대한 구상을 발표했고, 2018년 DADH 본회 개막 하루 전에는 다큐스카이 사용법에 관한 사전워크숍 프로그램을 열기도 했다. 2023년부터 Docusky 한국어판이 서비스되기 시작했으며, 2023년과 2024년 7월에는 각각 부산 경성대학교와 성균관대학교에서 국립대만대학교 디지털인문학연구소 연구원인 I-Mei Hung(洪一梅), Te-Chi Tsao(曹德啓) 박사 및 Chi-Jui Hu(胡其瑞) 교수가 직접 한국을 방문하여 5일간 다큐스카이 활용에 관한 워크샵을 진행하는 등, 디지털인문학 연구자에게 널리 보급해서 활용도를 높이는 노력이 진행되고 있다.
다큐스카이는 개인이 보유한 연구문헌 텍스트 파일을 개인 데이터베이스에 구축할 수 있도록, 텍스트파일 태깅, XML형식으로 파일변환, 메타데이터 삽입의 세 단계를 거쳐 자료를 업로드 할 수 있도록 전 과정에 대한 프로그램을 제공한다. 또한 검색과 분석, GIS, 시각화 도구를 제공하고 있어, 데이터베이스 구축 후에도 자료 분석과 연구가 가능하다. 이러한 솔루션은 디지털 인문학 연구에 적합한 시스템 기반이 없는 연구자들이 자체적으로 연구를 실현시킬 수 있도록 하므로, 데이터베이스 구축의 주체를 기관에서 개인으로 확장하는 기반을 마련했다는 측면에서 대만 디지털인문학이 또다른 단계로 진화하는 토대를 구축했다고 할 수 있다.아래의 그림은 다큐스카이에서 개인 데이터베이스를 구축했을 때의 모습이다. DocuXML로 되어 있는 텍스트 문서를 업로드 하면 <그림22>의 왼쪽과 같이 『사변록·논어』의 텍스트가 보여지고, 인용 관계를 정리한 Excel파일을 업로드했다면, 오른쪽 상단에 Commend 버튼을 눌렀을 때 인용관계에 대한 테이블 데이터가 텍스트 옆에 나타난다. 테이블 위에 있는 二元關聯圖(이원관계도)를 클릭하면 단락별로 인용관계망을 볼 수 있고, 우측상단의 그래프 버튼을 클릭하면 <그림23>과 같이 각 단락의 관계망이 하나로 합쳐진 전체 관계망을 확인할 수 있다.
『사변록·논어·학이편』을 예시로 한 Docusky 시각화
개인 연구자의 다양한 요구에 따라 개인 자료를 정리 및 분석이 가능하지만, 인문자료에 관한 완전한 데이터베이스가 구축이 되어 관계자에게 공개를 요청해야만 다른 연구자들과 공유가 가능하다는 단점이 있다. 그럼에도 불구하고 텍스트에서 MARKUS를 활용해 텍스트의 서명과 인명 등을 보여줄 수 있고, 각 문맥 요소들을 테이블과도 연동시켜 개별적인 확인까지 가능하다. 박세당의 『사변록·논어』 해석의 경우, 다큐스카이에서 박세당의 『논어』 인용관계를 연구한 경학자료가 중화권의 여러 학자들에게 공개된다면, 인용관계를 연구하는 디지털 방법론도 공유할 수 있을 뿐더러, 주자학 일변도라고 여겨지는 한국 경학의 인식을 바꿀 수 있는 기회가 될 것이라 생각하기 때문에 『사변록·논어』 전편을 위와 같이 DB화 하고자 한다.
미디어위키(MediaWiki)는 웹상에서 무료로 배포되는 오픈소스 소프트웨어로서 위키피디아(Wikipedia)의 엔진 플랫폼이기도 하다. 오픈 소스 소프트웨어의 특성상 개발과 개선이 꾸준히 이루어지고 있으며, 확장 기능(Extension)을 이용해 여러 옵션을 데이터베이스에 추가할 수 있다. 위키 마크업이라 불리는 언어를 사용하며 위키에서 생성된 정보를 MS SQL, MariaDB, SQLite와 같은 관계형 데이터베이스에 저장해 관리할 수 있는 것이다. 위키는 하이퍼링크(hyperlink)를 통해 웹페이지를 연결하는 하이퍼텍스트(hypertext) 기능을 갖추고 있다. 그리고 위키는 하이퍼링크 기능을 효율적으로 활용하기 위해 인덱싱 기능의 ‘분류(category)’와 일관된 형식으로 문서를 작성할 수 있는 ‘템플릿(template)’ 기능을 제공한다. 또한 위키는 지도나 동영상과 같은 미디어 형식의 자료에도 하이퍼링크 기능을 지원하기 때문에, 멀티미디어 환경에서 정보와 지식을 효과적으로 조직하고 표현할 수 있는 확장성(extension)을 갖추고 있다.
위키를 통해 편찬된 인문 데이터를 가공해 본격적인 데이터 시각화 결과물을 구현한 사례로 「데이터로 다시 읽는 조선시대 양반의 일상: 『지암일기』 디지털 아카이빙 연구」를 들 수 있다. 해당 연구는 『지암일기』를 대상으로 8만 2천여 건의 시맨틱 데이터를 편찬해 GraphDB와 LOD를 구축하고 데이터 시각화 결과물을 구현하였는데, 『지암일기』 원문 및 번역문 위키는 그러한 정교한 작업을 가능케 한 기초 데이터베이스이다. 해당 위키는 온톨로지 설계 내용에 입각한 XML 스키마를 토대로 구현되었는데, XML 스키마에 기초한 위키 페이지의 서술 형식을 디자인하고, 해당 형식을 기준으로 『지암일기』를 탈초·번역한 8명의 연구자가 분담해 원문과 번역문 텍스트를 입력하고, 그로부터 유의미한 데이터를 마크업하는 과정을 약 1년간 지속한 끝에 나온 결과물이다.
다음은 『사변록』·『녹문집』·『경사강의』의 내용에서 인용관계라는 의미에 기반하여 Wiki에서 작성한 그래프의 예시이다.
위의 그래프는 사실 세계에 있는 시맨틱 모델링을 통해 데이터가 만들어지기 위해서는 모델링의 명세서라고 할 수 있는 온톨로지가 필요한데, 위의 그래프는 온톨로지를 기반으로 박세당과 임성주, 정조의 학이편 인용관계를 각 주석서별로 각각 시맨틱 데이터로 만든 후에 하나의 중심어(Keyword)로 이를 통합했을 때의 그래프이다. 이 그래프는 노드마다 링크를 통해 텍스트가 있는 다른 사이트로 이동도 편리하고, 데이터를 지속적으로 확장할 수 있기 때문에 앞으로 『맹자』·『대학』·『중용』 등 각 주석자들의 다른 주석서의 인용 관계도 상호 연결하여 살펴볼 수 있다.
또한 시맨틱 데이터 형식으로 큐레이팅 된 데이터는 인공지능이 효과적으로 처리하고 이해하며 활용할 수 있는 데이터이기도 하다. LLM(Large Language Model, 거대 언어 모델) 타입의 인공지능에게 시맨틱 데이터를 제공하여 자연어 내러티브(이야기 형식의 문장)를 생성하게 하고, 그 결과에 대해 품질을 평가하여 의도한 내러티브가 생성될 수 있도록 데이터 세터의 구성을 변경하거나 새로운 문맥 데이터를 추가할 수 있다. 이렇게 목표 수준의 우수한 내러티브가 산출될 때까지 이 과정을 반복적으로 수행하는 방식으로 인공지능과 협업하여 방대한 양의 경학 텍스트를 학습시킬 수 있다.