데이터 시대의 『임원경제지』 편찬 모델
김현 한국학중앙연구원 인문정보학 교수 |
목차
머리말
임원경제연구소 연구진들의 18년간 치열한 노력으로 ‘조선 최고의 실용대백과사전’, 『임원경제지』의 현대한국어 번역이 상당 부분 진행되었고, 2024년에는 완역의 결실이 맺어질 예정이다. 그 결과물은 거질의 인쇄된 책자로도 간행되겠지만, 이 기념비적인 저작물의 내용이 실제적으로 활용될 수 있게 하는 길은 당연히 21세기의 지식사회에서 유효한 디지털적인 방법으로 찾아야 할 것이다.
디지털로 소통하는 시대에 디지털 매체를 통해 지식을 전파하고자 한다면, 그 매체에 이 지식을 어떻게 담아야 하고, 그로 인해 어떠한 효과를 거둘 것인지에 대한 고민이 필요하다. 이 발표는 「임원경제지」 전체의 정본화 텍스트와 현대한국어 번역 성과를 21세기의 독자들에게 실제적으로 전달할 ‘21세기 버전 디지털 판 임원경제지’의 설계 모델을 제시하려는 것이다.
데이터 시대의 인문지식 정보화: ‘문헌의 정보화’에서 ‘지식의 정보화’로
오늘날의 고전 정보화는 21세기 시점에서 유효한 방법으로 수행하는 고전 텍스트 편찬사업이어야 한다. 과거에 만들어진 문헌을 디지털 미디어에 전사하는 일을 넘어서서, 문헌에 담긴 옛 지식을 찾아서 그것이 오늘날에 효용성 있게 쓰일 수 있는 방법으로 재조직하는 것을 지향해야 한다는 것이다.
임원경제지 시맨틱 데이터베이스 구현 전략
단순히 데이터를 저장하고 저장된 텍스트에 대한 문자열 검색 서비스를 제공하는 종래의 고전 자료 데이터베이스의 수준을 넘어서서, 텍스트 속의 문맥 요소를 식별하고, 이를 매개로 다른 데이터베이스의 유관 자료를 찾아서 제공해 줄 수 있는 기능의 발전된 데이터베이스를 ‘시맨틱 데이터베이스’라고 한다.[1] 임원경제지 시맨틱 데이터베이스 구현을 위한 기본 전략을 다음과 같이 제시한다.
1. 임원경제지의 텍스트 편성 체계를 그대로 따르는 형태의 데이터베이스①와 임원경제지 속의 지식 요소를 그 다각적인 문맥으로 살필 수 있는 데이터베이스②를 이원적으로 구현한다.
※ 편의상 데이터베이스 ①은 ‘임원경제지 데이터’, 데이터베이스 ②는 ‘임원경제 사전 데이터’라고 부르기로 한다. 후자를 ‘사전’이라고 명명하는 이유는 『조선왕조실록』에 대한 『조선왕조실록 사전』의 역할처럼 원전 문헌 속의 지식 요소들을 추출하고 그 내용을 체계적으로 정리해서 보여주는 기능을 수행할 수 있기 때문이다.
2.‘임원경제지 데이터’(데이터베이스①)과 ‘임원경제 사전 데이터’(데이터베이스②)는 유기적으로 연계되어 있어서 어느 곳에서나 서로 참조될 수 있도록 한다.
※‘임원경제지 데이터’를 통해 원저작물의 편제를 따라가다가 특별한 대상에 대해 다각적으로 알고자 할 때에는 바로 그것과 연관된 다양한 지식 요소들을 ‘임원경제 사전 데이터’의 데이터 네트워크 속에서 살필 수 있다. 반대로, ‘임원경제 사전’에 수록된 모든 지식 정보들은, 그것이 ‘임원경제지’의 텍스트 속에서 어떠한 맥락에서 어떤 의미로 언급되었는지를 확인할 수 있다.
3.‘임원경제지 데이터’는 서종, 권차, 장, 절, 항, 목 등의 편찬 체계뿐 아니라, 인용문과 참고문헌을 명확한 데이터로 기술함으로써, 지식의 연원과 변천을 추적·분석할 수 있도록 한다.
4.‘임원경제 사전 데이터’는 ‘임원경제지’ 텍스트 안에 담긴 지식 요소뿐 아니라, 그것을 이해하고 설명하는 데 필요한 유관 지식까지 포함한다. 단, ‘임원경제 사전’ 편찬의 시작 단계에서는 기존의 『임원경제지』 번역 과정에서 생산한 ‘주석’의 내용을 중점적으로 지식요소화하는 방법을 취할 수 있다.
5.‘임원경제 사전 데이터’는 온라인 상에서 접근 가능한 유관 지식을 바로 연결해 볼 수 있도록 ‘온라인 참조’ 기능을 강화한다. 특히 『임원경제지』에 수록된 내용을 시각적으로 확인할 수 있는 도해와 유물 사진 등을 지속적으로 확충할 수 있게 한다.
6.‘임원경제 사전 데이터’는 궁극적으로 크라우드 환경에서 이용자들에 의해 지속적으로 콘텐츠의 연계 범위가 확대되게 함으로써, 고금동서의 다양한 백과사전적 지식과의 통섭을 지양한다.
임원경제지 시맨틱 데이터베이스 모델 설계
시맨틱 데이터베이스에 대한 논의가 이론에 머물거나 추상적인 계획에 그치지 않기 위해서는 그것을 실제적으로 구현할 수 있게 하는 구체적인 데이터 모델이 마련되어야 한다. 필자는 임원경제연구소 연구진들의 협조를 받아 디지털 임원경제지의 구현을 위한 데이터 모델 설계의 초안을 마련하였다.
온톨로지
임원경제지 시맨틱 데이터베이스 모델은 기본적으로 온톨로지(ontology)[2] 개념에 입각하여 만들어진 네트워크 데이터베이스 모델이다. 정보 요소 하나하나가 서로에 대해 어떤 의미의 관계가 있는지를 보여 주기 때문에 ‘의미 기반 데이터베이스’(Semantics-based Database, Semantic Database)라고도 한다. ‘ 넓은 의미에서는 모든 정보화의 틀이 다 온톨로지일 수 있겠지만, 대상 자원을 ‘클래스’(class)로 범주화하고, 각각의 클래스에 속하는 개체(individuals)들이 공통의 ‘속성’(attribute)을 갖도록 하고, 그 개체들이 다른 개체들과 맺는 ‘관계’(relation)를 명시적으로 기술하는 것이 가장 일반적인 온톨로지 설계 방법이라고 할 수 있다.
- 온톨로지 설계 용어
온톨로지 구성 요소
(권장 용어) |
용도[3] | Web Ontology Language
(OWL) |
---|---|---|
Class, 클래스 | 공동의 속성을 가진 개체들을 묶는 범주
a group of individuals that belong together because they share some properties. |
owl:Class |
Individual, 개체 | 클래스에 속하는 개체
Instances of classes |
owl:NamedIndividual |
Relation, 관계 | (같거나 다른 클래스에 속하는) 개체들 사이의 관계
relationships between pairs of individuals |
owl:ObjectProperty |
Attribute, 속성 | 개체가 속성으로 갖는 데이터 값
relationships from individuals to data values |
owl:DatatypeProperty |
Relation Attribute, 관계 속성 | 관계 정보에 부수되는 속성
attributes related to relations |
N/A in OWL
Can be used when you implement Graph Database with Cypher Query Language. |
Domain, 정의역 | 특정 ObjectProperty 또는 DatatypeProperty의 주어가 될 수 있는 클래스를 한정
A domain of a property which limits the individuals to which the property can be applied |
rdfs:domain |
Range, 치역 | 특정 ObjectProperty의 목적어가 될 수 있는 클래스를 한정
The range of a property limits the individuals that the property may have as its value |
rdfs:range |
클래스 설계
임원경제 시맨틱 데이터베이스 모델은 앞 장의 ‘시맨틱 데이터베이스 구현 전략’에서 언급한 ‘임원경제지 데이터’와 ‘임원경제지 사전 데이터’의 이원적 구조 및 쌍방간의 유기적 연계를 전제로 구상하였다. 이 관계를 그림으로 도시하면 다음과 같다.
임원경제지 데이터 | 임원경제 사전 데이터 |
---|---|
임원경제지의 텍스트 편제와 일치하는 계층적 데이터 구조 | 임원경제지에 수록된 지식 요소들의 의미론적 맥락을 데이터워크 데이터로 구현 |
- ↑ 시맨틱 데이터베이스(Semantic Database)라는 말은 다의적으로 쓰일 수 있으나, 이 글에서 의미하는 것은 ‘시맨틱 웹(Semantic Web) 개념의 데이터베이스’ 또는 ‘시맨틱 웹의 구성 요소가 될 수 있는 데이터베이스’이다.
시맨틱 웹이란 컴퓨터가 인식할 수 있도록 명확한 의미를 부가한 데이터의 웹이다. 컴퓨터가 인식할 수 있는 데이터 기술 규칙을 만드는 것은 정보기술의 영역에서 추구할 과제이지만, 그 규칙을 응용하고 확장하여 미래의 사이버 공간에서 인문지식이 소통될 수 있도록 만드는 것은 디지털 인문학자들의 과제이다. (김현 외, 『디지털 인문학 입문』 , HUBOOKs, 2016. p. 147.) - ↑ 온톨로지’란 정보화의 대상이 되는 세계를 전자적으로 표현할 수 있도록 구성한 데이터 기술 체계이다. 정보기술 분야에서 말하는 ‘온톨로지(ontology)’에 대한 가장 일반적인 정의는 그루버(Gruber, Thomas. 1959~ )가 말한 ‘명시적 명세화의 방법에 의한 개념화’(explicit specification of a conceptualization)이다. (Gruber, ‘A Translation Approach to Portable Ontology Specifications’, Knowledge Systems Laboratory Technical Report KSL 92-71, Stanford University, 1992) 여기서 ‘개념화’(conceptualization)라는 것은 정보화하고자 하는 대상 세계를 일정한 체계 속에서 파악하는 것, 예를 들면 그 세계에 무엇이 있고, 그것은 어떤 속성을 품고 있으며, 그것들 사이의 관계는 무엇인가 하는 일정한 질문의 틀 속에서 대상 세계를 이해하는 방식이라고 할 수 있다. ‘명세화’(specification)란 대상 세계에 존재하는 개체, 속성, 관계 등을 일목요연한 목록으로 정리하는 것, 그리고 ‘명시적’(explicit)이라는 그 정리된 목록을 사람뿐 아니라 ‘컴퓨터가 읽을 수 있도록’(machine readable) 한다는 것이다.
- ↑ OWL Web Ontology Language Overview, W3C Recommendation