데이터 시대의 『임원경제지』 편찬 모델

pungseok
이동: 둘러보기, 검색
2020-09-03QR.png


머리말

임원경제연구소 연구진들의 18년간 치열한 노력으로 ‘조선 최고의 실용대백과사전’, 『임원경제지』의 현대한국어 번역이 상당 부분 진행되었고, 2024년에는 완역의 결실이 맺어질 예정이다. 그 결과물은 거질의 인쇄된 책자로도 간행되겠지만, 이 기념비적인 저작물의 내용이 실제적으로 활용될 수 있게 하는 길은 당연히 21세기의 지식사회에서 유효한 디지털적인 방법으로 찾아야 할 것이다.

디지털로 소통하는 시대에 디지털 매체를 통해 지식을 전파하고자 한다면, 그 매체에 이 지식을 어떻게 담아야 하고, 그로 인해 어떠한 효과를 거둘 것인지에 대한 고민이 필요하다. 이 발표는 「임원경제지」 전체의 정본화 텍스트와 현대한국어 번역 성과를 21세기의 독자들에게 실제적으로 전달할 ‘21세기 버전 디지털 판 임원경제지’의 설계 모델을 제시하려는 것이다.

데이터 시대의 인문지식 정보화: ‘문헌의 정보화’에서 ‘지식의 정보화’로

오늘날의 고전 정보화는 21세기 시점에서 유효한 방법으로 수행하는 고전 텍스트 편찬사업이어야 한다. 과거에 만들어진 문헌을 디지털 미디어에 전사하는 일을 넘어서서, 문헌에 담긴 옛 지식을 찾아서 그것이 오늘날에 효용성 있게 쓰일 수 있는 방법으로 재조직하는 것을 지향해야 한다는 것이다.

문헌의 정보화 지식의 정보화
문헌의 정보화.jpg 지식의 정보화.jpg
‣ 지금까지의 고전 자료 정보화는 책에 담긴 지식을 정보화하기보다는 종이 매체로 만들어진 문헌을 정보화 하는 것으로 이해
‣ 대상 문헌의 내용과 편찬 체계를 그대로 디지털 저작물 형태로 복원
‣ 종이 책이 채용한 형식에 얽매이지 않고 그 속의 담긴 지식의 활용성을 증대시킬 수 있는 디지털화
‣ 정보화의 대상이 되는 고전 자체에서 유의미한 데이터를 찾아내고, 그 데이터의 특성에 적합한 디지털화 방법을 강구

임원경제지 시맨틱 데이터베이스 구현 전략

단순히 데이터를 저장하고 저장된 텍스트에 대한 문자열 검색 서비스를 제공하는 종래의 고전 자료 데이터베이스의 수준을 넘어서서, 텍스트 속의 문맥 요소를 식별하고, 이를 매개로 다른 데이터베이스의 유관 자료를 찾아서 제공해 줄 수 있는 기능의 발전된 데이터베이스를 ‘시맨틱 데이터베이스’라고 한다.[1] 임원경제지 시맨틱 데이터베이스 구현을 위한 기본 전략을 다음과 같이 제시한다.

1. 임원경제지의 텍스트 편성 체계를 그대로 따르는 형태의 데이터베이스①와 임원경제지 속의 지식 요소를 그 다각적인 문맥으로 살필 수 있는 데이터베이스②를 이원적으로 구현한다. 

※ 편의상 데이터베이스 ①은 ‘임원경제지 데이터’, 데이터베이스 ②는 ‘임원경제 사전 데이터’라고 부르기로 한다. 후자를 ‘사전’이라고 명명하는 이유는 『조선왕조실록』에 대한 『조선왕조실록 사전』의 역할처럼 원전 문헌 속의 지식 요소들을 추출하고 그 내용을 체계적으로 정리해서 보여주는 기능을 수행할 수 있기 때문이다.

 2.‘임원경제지 데이터’(데이터베이스①)과 ‘임원경제 사전 데이터’(데이터베이스②)는 유기적으로 연계되어 있어서 어느 곳에서나 서로 참조될 수 있도록 한다. 

※‘임원경제지 데이터’를 통해 원저작물의 편제를 따라가다가 특별한 대상에 대해 다각적으로 알고자 할 때에는 바로 그것과 연관된 다양한 지식 요소들을 ‘임원경제 사전 데이터’의 데이터 네트워크 속에서 살필 수 있다. 반대로, ‘임원경제 사전’에 수록된 모든 지식 정보들은, 그것이 ‘임원경제지’의 텍스트 속에서 어떠한 맥락에서 어떤 의미로 언급되었는지를 확인할 수 있다.

 3.‘임원경제지 데이터’는 서종, 권차, 장, 절, 항, 목 등의 편찬 체계뿐 아니라, 인용문과 참고문헌을 명확한 데이터로 기술함으로써, 지식의 연원과 변천을 추적·분석할 수 있도록 한다. 
 4.‘임원경제 사전 데이터’는  ‘임원경제지’ 텍스트 안에 담긴 지식 요소뿐 아니라, 그것을 이해하고 설명하는 데 필요한 유관 지식까지 포함한다.  단, ‘임원경제 사전’ 편찬의 시작 단계에서는 기존의 『임원경제지』 번역 과정에서 생산한  ‘주석’의 내용을 중점적으로 지식요소화하는 방법을 취할 수 있다. 
 5.‘임원경제 사전 데이터’는  온라인 상에서 접근 가능한 유관 지식을 바로 연결해 볼 수 있도록 ‘온라인 참조’ 기능을 강화한다. 특히 『임원경제지』에 수록된 내용을 시각적으로 확인할 수 있는 도해와 유물 사진 등을 지속적으로 확충할 수 있게 한다. 
 6.‘임원경제 사전 데이터’는 궁극적으로 크라우드 환경에서 이용자들에 의해 지속적으로 콘텐츠의 연계 범위가 확대되게 함으로써, 고금동서의 다양한 백과사전적 지식과의 통섭을 지양한다.

임원경제지 시맨틱 데이터베이스 모델 설계

시맨틱 데이터베이스에 대한 논의가 이론에 머물거나 추상적인 계획에 그치지 않기 위해서는 그것을 실제적으로 구현할 수 있게 하는 구체적인 데이터 모델이 마련되어야 한다. 필자는 임원경제연구소 연구진들의 협조를 받아 디지털 임원경제지의 구현을 위한 데이터 모델 설계의 초안을 마련하였다.

온톨로지

임원경제지 시맨틱 데이터베이스 모델은 기본적으로 온톨로지(ontology)[2] 개념에 입각하여 만들어진 네트워크 데이터베이스 모델이다. 정보 요소 하나하나가 서로에 대해 어떤 의미의 관계가 있는지를 보여 주기 때문에 ‘의미 기반 데이터베이스’(Semantics-based Database, Semantic Database)라고도 한다. ‘ 넓은 의미에서는 모든 정보화의 틀이 다 온톨로지일 수 있겠지만, 대상 자원을 ‘클래스’(class)로 범주화하고, 각각의 클래스에 속하는 개체(individuals)들이 공통의 ‘속성’(attribute)을 갖도록 하고, 그 개체들이 다른 개체들과 맺는 ‘관계’(relation)를 명시적으로 기술하는 것이 가장 일반적인 온톨로지 설계 방법이라고 할 수 있다.

  • 온톨로지 설계 용어
온톨로지 구성 요소

(권장 용어)

용도[3] Web Ontology Language

(OWL)

Class, 클래스 공동의 속성을 가진 개체들을 묶는 범주

a group of individuals that belong together because they share some properties.

owl:Class
Individual, 개체 클래스에 속하는 개체

Instances of classes

owl:NamedIndividual
Relation, 관계 (같거나 다른 클래스에 속하는) 개체들 사이의 관계

relationships between pairs of individuals

owl:ObjectProperty
Attribute, 속성 개체가 속성으로 갖는 데이터 값

relationships from individuals to data values

owl:DatatypeProperty
Relation Attribute, 관계 속성 관계 정보에 부수되는 속성

attributes related to relations

N/A in OWL

Can be used when you implement Graph Database with Cypher Query Language.

Domain, 정의역 특정 ObjectProperty 또는 DatatypeProperty의 주어가 될 수 있는 클래스를 한정

A domain of a property which limits the individuals to which the property can be applied

rdfs:domain
Range, 치역 특정 ObjectProperty의 목적어가 될 수 있는 클래스를 한정

The range of a property limits the individuals that the property may have as its value

rdfs:range

클래스 설계

임원경제 시맨틱 데이터베이스 모델은 앞 장의 ‘시맨틱 데이터베이스 구현 전략’에서 언급한 ‘임원경제지 데이터’와 ‘임원경제지 사전 데이터’의 이원적 구조 및 쌍방간의 유기적 연계를 전제로 구상하였다. 이 관계를 그림으로 도시하면 다음과 같다.

임원경제지 데이터 임원경제 사전 데이터
임원경제데이터 2원구조.jpg
임원경제지의 텍스트 편제와 일치하는 계층적 데이터 구조 임원경제지에 수록된 지식 요소들의 의미론적 맥락을 데이터워크 데이터로 구현

이러한 기본 구도에 입각하여 임원경제지 시맨틱 데이터베이스를 위한 온톨로지의 클래스를 다음과 같이 정의하였다.

Class Sub-Class
임원경제지 분야(Area), 기사(Article), 문장(Text), 인용(Quotation), 전거(Reference), 주석(Annotation)
임원경제 사전 인물(Actor), 사물(Object), 장소(Place), 사건(Event), 기록물(Record), 개념(Concept)
웹 자원(WebResource) 해설, 참고, 사료, 사진, 그림, VR, 지도 ....

관계성 설계

각각의 클래스에 속하는 정보 요소 상호간의 관계성에 대한 정의이다.

a. 임원경제지 텍스트 편제를 표시하는 관계자

relation domain 정의역 range 치역 설명
hasSubCategory Area Area 상위 분야와 하위 분야의 관계를 표시
hasArticle Area Article 분야 표제와 기사 항목 관계를 표시
hasText Articel Text 기사 항목과 기사의 텍스트 (문단 단위) 관계를 표시
hasAnnotation Area, Text, Comment, Quotation, Reference Annotation 임원경제지 본문과 편집자 주석의 관계를 표시
hasComment Text Comment 기사 텍스트와 {안설}의 관계를 표시
isPreviousInSequence Text Text 기사 텍스트의 순서를 표시

b. 전거의 인용, 문헌의 참조를 표시하는 관계자

relation domain 정의역 range 치역 설명
hasQuotation Text Quotation 텍스트 속의 인용문 식별
hasReference Article Reference 기사 항목의 전고, 참고문헌

c. 문맥요소 상호간의 의미론적 연관관계를 표시하는 관계자[4]

relation domain 정의역 range 치역 설명
creator Record, Object Actor 문헌/작품의 저자
hasAlias * * 이칭
hasComponent Object Objec 본체-구성 요소 관계
hasMaintainingMethod Object Concept 유지방법
hasManufacturigMethod Object Concept 제작방법
hasMaterial Object Object 재료
hasPart * * 전체-부분의 관계
isKindOf * ** ~의 한 종류
isKnownFor * * ~로 알려지다 (유명하다)
isMentionedIn * Record ~에 언급되다
isOriginatedFrom * * ~에서 기원하다
isProcessedWith Object Concept (재료가) ~의 처리를 받다
isRelatioedTo * * 관계가 있다
isWornBy Object Actor ~가 착용하다
uses * * ~를 사용한다
.........

d. 문맥 요소(임원경제 사전 데이터)와 텍스트 요소(임원경제지 데이터)의 연관성을 표시하는 관계자

relation domain 정의역 range 치역 설명
hasExplanatoryArticle 임원경제_사전:* 임원경제지:Article 문맥요소와 임원경제지 기사 연계
appearsInAnnotationOf 임원경제_사전:* 임원경제지:Annotation 문맥요소와 임원경제지 주석 연계

e. 인터넷 상의 유관 자료 연계를 위한 관계자

relation domain 정의역 range 치역 설명
isShownAt 임원경제_사전 해설, 참고, 사료 인터넷 상의 웹 문서 연계
isShownBy 임원경제_사전 Photo, Illustration, VR, MAP 인터넷 상의 시각자료, 시스템 연계

임원경제지 시맨틱 데이터베이스 구현 예시

임원경제지 데이터

임원경제 사전 데이터



맺음말

시맨틱 데이터베이스의 구현을 위해서는 텍스트 속의 중요한 의미[5]를 식별해 내고, 그 요소들 사이의 의미론적 연관관계를 데이터로 기술하는 과정을 거쳐야 한다. 이 일은 우리가 현재 고전 번역을 위해 수행하는 고전 연구의 내용과 크게 다르지 않다.

고전 번역은 옛 언어로 기록된 사실과 사상을 정확하게 이해하는 과정이 선행되어야 한다. 번역(원문과 다른 언어로 텍스트를 기술하는 것)은 그 해석의 결과를 현대의 독자들에게 전달하기 위해서 하는 것이다. 그렇기 때문에 고전 번역에서는 문장을 문장으로 번역하는 것보다, 내용 해석을 위해 찾아낸 수많은 관련 지식을 역주의 형태로 제공하는 것이 더 중요한 과업이 된다.

해석과 주석 작업을 수반하는 고전 번역·편집 과정에서는 당연히 텍스트 속에 있는 지식의 단위 요소들-개념어, 고사성어, 인명, 지명, 인용전거 등-이 하나하나 식별되고 그 의미가 파악된다. 이 정보가 일정한 약속을 따르는 데이터로 기술되어서 새로운 의미를 찾는 조합과 구성이 가능하게 된다면 이것은 고전 번역 사업의 수행을 통해 시맨틱 데이터베이스를 편찬하는 일이 될 것이다.

이 발표를 통해 제시한 디지털 임원경제지 편찬 모델은 임원경제지의 번역 연구에 종사하고 있는 임원경제연구소의 연구진들이 지금까지 추구해 온 문서 생산 방식의 연구에서 데이터 생산 방식의 연구로, 번역 연구 수행의 방법을 변화시키는 데 도움을 드리고자 강구한 것이다. 임원경제연구소 연구소 연구진들이 이 데이터 모델을 앞으로 남은 임원경제지 번역 업무 수행 과정에서 실제로 운용해 보고, 지속적으로 검토•보완•확장해 나아간다면, 임원경제지 번역 사업 완료와 더불어 그 성과물의 디지털 데이터베이스 편찬•간행도 성공적으로 실현할 수 있으리라 기대한다.


  1. 시맨틱 데이터베이스(Semantic Database)라는 말은 다의적으로 쓰일 수 있으나, 이 글에서 의미하는 것은 ‘시맨틱 웹(Semantic Web) 개념의 데이터베이스’ 또는 ‘시맨틱 웹의 구성 요소가 될 수 있는 데이터베이스’이다.
    시맨틱 웹이란 컴퓨터가 인식할 수 있도록 명확한 의미를 부가한 데이터의 웹이다. 컴퓨터가 인식할 수 있는 데이터 기술 규칙을 만드는 것은 정보기술의 영역에서 추구할 과제이지만, 그 규칙을 응용하고 확장하여 미래의 사이버 공간에서 인문지식이 소통될 수 있도록 만드는 것은 디지털 인문학자들의 과제이다. (김현 외, 『디지털 인문학 입문』 , HUBOOKs, 2016. p. 147.)
  2. 온톨로지’란 정보화의 대상이 되는 세계를 전자적으로 표현할 수 있도록 구성한 데이터 기술 체계이다. 정보기술 분야에서 말하는 ‘온톨로지(ontology)’에 대한 가장 일반적인 정의는 그루버(Gruber, Thomas. 1959~ )가 말한 ‘명시적 명세화의 방법에 의한 개념화’(explicit specification of a conceptualization)이다. (Gruber, ‘A Translation Approach to Portable Ontology Specifications’, Knowledge Systems Laboratory Technical Report KSL 92-71, Stanford University, 1992) 여기서 ‘개념화’(conceptualization)라는 것은 정보화하고자 하는 대상 세계를 일정한 체계 속에서 파악하는 것, 예를 들면 그 세계에 무엇이 있고, 그것은 어떤 속성을 품고 있으며, 그것들 사이의 관계는 무엇인가 하는 일정한 질문의 틀 속에서 대상 세계를 이해하는 방식이라고 할 수 있다. ‘명세화’(specification)란 대상 세계에 존재하는 개체, 속성, 관계 등을 일목요연한 목록으로 정리하는 것, 그리고 ‘명시적’(explicit)이라는 그 정리된 목록을 사람뿐 아니라 ‘컴퓨터가 읽을 수 있도록’(machine readable) 한다는 것이다.
  3. OWL Web Ontology Language Overview, W3C Recommendation
  4. 문맥요소간의 관계를 정의하는 관계자는 본격적인 데이터 편찬 과정에서 보다 다양하게 만들어질 것이다. 참고: 한국학중앙연구원 디지털인문학연구소의 ’의 관계자 정의: EKC (Encyves of Korean Culture) Ontology
  5. 요소 의미 요소 (Semantic Elements), 또는 문맥 요소Contextual Elements): 텍스트의 문맥을 구성하는 키워드. ‘인명’, ‘지명’, ‘역사적·사상적 개념어’, ‘문헌 전거’ 등의 정보 요소를 말한다. 텍스트의 의미 요소로 취급되는 어휘들은 기존의 번역사업에서 역주의 대상이 되었던 것들과 크게 다르지 않다. 시맨틱 데이터베이스는 이 요소들 사이의 의미론적 연관관계를 기계가독형 텍스트의 표준 문법이라고 할 수 있는 RDF(Resource Description Framework) 문으로 기술하는 방법으로 구현할 수 있다.