김현규, 3.1운동에 관한 개방적 연계데이터 구축

suminlee
이동: 둘러보기, 검색

연구 목적 및 배경

  • 3.1운동에 관한 개방적 연계데이터(Linked Open Data) 구축과 활용방안 제시
  • 3.1운동 LOD구축의 출발로서 3.1운동의 '지방시위'에 초점

문제제기

① 3.1운동에 대한 대중적 관심도와 학술적 성과에 비해 이를 충족할 수 있는 디지털콘텐츠 미약

- 3.1운동을 포괄하는 다른 주제들까지 다루는 웹자원들이 많다보니 3.1운동만의 특수한 맥락과 세부사항을 기술하는데 제한적

② 3.1운동 디지털 아카이브 구축의 필요성

- 관련 정보가 여러 사이트에 분산되어 있는 편 -> 통합된 db구축의 필요성

③ 한편 3.1운동에 대한 대중적 인식은 지방보다는 중심부와 주요한 사건과 인물에 치중.

연구방법

3.1운동 관련 선행연구 및 디지털 콘텐츠 현황 분석

데이터 수집 및 정리

① 웹상의 각 기관에서 해당 데이터에 관해 제공하는 정보를 모두 수집 - MS-Excel 이용 - 데이터 저장은 관계형 데이터베이스인 MS-SQLserver2017 사용 ② 유형별 데이터 정리

3.1운동과 관련한 '인물-사적지-사건-웹 자원'데이터를 수집하고 정리

③ 온톨로지 설계

데이터를 분류하고 연계하기 위한 기술 체계

- 클래스- 속성- 관계성 설계 순

a.클래스 설계 - 클래스 분류는 헌국문화 엔사이브 온톨로지(EKC) 참고 b.속성설계

클래스에 속하는 각 개체들이 갖고 있는 특질적인 정보를 기술해주기 위한 틀

- 클래스별 속성의 종류선정은 데이터 수집과정에서 대부분 완료 - 설계과정에는 속성을 기술하는 구체적 어휘 부여 - 속성의 기술체계는 RDF형식을 따름 - 속성설계에서는 RDF 형식에서 데이터와 데이터값을 연결하는 서술어휘를 정의해주어야 한다. EX) 손병희 - 태어나다(birth)-1861년

  • rdfs(RDFS Schema) : RDF 데이터를 모델링하기 위한 어휘 제공, 기본 RDF 어휘의 확장형.
  • Foaf: 인물간의 관계를 기술하기 위해 고안되었다.
  • Geo: WGS84(세계측지계) 기준 위도, 경도, 고도 정보를 기술하기 위한 어휘
  • OWL-Time은 디지털 자원의 시간 속성을 나타내는 온톨로지 모델로서 개체 간의 시간적 선후 관계 및 포함관계르 기술할 수 있도록 설계

c. 관계성 설계

개체와 개체간 관계에 대한 정보 기술

- 관계의 종류를 체계화하고 이를 나타내는 서술 어휘를 정의하는 작업

- RDF형식에서 Object Property에 해당(데이터와 데이터를 연결해주는 속성)

데이터베이스 구축(LOD 구축)

RDB에 정리된 데이터를 특정한 변환 코드를 사용해 RDF 데이터로 변환(링크드데이터 생성)

- Triple Store*에 업로드 하여 개방형 데이터(Open Data)로 구축

  • 시맨틱 쿼리를 통해 트리플(rdf형식의 데이터)의 저장, 검색이라는 특수한 목적을 위해 만들어진 데이터베이스

- RDF 형식의 모든 데이터는 URI라는 고유의 웹주소를 갖는다.

 즉, LOD에서 URI는 각 데이터에 접근하고 다른 데이터와 연결되도록 하는 접근점이자 연결점.

- 본문의 온톨로지 모델에서 정의한 모든 개체 및 관계 데이터의 URI는 주소를 데이터의 ID앞에 기재한다.

- > 이러한 URI체계에 따라 RDF문 구성

-> 클래스, 데이터타입 속성, 오브젝트 속성, 개체 등 크게 4가지의 기술 영역

여기서 데이터의 체계와 구조를 정의하는 온톨로지 스키마는 앞의 세 가지가 해당.

용어정리

디지털 아카이브

- 기존의 아카이브는 개별 기관의 자료만을 관리, 제공

- 디지털 아카이브는 다양한 유형의 지식자원을 연결하고 활용, 웹을 하나의 자료관이자 전시관으로 이용

- 본문에서는 한국학중앙연구원 인문정보학 교실에서 수행한 데이터 기반 인문지식 백과사전인 Encyves를 참고

- 아카이브의 실제적 형태는 'LOD = Linked Data + Open Data'

Encyves = 백과사전(Encyclopedia + Archive)

역사적 가치가 있는 실물자료들이 웹상에서 디지털 데이터인 노드(Node)로 존재함으로써 물리적 제약에서 해방되고 다양한 관련 지식 자원들과 자유롭게 연결(김현 외, 『디지털인문학입문』

-> 본문의 '유관순' 관련 예시 참고하면 이해하기 쉽다!

  • 실재세계에서 유관순 관련 기록들이 흩어져 존재

유관순 백과사전 기사 -> 책꽂이에 꽂힌 두꺼운 책 속에 有 유관순 관련 재판기록 -> 국가기록원 보존시설 안에 有 유관순 수형기록(일제감시대상인물카드) -> 국사편찬위원회 사료관 안 有

즉 실재하는 세계에서 유관순의 백과사전적 지식을 재판기록, 수형기록 등의 실물자료와 만나게 하는 것은 번거로운 일이지만, 디지털 세계에서는 관련 지식과 실물자료를 한 데 엮어 만나게 할 수 있다.

▶ 그렇다면, 분산된 지식을 어떻게 통합할 것인가?

-> 데이터를 기반으로 한 정보자원의 상호 연계

※네이버, 다음, 구글 등의 포털에서도 웹상의 정보자원을 검색기능을 통해 접근할 수 있도록 제공하고 있지 않은가?

- 사실상 가장 보편적인 방식(쉽고 빠름)

- but, 최적의 방법은 아님

 왜냐하면, 정보소유의 경계바깥에 있는  사람이 마음껏 이용하거나 다른 자원과 연결할 수 있도록 개방되어 있지 않기 때문! 

정보간 '개방성' 및 '연계성'에서 한계

- 분산된 지식 자원을 적극적으로 통합하고 공유하기 위해서는 단순히 모아놓는 것 이상의 작업이 필요

   포털 = '갖가지 책을 모아놓고 검색을 통해 찾을 수 있도록 하는 도서관'
   이용자는 원하는 책을 쉽게 찾을 수 있지만, 일단 책을 집어 들고나면 지식에 대한 탐구는 책이라는 경계 안에서만 이루어진다. 열람만 가능할 뿐이지, 가공 또는 그 출처는 어디인지 명확히 알 수 없다.
   28p

LOD(Linked Open Data)

웹상에서 연결되고 개방된 데이터 ( Linked Data + Open Data)

- 본문에서 제안하는 정보 자원의 구축 형태

※링크드데이터 VS 오픈데이터

Linked Data


Open Data

· 웹상에서 여러 데이터와 상호 연계될 수 있도록 구조화된 데이터

· Linked Data의 목표는 특정 시스템이 아닌 웹이라는 연결망 자체를 정보가 저장되고 관리되는 데이터베이스로 이용하는 것

-


· 누구나 자유롭게 재사용하고 재배포할 수 있는 데이터

· 저작권, 독점권, 특허권 등 데이터를 활용하는 행위에 제약조건이 없음

· 편리하

- LOD는 정보가 웹상에서 하나의 페이지 안에 기수된 텍스트가 아닌 기계적인 처리가 가능한 데이터로 존재하게함

- 대부분의 웹 환경= 문서중심의 웹이 보편적 -> LOD는 이를 데이터가 중심이되는 데이터웹으로 구축하는 것을 지향

※ 문서 단위 웹 VS 데이터 단위 웹

문서 단위의 연결


데이터 단위의 연결

· 구체적인 개념들 간의 관계를 사람만 읽고 이해할 수 있다.

- 유관순에 관한 지식들이 문서 상의 텍스트로 존재


· 기계가독형

- 데이터와 데이터를 의미적 연관성에 따라 연결

- 웹에서 개별 페이지가 주소를 갖듯, 데이터의 웹에서는 하나의 개체가 다른 개체로부터 유일하게 식별될 수 있도록 하는 고유의 주소를 갖는다.

▶ 이제는 데이터로 표현된 개별 자원을 '연결'해야 함!

-> 지식을 더욱 구체적으로 기술하려면 개체(데이터) 간의 '관계'도 데이터로 존재하도록 해야한다.

RDF(Resource Description Framework)

개체(데이터) 간의 연결관계로 정보를 나타내는 기술 형식

- 웹상에서 모든 자원들을 기술하는 표현방식2*

- 데이터 간의 관계(데이터 속성 값의 관계)로 표현

  • 한국정보화진흥원, 『데이터베이스 활용기술 전망 부록: 데이터 활용 신기술 가이드1: RDF』

시맨틱 웹(Semantic Web;의미론적 웹)

LOD가 구축되는 공간, 데이터 중심으로 정보가 소통되는 미래의 웹 환경을 지칭하기도 함.

연구결과 활용

① 정보탐색

- 3.1운동이라는 지식 세계를 탐색하는 유용한 자원

② 타 분야 LOD와의 연계를 통해 지식의 화장 가능성