김현규, 3.1운동에 관한 개방적 연계데이터 구축

suminlee
이수민 (토론 | 기여) 사용자의 2020년 7월 12일 (일) 02:21 판 (새 문서: ==논문 구성== ==연구 목적 및 배경== 3.1운동에 관한 개방적 연계데이터(Linked Open Data) 구축과 활용방안 제시 3.1운동 LOD구축의 출발로서...)

(차이) ← 이전 판 | 최신판 (차이) | 다음 판 → (차이)
이동: 둘러보기, 검색

논문 구성

연구 목적 및 배경

3.1운동에 관한 개방적 연계데이터(Linked Open Data) 구축과 활용방안  제시
3.1운동 LOD구축의 출발로서 3.1운동의 '지방시위'에 초점

문제제기

① 3.1운동에 대한 대중적 관심도와 학술적 성과에 비해 이를 충족할 수 있는 디지털콘텐츠 미약

- 3.1운동을 포괄하는 다른 주제들까지 다루는 웹자원들이 많다보니 3.1운동만의 특수한 맥락과 세부사항을 기술하는데 제한적

② 3.1운동 디지털 아카이브 구축의 필요성

- 관련 정보가 여러 사이트에 분산되어 있는 편 -> 통합된 db구축의 필요성

③ 한편 3.1운동에 대한 대중적 인식은 지방보다는 중심부와 주요한 사건과 인물에 치중.

연구방법

1) 3.1운동 관련 선행연구 및 디지털 콘텐츠 현황 분석

2) 데이터 수집 및 정리

① 웹상의 각 기관에서 해당 데이터에 관해 제공하는 정보를 모두 수집
 - MS-Excel 이용
 - 데이터 저장은 관계형 데이터베이스인 MS-SQLserver2017 사용
② 유형별 데이터 정리 
 : 3.1운동과 관련한 '인물-사적지-사건-웹 자원'데이터를 수집하고 정리
③  온톨로지 설계 
  : 데이터를 분류하고 연계하기 위한 기술 체계
 - 클래스- 속성- 관계성 설계 순
 a. 클래스 설계  
  - 클래스 분류는 헌국문화 엔사이브 온톨로지(EKC) 참고
 b. 속성설계      
  :클래스에 속하는 각 개체들이 갖고 있는 특질적인 정보를 기술해주기 위한 틀
  - 클래스별 속성의 종류선정은 데이터 수집과정에서 대부분 완료
  - 설계과정에는 속성을 기술하는 구체적 어휘 부여
   - 속성의 기술체계는 RDF형식을 따름
   - 속성설계에서는 RDF 형식에서 데이터와 데이터값을 연결하는 서술어휘를 정의해주어야 한다. 

EX) 손병희 - 태어나다(birth)-1861년


rdfs(RDFS Schema) : RDF 데이터를 모델링하기 위한 어휘 제공, 기본 RDF 어휘의 확장형.

Foaf: 인물간의 관계를 기술하기 위해 고안되었다.

Geo: WGS84(세계측지계) 기준 위도, 경도, 고도 정보를 기술하기 위한 어휘

OWL-Time은 디지털 자원의 시간 속성을 나타내는 온톨로지 모델로서 개체 간의 시간적 선후 관계 및 포함관계르 기술할 수 있도록 설계

c. 관계성 설계
: 개체와 개체간 관계에 대한 정보 기술
- 관계의 종류를 체계화하고 이를 나타내는 서술 어휘를 정의하는 작업
- RDF형식에서 Object Property에 해당(데이터와 데이터를 연결해주는 속성)

※ '속성'과 '관계성'의 차이

Datatype Property(속성)


Object Property(관계성)

데이터와 데이터의 속성인 데이터 값을 연결


데이터와 데이터를 특정한 관계로 연결

속성(Attribute)에 해당


관계성(Relation)이 이에 해당

(3) 데이터베이스 구축(LOD 구축)

RDB에 정리된 데이터를 특정한 변환 코드를 사용해 RDF 데이터로 변환(링크드데이터 생성)

- Triple Store*에 업로드 하여 개방형 데이터(Open Data)로 구축

  • 시맨틱 쿼리를 통해 트리플(rdf형식의 데이터)의 저장, 검색이라는 특수한 목적을 위해 만들어진 데이터베이스

- RDF 형식의 모든 데이터는 URI라는 고유의 웹주소를 갖는다.

 즉, LOD에서 URI는 각 데이터에 접근하고 다른 데이터와 연결되도록 하는 접근점이자 연결점.

- 본문의 온톨로지 모델에서 정의한 모든 개체 및 관계 데이터의 URI는 주소를 데이터의 ID앞에 기재한다.

- > 이러한 URI체계에 따라 RDF문 구성

-> 클래스, 데이터타입 속성, 오브젝트 속성, 개체 등 크게 4가지의 기술 영역

여기서 데이터의 체계와 구조를 정의하는 온톨로지 스키마는 앞의 세 가지가 해당.

· 관련 용어정리

◎ 디지털 아카이브

- 기존의 아카이브는 개별 기관의 자료만을 관리, 제공

- 디지털 아카이브는 다양한 유형의 지식자원을 연결하고 활용, 웹을 하나의 자료관이자 전시관으로 이용

- 본문에서는 한국학중앙연구원 인문정보학 교실에서 수행한 데이터 기반 인문지식 백과사전인 Encyves를 참고

- 아카이브의 실제적 형태는 'LOD = Linked Data + Open Data'

◎ Encyves = 백과사전(Encyclopedia + Archive)

역사적 가치가 있는 실물자료들이 웹상에서 디지털 데이터인 노드(Node)로 존재함으로써 물리적 제약에서 해방되고 다양한 관련 지식 자원들과 자유롭게 연결(김현 외, 『디지털인문학입문』

-> 본문의 '유관순' 관련 예시 참고하면 이해하기 쉽다!

  • 실재세계에서 유관순 관련 기록들이 흩어져 존재

유관순 백과사전 기사 -> 책꽂이에 꽂힌 두꺼운 책 속에 有 유관순 관련 재판기록 -> 국가기록원 보존시설 안에 有 유관순 수형기록(일제감시대상인물카드) -> 국사편찬위원회 사료관 안 有

즉 실재하는 세계에서 유관순의 백과사전적 지식을 재판기록, 수형기록 등의 실물자료와 만나게 하는 것은 번거로운 일이지만, 디지털 세계에서는 관련 지식과 실물자료를 한 데 엮어 만나게 할 수 있다.

▶ 그렇다면, 분산된 지식을 어떻게 통합할 것인가?

-> 데이터를 기반으로 한 정보자원의 상호 연계

※네이버, 다음, 구글 등의 포털에서도 웹상의 정보자원을 검색기능을 통해 접근할 수 있도록 제공하고 있지 않은가?

- 사실상 가장 보편적인 방식(쉽고 빠름)

- but, 최적의 방법은 아님

 왜냐하면, 정보소유의 경계바깥에 있는  사람이 마음껏 이용하거나 다른 자원과 연결할 수 있도록 개방되어 있지 않기 때문! 

정보간 '개방성' 및 '연계성'에서 한계

- 분산된 지식 자원을 적극적으로 통합하고 공유하기 위해서는 단순히 모아놓는 것 이상의 작업이 필요

   포털 = '갖가지 책을 모아놓고 검색을 통해 찾을 수 있도록 하는 도서관'
   이용자는 원하는 책을 쉽게 찾을 수 있지만, 일단 책을 집어 들고나면 지식에 대한 탐구는 책이라는 경계 안에서만 이루어진다. 열람만 가능할 뿐이지, 가공 또는 그 출처는 어디인지 명확히 알 수 없다.
   28p

◎ LOD(Linked Open Data)

웹상에서 연결되고 개방된 데이터 ( Linked Data + Open Data)

- 본문에서 제안하는 정보 자원의 구축 형태

※링크드데이터 VS 오픈데이터

Linked Data


Open Data

· 웹상에서 여러 데이터와 상호 연계될 수 있도록 구조화된 데이터

· Linked Data의 목표는 특정 시스템이 아닌 웹이라는 연결망 자체를 정보가 저장되고 관리되는 데이터베이스로 이용하는 것

-


· 누구나 자유롭게 재사용하고 재배포할 수 있는 데이터

· 저작권, 독점권, 특허권 등 데이터를 활용하는 행위에 제약조건이 없음

· 편리하

- LOD는 정보가 웹상에서 하나의 페이지 안에 기수된 텍스트가 아닌 기계적인 처리가 가능한 데이터로 존재하게함

- 대부분의 웹 환경= 문서중심의 웹이 보편적 -> LOD는 이를 데이터가 중심이되는 데이터웹으로 구축하는 것을 지향

※ 문서 단위 웹 VS 데이터 단위 웹

문서 단위의 연결


데이터 단위의 연결

· 구체적인 개념들 간의 관계를 사람만 읽고 이해할 수 있다.

- 유관순에 관한 지식들이 문서 상의 텍스트로 존재


· 기계가독형

- 데이터와 데이터를 의미적 연관성에 따라 연결

- 웹에서 개별 페이지가 주소를 갖듯, 데이터의 웹에서는 하나의 개체가 다른 개체로부터 유일하게 식별될 수 있도록 하는 고유의 주소를 갖는다.

▶ 이제는 데이터로 표현된 개별 자원을 '연결'해야 함!

-> 지식을 더욱 구체적으로 기술하려면 개체(데이터) 간의 '관계'도 데이터로 존재하도록 해야한다.

◎ RDF(Resource Description Framework)

개체(데이터) 간의 연결관계로 정보를 나타내는 기술 형식

- 웹상에서 모든 자원들을 기술하는 표현방식2*

- 데이터 간의 관계(데이터 속성 값의 관계)로 표현

  • 한국정보화진흥원, 『데이터베이스 활용기술 전망 부록: 데이터 활용 신기술 가이드1: RDF』

◎ 시맨틱 웹(Semantic Web;의미론적 웹)

LOD가 구축되는 공간, 데이터 중심으로 정보가 소통되는 미래의 웹 환경을 지칭하기도 함.

· 연구결과 활용

① 정보탐색

- 3.1운동이라는 지식 세계를 탐색하는 유용한 자원

② 타 분야 LOD와의 연계를 통해 지식의 화장 가능성