김바로 온톨로지

DH 교육용 위키
김바로 (토론 | 기여) 사용자의 2017년 5월 4일 (목) 04:56 판

이동: 둘러보기, 검색

개괄

조직-인사 아카이브는 김바로에 의해 만들어진 조직-인사 온톨로지를 기반으로 1895년부터 1910년 근대 학교 제도 및 인사 자료를 RDF로 기술하였다.

이 데이터는 저작자표시 4.0 국제 (CC BY 4.0)의 조건을 따르고 있다.

데이터 포맷은 RDF(Resource Description Framework)이며, 조직-인사 온톨로지에 따라 구조화 하였다.

  • 전체 데이터설계 그림

데이터 모델의 상세 스펙은 OWL DOC, Google Docs 등을 통하여 살펴볼 수 있다.


본 데이터의 검색은 온라인에서는 SPARQL Endpoint, 오프라인에서는 rdf-syntax-convert을 통하여 수행한다.

SPARQL Endpoint: 바로가기

SPARQL Endpoint 활용 예시 :

// 한국어로 된 조직(학교) 이름을 모두 출력하라.

PREFIX baro: <http://61.35.170.118:8890/ddokbaro#>
PREFIX owl: <http://www.w3.org/2002/07/owl#>
PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX xsd: <http://www.w3.org/2001/XMLSchema#>
PREFIX xml: <http://www.w3.org/XML/1998/namespace>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
 
SELECT * 
WHERE {
?s rdf:TYPE baro:GROUP .
?s rdfs:label ?p  
FILTER(LANGMATCHES(LANG(?p), "kr"))
}
  • 그 외의 다양한 활용 예시는 "제도-조직 SPARQL 활용 예시"에서 확인할 수 있다.


데이터셋 통계 :

제목 내용
Last Update 2017-04-23
Number of Statements 1,312,187
Number Of Entities 15,084

데이터셋 다운로드 :

제목 내용
OWL 파일 다운로드 다운로드
전체 데이터 파일 다운로드 다운로드



연구 개괄

연구 목적과 대상

본 연구는 제도와 인사의 관계성 데이터 아카이브 구축 및 활용 방법론을 제시하는 데 목적이 있다. 기존의 종이 매체상에서의 인문학 정보 서술과 활용의 한계를 극복하기 위하여, 이를 대체할 디지털을 바탕으로 하는 새로운 인문학 정보 서술과 활용 방안에 대한 모색이 필요하다. 특히 기존 종이 매체의 구조와 형식을 그대로 디지털에 모사하는 일차적인 디지털화를 탈피하여, 컴퓨터 연산이 가능한 기계가독형 데이터를 생산함으로써 새로운 방식으로 수행되는 인문학 연구가 이루어져야 한다.

본 논문에서는 전통 인문학 지식의 총아인 공구서를 디지털로 이식하고자 한다. 그 대상으로 인문학 연구의 기반인 인물 관련 공구서와 제도 관련 공구서 그리고 양자의 상호 관계에 집중하고자 한다. 다만 개인이 행하는 연구의 본질적인 한계로 인하여 연구의 범위를 제한한다. 연속성이 보장되면서도 현존 사료가 풍부하고 국가 권력 혼란기의 변화 양상을 볼 수 있는 1895년 한성사범학교부터 1910년 조선총독부 직원록까지의 사범학교와 소학교(보통학교), 교원을 연구 대상으로 한다. 세부적으로 기관은 1895년부터 1910년까지의 소학교, 보통학교, 사범학교 274개를 대상으로 한다. 인물은 구한말 관보에 등장하는 공식적인 학교 관련 인물 4,256명을 핵심 대상으로 한다. 인물 및 인사운용 정보는 구한말 관보에 공식적으로 거론된 기록 7,960건, 직원록 795건, 근현대인물데이터베이스 578건을 주요 대상으로 한다.  


연구 방법

본 연구에서는 다음의 A~F와 같은 절차를 수행한다.


A. 구한말 관공립학교 제도와 교원의 인사 기록 수집

구한말 관공립학교 제도와 교원의 인사 기록을 수집하기 위하여 정부 3.0 및 “공공데이터 제공 및 이용 활성화에 관한 법률”[1] 에 의거하여 수집 가능한 공공데이터인 국사편찬위원회의 한국근현대인물자료 데이터[2]와 직원록 데이터[3]를 확보한다.


공공데이터로서의 수집이 제한되는 서울대학교 규장각한국학연구원 소장자료를 디지털화한 규장각한국학연구원본 《구한말 관보》[4]와 1899년 5월 25일 아세아문화사의 『구한국관보』를 토대로 하는 국립중앙도서관본 《구한말 관보》[5] 및 한국언론진흥재단의 “고신문 데이터”[6] 등의 데이터는 온라인 서비스를 통하여 접근한다.


B. 구한말 관공립학교 제도와 교원의 인사 기록 구조 분석

온톨로지 설계의 방향성을 결정하기 위한 선행 단계로 A에서 수집된 자료의 역사적 맥락을 파악하고, 구한말 관공립학교 제도와 교원의 인사 기록 관련 선행 연구 성과를 종합한다. 이를 바탕으로 법제, 학교, 직위, 직급에 대한 명칭과 변화를 살펴보고, 인사 운영의 용어·용례를 정리한다.


C. 구한말 관공립학교 제도와 교원의 인사 기록 온톨로지 구축

효율적인 온톨로지 설계를 위하여 제도와 인사에 관련된 종이 매체와 디지털 매체의 자료 및 데이터의 모델을 살펴본다. 선행 모델과 B에서 분석된 내용을 바탕으로 구한말 관공립학교 제도와 교원의 인사 기록 온톨로지를 구축한다. 온톨로지의 설계는 크게 인문학 기본 온톨로지, 관공립학교 제도 온톨로지, 인사 기록 온톨로지로 분리하여 설계한 이후에 이를 종합하고 검증한다.


D. 구한말 관공립학교 제도와 교원의 인사기록 데이터 처리

C에서 구축된 온톨로지를 바탕으로 A에서 수집된 PLAIN TEXT, RDB, XML 형식의 데이터를 정규표현식, RDB 데이터 운용, XML 데이터 운용의 방법을 통해 기계가독형 데이터로 전환하는 과정을 수행한다.


E. 구한말 관공립학교 제도와 교원의 인사 기록 온톨로지를 바탕으로 하는 데이터 모델링

C에서 구축된 온톨로지를 바탕으로 D에서 처리한 데이터를 시맨틱웹으로 구현할 수 있는 RDF 모델과 기존 디지털 아카이브에 사전 정보를 추가할 수 있도록 설계된 XML 모델, 실무적인 활용성을 목적으로 한 RDB 모델, 인문학 연구자들의 디지털 접근의 입문단계에서 사용 가능한 WIKI 모델을 각기 모델링한다.


F. 구한말 관공립학교 제도와 교원의 아카이브를 바탕으로 하는 시각화

효율적인 시각화 모델 제시를 위하여 유관 시각화 선행 모델을 살펴본다. 이를 바탕으로 E에서 구축한 아카이브를 효율적으로 활용하기 위한 시각화 방법을 모색한다. 시각화는 크게 인간가독형 시각화 모델과 데이터 접근성 향상을 위한 시각화 모델로 분리하여 서술한다. 인간가독형 시각화 모델은 인간의 다양한 관점에 따른 요구를 수용하기 위한 각각의 관점에 대한 시각화 모델을 제시한다. 데이터 접근성 향상을 위한 시각화 모델에서는 간단하지만 제한적인 접근만이 가능한 키워드 검색 방법과 복잡하지만 다양한 접근이 가능한 데이터 질의 언어 사이의 간극을 해소할 수 있는 블록조합형 질의언어 시각화 방법론을 제시한다. 마지막으로 제시한 시각화 모델과 디지털인문학 분석 방법론을 활용하여 구축된 아카이브를 토대로 인문학 연구를 위한 활용 모델을 제시한다.


연구 과정에서 사용되는 소프트웨어는 다음과 같다.

데이터 설계를 위해서 protégé(프로테제)와 Altova XMLSpy(알토바 엑스엠엘스파이)를 사용하였다. 지리 정보 수집을 위하여 남한 지역은 Daum 지도와 네이버 지도를 사용하였고, 북한 지역은 Google 지도와 Google Earth를 사용하였다. 데이터의 처리를 위하여 EmEditor(엠에디터), Microsoft Excel(마이크로소프트 엑셀), RDFConvert를 사용하였다. 데이터의 분석을 위하여 Gephi(게파이), GNU R(지엔유 알)을 사용하였다. 데이터 검색을 위하여 Twinkle(트윙클)을 사용하였다. 데이터 운용을 위하여 Virtuoso Universal Server(벌투오소 유니버샬 서버를 사용하였다. 이미지 처리를 위해서 Photoshop(포토샵)과 Illustrator(일러스트레이터)를 사용하였다. 마지막으로 논문 집필을 위하여 문서편집기로 Google Docs(구글 문서), Microsoft PowerPoint(마이크로소프트 파워포인트), 한컴오피스 한글을 사용하였다.


데이터 설계

기존 자료

온톨로지 설계

데이터 모델링

활용 모델

주석

  1. <공공데이터의 제공 및 이용 활성화에 관한 법률(법률 제11956호, 2013.7.30. 제정)은 법률 제12844호(2014.11.19., 타법개정)에서 주무책임이 안전행정부장관에서 행정자치부장관으로 변동되었고, 법률 제13723호(2016.1.6., 일부개정)에서 공공기관과 민간의 중복 및 유사한 서비스를 통한 경쟁을 방지하여 공공데이터의 이용을 촉진하도록 일부 개정되었다. 자세한 것은 “공공데이터의 제공 및 이용 활성화에 관한 법률 웹사이트(온라인 참조 : 국가법령정보센터, 법제처, http://www.korealaw.go.kr/lsEfInfoP.do?lsiSeq=179039)”를 참고하기 바란다.
  2. 한국근현대인물자료, 한국사데이터베이스, 국사편찬위원회 : http://db.history.go.kr/item/level.do?itemId=im
  3. 직원록자료, 한국사데이터베이스, 국사편찬위원회 : http://db.history.go.kr/item/level.do?itemId=jw
  4. 관보DB, 서울대학교 규장각한국학연구원 : http://kyu.snu.ac.kr/home/index.doidx=06&siteCd=KYU&topMenuId=206&targetId=379&gotourl=http://kyu.snu.ac.kr/home/GAN/GAN_MAINLIST.jsp
  5. 구한국 관보, 국립중앙도서관 : http://www.nl.go.kr/nl/search/search_wonmun.jsp?detailSearch=true&offer_dbcode_2s=CH43&wonmunTabYn=Y
  6. 고신문 아카이브, 한국언론진흥재단 : http://www.bigkinds.or.kr/ (단, 고신문 아카이브는 2017년 4월 현재 국립중앙도서관 대한민국 신문 아카이브(http://www.nl.go.kr/newspaper/)와 통합중으로 2017년 하반기부터 정상적인 이용이 가능하다.