20180920 회의록

khw
이동: 둘러보기, 검색

데이터 정제 방안

"오늘 논의된 내용을 바탕으로 데이터 정리 후, PCN2 DB에 업로드"

공통

  • 노드 테이블과 링크 테이블로 구성.
  • 각 주제별 관계 데이터는 하나의 링크 테이블로 정리.
  • 노드 테이블 디자인
    • primary key - id
    • id는 가급적 한자 제외. 공백이 있는 경우, 공백을 _(언더바)로 대체.
    • label은 한글로.
    • 이외의 attribute는 자유롭게 추가
id label hanja
  • 링크 테이블 디자인
    • primary key - source, target, relation
    • attribute에는 relation을 설명할 수 있는 내용을 한글로.
source target relation attribute
  • 한자 표기
    • 명칭에 순한글이 표기되는 경우, 한자 표기에 한글 포함 (예: 求禮 華嚴寺 覺皇殿 앞 石燈)
    • 확인되지 않는 한자는 ? 대신 *로 표기.

불교

  1. 구성
    • 노드: 불교사찰, 불교소장처, 불교문화유산
    • 링크: 불교링크
  2. 추가작업
    • kHeritage - 한자 클리닝(unicode, 문화유산 한자 표기의 띄어쓰기 교정 등)
    • 사찰노드와 소장처노드의 한자명 추가
    • 전통사찰 주소의 GPS 좌표 구하기

서원

  1. 구성
    • 노드: 서원노드
    • 링크: 서원링크
      • 관계어
        • isEnshrinedIn: 제향 인물과 서원 관계
  2. 추가작업
    1. 서원노드
      • id 수정하기: 띄어쓰기 언더바 처리
      • 한자 클리닝
      • 각 컬럼마다 문자열로 입력된 NULL 처리
      • 사진 자료 데이터 추가 가능성 진단하기
    2. 서원링크
      • 변경된 id 적용해서 source/target 정확하게 하기
      • 기존의 주향/배향 정보는 추가 속성으로 처리

비석

  1. 구성
    • 노드: 비석노드
    • 링크: 비석링크
      • 관계어:
        • isSteleOf: 신도비와 인물 관계
        • isEpitaphOf: 신도비 외 기타 비석과 인물 관계
        • writer: 비석과 찬자 관계
        • calligrapher: 비석과 서자 관계. 제액 서자 포함.
        • inscriber: 비석과 각자 관계
  2. 추가작업
    1. 비석노드
      • 파악하기 어려운 노드 제거
      • id 생성하기: 띄어쓰기 제거. 중복 명칭 발생시 이름 뒤에 생몰년 입력해서 구분.
      • label 정리하기: 의미 요소 기준으로 띄어쓰기 적용
      • hanja 정리하기: ?표시된 한자 수정. 한자 클리닝
      • 출토지 정보 '도', '시'로 분류해서 컬럼 추가하기
      • url컬럼은 바로 접근 가능한 전체 URL 주소로 변경하기
      • 각 컬럼마다 문자열로 입력된 NULL 처리
      • 사진 자료 데이터 추가 가능성 진단하기
    2. 비석링크
      • 삭제된 노드의 데이터 제거
      • 변경된 id 적용해서 source/target 정확하게 하기
      • 영문 관계어 적용
      • 집자는 어떻게 처리하기로 했죠..??

공신

  1. 구성
    • 노드: 공신노드, 공신사건노드
    • 링크: 공신링크
      • 관계어
        • hasAppointee: 공신(개념)과 녹훈자(인물) 관계
        • isRelatedTo: 공신(개념)과 사건 관계, 공신(개념)과 문화유산 관계, 인물과 문화유산 관계
    • 공신 시간 음양력 변환 표기
  2. 추가작업
    1. 공신노드
      • id 생성하기: 중복 명칭의 경우, 연도로 구분하되, '년'은 제외. 예)정사공신(1398)
      • 한자 클리닝
    2. 공신사건노드
      • 테이블 생성
    3. 공신링크
      • 공신(개념)과 cpid 매칭 데이터 만들기
      • 녹훈자(인물)과 cpid 매칭 데이터 만들기
      • 공신(개념)과 사건 매칭 데이터 만들기
      • 변경된 id적용해서 source/target 정확하게 하기
      • 영문 관계어 적용

인물

  1. 구성
    • 노드: 인물노드
    • 링크: 인물링크
  2. 추가작업
    1. 인물노드
      • id 수정하기: 띄어쓰기 언더바 처리. 그외......기타...등등..
      • hanja 정리하기: ?표시된 한자 수정. 한자 클리닝(유니코드)
    2. 인물링크
      • 변경된 id적용해서 source/target 정확하게 하기

불화

  1. 구성
    • 노드: 불화화가, 불화작품(일단은 코드로 . 부가정보 잘 기입해서 누락 없게), 불화사찰, 불화소장처
    • 링크: 불화링크( isCreatorOf, Domain, currentLocation + a) 불교 파트랑 논의 필요
  2. 추가작업

데이터 구축 현황

총 노드

분류 개수 합계
불교문화유산 5,898 17,471
서원&신도비&공신 7,037
서화가(불화) 4,536

총 링크

분류 개수 합계
불교문화유산 4,137 21,681
서원&신도비&공신 9,494
서화가(불화) 8,050

불교문화유산

노드

분류 개수 합계
사찰 1,429 5,898
소재지 614
문화유산 3,855

링크

분류 개수 합계
hasAsset 3,219 4,137
currentLocation 636
provenance 250
hasHermitage 32

서원&신도비&공신

노드

분류 개수 합계
서원 652 2,273 7,037
신도비 1,590
공신 31
인물 4,764

링크

분류 개수 합계
서원제향관계 2,209 7,303 9,494
신도비창작관계 3,947
공신녹훈관계 1,147
인물추가관계 2,191

서화가(불화)

노드

분류 개수 비고 합계
서화가(불화가) 661 4,536
불화(작품) 3,410
  • 개별 단위 불화: 3,209(지정 405), 그룹 단위 불화: 201(지정42, 비지정159)
  • 지정문화재의 경우 "개별/그룹"은 이 데이터 안에서 유효함(추후 지정문화재와의 카운팅을 위한 것)
소장처 466 BH사찰노드(371), BH소재지노드(14), 신규노드 (81)

링크

분류 개수 합계
화가-작품의 제작(isCreatorOf) 3,600 8,050
작품-작품(hasPart) 1056
작품-소장처(Location) 3394

그림

  • 노드: 3,754
  • 링크(depicts) : 4,738

추가 가능한 데이터

3·1운동

노드

분류 개수 합계
사적지 565 2,031
사건 492
인물 974

링크

분류 개수 합계
인물-사적지 76 1,773
사건-사건 98
사건-사적지 578
인물-사건 1,021

문집인물

노드

분류 개수 합계
인물 1,258 2,517
문집 1,259

링크

분류 개수 합계
인물-문집 1,259 1,259

ID 지정 논의

제안

  1. ID 부여 방식의 무의미
    • 합성키와 같아지는 경우.
    • ID의 부여 체계가 다양한 경우.
    • 새롭게 들어올 인물이 식별 불가능한 경우(결국 123).
    • 새롭게 들어온 인물이 기존 인물과 중복인 경우.
      • 기존 : 김성일 / 추가 : 김성일(한자) -> 결국 ID만으로는 인물 식별 불가.
  2. ID에 한자가 반영된 경우.
    • 다른 유니코드 값의 한자를 사용한 경우 검색이 안됨.
  3. 현실적 문제
    • 한자 이름이 여러 개인 경우(누가 선택?, 선택의 근거가 없어).
    • 누군가 아이디를 계속해서 관리해야 함(아이디를 확정하는 작업이 계속 필요).

현 상황

아이디에 한자가 사용되는 경우.

id 한글이름 한자이름 생년 몰년 이칭
권진(1532) 권진 權振 1532 1574 NULL
권진(權瑱) 권진 權瑱 NULL NULL NULL
권진(權芷) 권진 權芷 NULL NULL NULL
권진(權縉) 권진 權縉 NULL NULL NULL
id 한글이름 한자이름 생년 몰년 이칭
박린(朴璘) 박린 朴璘 NULL NULL NULL
박린(朴麟) 박린 朴麟 NULL NULL NULL
박린(朴僯) 박린 朴僯 NULL NULL NULL

한자가 판명되지 못한 경우

id 한글이름 한자이름 생년 몰년 이칭
이계(李啓) 이계 李啓 NULL NULL NULL
이계(李?) 이계 李? 1528 1593 NULL
이계(李誡) 이계 李誡 1453 1510 NULL

합성키랑 다를 바 없는 경우

id 한글이름 한자이름 생년 몰년 이칭
유홍(柳泓_1483-1551) 유홍 柳泓 1483 1551 NULL
유홍(兪泓_1524-1594) 유홍 兪泓 1524 1594 NULL
유홍(柳泓_미상-1091) 유홍 柳泓 미상 1091 NULL
id 한글이름 한자이름 생년 몰년 이칭
이증(李增_1525-1600) 이증 李增 1525 1600 NULL
이증(李增_미상-1752) 이증 李增 미상 1752 NULL
이증(李璔_1427-1464) 이증 李璔 1427 1464 NULL

이칭이 사용된 경우

id 한글이름 한자이름 생년 몰년 이칭
이현(1545) 이현 李顯 1545 1631 NULL
이현(1584) 이현 李𥙆 1584 1637 NULL
이현(李鉉) 이현 李鉉 NULL NULL NULL
이현(호산군) 이현 李鉉 NULL NULL 호산군

스토리 샘플

  • 스토리샘플
  • 추가할 데이터에서 나올 수 있는 스토리 작성이 가능한가?
  • 스토리에 많은 노드가 필요한가?
    • 안동권씨가 학봉 김성일에게 보낸 편지 :
      • 사용된 노드: 김성일, 안동권씨, 임진왜란, 편지
      • 편지 내용 자체가 하나의 스토리
    • 조선 최초의 황비이자 숙명여대 설립자 - 순헌황귀비 엄씨 : 순헌황후, 조선 고종, 명성황후, 책황귀비홀기
      • 순헌황후와 명성황후와의 관계 자체(권력싸움)가 하나의 스토리.
    • 안성칠장사와 박문수 이야기.
      • 박문수와 칠장사라는 노드만 있어도 재미있는 이야기.
  • 학술적 스토리
    • 한글로 기록된 왕실 의례 - 순종과 순명효황후의 결혼식 : 순종과 순명효황후의 결혼식과 관련된 기록을 모은 스토리.