데이터 정제 방안
"오늘 논의된 내용을 바탕으로 데이터 정리 후, PCN2 DB에 업로드"
공통
- 노드 테이블과 링크 테이블로 구성.
- 각 주제별 관계 데이터는 하나의 링크 테이블로 정리.
- 노드 테이블 디자인
- primary key - id
- id는 가급적 한자 제외. 공백이 있는 경우, 공백을 _(언더바)로 대체.
- label은 한글로.
- 이외의 attribute는 자유롭게 추가
- 링크 테이블 디자인
- primary key - source, target, relation
- attribute에는 relation을 설명할 수 있는 내용을 한글로.
| source |
target |
relation |
attribute
|
- 한자 표기
- 명칭에 순한글이 표기되는 경우, 한자 표기에 한글 포함 (예: 求禮 華嚴寺 覺皇殿 앞 石燈)
- 확인되지 않는 한자는 ? 대신 *로 표기.
불교
- 구성
- 노드: 불교사찰, 불교소장처, 불교문화유산
- 링크: 불교링크
- 추가작업
- kHeritage - 한자 클리닝(unicode, 문화유산 한자 표기의 띄어쓰기 교정 등)
- 사찰노드와 소장처노드의 한자명 추가
- 전통사찰 주소의 GPS 좌표 구하기
서원
- 구성
- 노드: 서원노드
- 링크: 서원링크
- 관계어
- isEnshrinedIn: 제향 인물과 서원 관계
- 추가작업
- 서원노드
- id 수정하기: 띄어쓰기 언더바 처리
- 한자 클리닝
- 각 컬럼마다 문자열로 입력된 NULL 처리
- 사진 자료 데이터 추가 가능성 진단하기
- 서원링크
- 변경된 id 적용해서 source/target 정확하게 하기
- 기존의 주향/배향 정보는 추가 속성으로 처리
비석
- 구성
- 노드: 비석노드
- 링크: 비석링크
- 관계어:
- isSteleOf: 신도비와 인물 관계
- isEpitaphOf: 신도비 외 기타 비석과 인물 관계
- writer: 비석과 찬자 관계
- calligrapher: 비석과 서자 관계. 제액 서자 포함.
- inscriber: 비석과 각자 관계
- 추가작업
- 비석노드
- 파악하기 어려운 노드 제거
- id 생성하기: 띄어쓰기 제거. 중복 명칭 발생시 이름 뒤에 생몰년 입력해서 구분.
- label 정리하기: 의미 요소 기준으로 띄어쓰기 적용
- hanja 정리하기: ?표시된 한자 수정. 한자 클리닝
- 출토지 정보 '도', '시'로 분류해서 컬럼 추가하기
- url컬럼은 바로 접근 가능한 전체 URL 주소로 변경하기
- 각 컬럼마다 문자열로 입력된 NULL 처리
- 사진 자료 데이터 추가 가능성 진단하기
- 비석링크
- 삭제된 노드의 데이터 제거
- 변경된 id 적용해서 source/target 정확하게 하기
- 영문 관계어 적용
- 집자는 어떻게 처리하기로 했죠..??
공신
- 구성
- 노드: 공신노드, 공신사건노드
- 링크: 공신링크
- 관계어
- hasAppointee: 공신(개념)과 녹훈자(인물) 관계
- isRelatedTo: 공신(개념)과 사건 관계, 공신(개념)과 문화유산 관계, 인물과 문화유산 관계
- 공신 시간 음양력 변환 표기
- 추가작업
- 공신노드
- id 생성하기: 중복 명칭의 경우, 연도로 구분하되, '년'은 제외. 예)정사공신(1398)
- 한자 클리닝
- 공신사건노드
- 공신링크
- 공신(개념)과 cpid 매칭 데이터 만들기
- 녹훈자(인물)과 cpid 매칭 데이터 만들기
- 공신(개념)과 사건 매칭 데이터 만들기
- 변경된 id적용해서 source/target 정확하게 하기
- 영문 관계어 적용
인물
- 구성
- 추가작업
- 인물노드
- id 수정하기: 띄어쓰기 언더바 처리. 그외......기타...등등..
- hanja 정리하기: ?표시된 한자 수정. 한자 클리닝(유니코드)
- 인물링크
- 변경된 id적용해서 source/target 정확하게 하기
불화
- 구성
- 노드: 불화화가, 불화작품(일단은 코드로 . 부가정보 잘 기입해서 누락 없게), 불화사찰, 불화소장처
- 링크: 불화링크( isCreatorOf, Domain, currentLocation + a) 불교 파트랑 논의 필요
- 추가작업
데이터 구축 현황
총 노드
| 분류 |
개수 |
합계
|
| 불교문화유산 |
5,898 |
17,471
|
| 서원&신도비&공신 |
7,037
|
| 서화가(불화) |
4,536
|
총 링크
| 분류 |
개수 |
합계
|
| 불교문화유산 |
4,137 |
21,681
|
| 서원&신도비&공신 |
9,494
|
| 서화가(불화) |
8,050
|
불교문화유산
노드
| 분류 |
개수 |
합계
|
| 사찰 |
1,429 |
5,898
|
| 소재지 |
614
|
| 문화유산 |
3,855
|
링크
| 분류 |
개수 |
합계
|
| hasAsset |
3,219 |
4,137
|
| currentLocation |
636
|
| provenance |
250
|
| hasHermitage |
32
|
서원&신도비&공신
노드
| 분류 |
개수 |
합계
|
| 서원 |
652 |
2,273 |
7,037
|
| 신도비 |
1,590
|
| 공신 |
31
|
| 인물 |
4,764
|
링크
| 분류 |
개수 |
합계
|
| 서원제향관계 |
2,209 |
7,303 |
9,494
|
| 신도비창작관계 |
3,947
|
| 공신녹훈관계 |
1,147
|
| 인물추가관계 |
2,191
|
서화가(불화)
노드
| 분류 |
개수 |
비고 |
합계
|
| 서화가(불화가) |
661 |
|
4,536
|
| 불화(작품) |
3,410 |
- 개별 단위 불화: 3,209(지정 405), 그룹 단위 불화: 201(지정42, 비지정159)
- 지정문화재의 경우 "개별/그룹"은 이 데이터 안에서 유효함(추후 지정문화재와의 카운팅을 위한 것)
|
| 소장처 |
466 |
BH사찰노드(371), BH소재지노드(14), 신규노드 (81)
|
링크
| 분류 |
개수 |
합계
|
| 화가-작품의 제작(isCreatorOf) |
3,600 |
8,050
|
| 작품-작품(hasPart) |
1056
|
| 작품-소장처(Location) |
3394
|
※ 그림
- 노드: 3,754
- 링크(depicts) : 4,738
추가 가능한 데이터
3·1운동
노드
| 분류 |
개수 |
합계
|
| 사적지 |
565 |
2,031
|
| 사건 |
492
|
| 인물 |
974
|
링크
| 분류 |
개수 |
합계
|
| 인물-사적지 |
76 |
1,773
|
| 사건-사건 |
98
|
| 사건-사적지 |
578
|
| 인물-사건 |
1,021
|
문집인물
노드
| 분류 |
개수 |
합계
|
| 인물 |
1,258 |
2,517
|
| 문집 |
1,259
|
링크
| 분류 |
개수 |
합계
|
| 인물-문집 |
1,259 |
1,259
|
ID 지정 논의
제안
- ID 부여 방식의 무의미
- 합성키와 같아지는 경우.
- ID의 부여 체계가 다양한 경우.
- 새롭게 들어올 인물이 식별 불가능한 경우(결국 123).
- 새롭게 들어온 인물이 기존 인물과 중복인 경우.
- 기존 : 김성일 / 추가 : 김성일(한자) -> 결국 ID만으로는 인물 식별 불가.
- ID에 한자가 반영된 경우.
- 다른 유니코드 값의 한자를 사용한 경우 검색이 안됨.
- 현실적 문제
- 한자 이름이 여러 개인 경우(누가 선택?, 선택의 근거가 없어).
- 누군가 아이디를 계속해서 관리해야 함(아이디를 확정하는 작업이 계속 필요).
현 상황
아이디에 한자가 사용되는 경우.
| id |
한글이름 |
한자이름 |
생년 |
몰년 |
이칭
|
| 권진(1532) |
권진 |
權振 |
1532 |
1574 |
NULL
|
| 권진(權瑱) |
권진 |
權瑱 |
NULL |
NULL |
NULL
|
| 권진(權芷) |
권진 |
權芷 |
NULL |
NULL |
NULL
|
| 권진(權縉) |
권진 |
權縉 |
NULL |
NULL |
NULL
|
| id |
한글이름 |
한자이름 |
생년 |
몰년 |
이칭
|
| 박린(朴璘) |
박린 |
朴璘 |
NULL |
NULL |
NULL
|
| 박린(朴麟) |
박린 |
朴麟 |
NULL |
NULL |
NULL
|
| 박린(朴僯) |
박린 |
朴僯 |
NULL |
NULL |
NULL
|
한자가 판명되지 못한 경우
| id |
한글이름 |
한자이름 |
생년 |
몰년 |
이칭
|
| 이계(李啓) |
이계 |
李啓 |
NULL |
NULL |
NULL
|
| 이계(李?) |
이계 |
李? |
1528 |
1593 |
NULL
|
| 이계(李誡) |
이계 |
李誡 |
1453 |
1510 |
NULL
|
합성키랑 다를 바 없는 경우
| id |
한글이름 |
한자이름 |
생년 |
몰년 |
이칭
|
| 유홍(柳泓_1483-1551) |
유홍 |
柳泓 |
1483 |
1551 |
NULL
|
| 유홍(兪泓_1524-1594) |
유홍 |
兪泓 |
1524 |
1594 |
NULL
|
| 유홍(柳泓_미상-1091) |
유홍 |
柳泓 |
미상 |
1091 |
NULL
|
| id |
한글이름 |
한자이름 |
생년 |
몰년 |
이칭
|
| 이증(李增_1525-1600) |
이증 |
李增 |
1525 |
1600 |
NULL
|
| 이증(李增_미상-1752) |
이증 |
李增 |
미상 |
1752 |
NULL
|
| 이증(李璔_1427-1464) |
이증 |
李璔 |
1427 |
1464 |
NULL
|
이칭이 사용된 경우
| id |
한글이름 |
한자이름 |
생년 |
몰년 |
이칭
|
| 이현(1545) |
이현 |
李顯 |
1545 |
1631 |
NULL
|
| 이현(1584) |
이현 |
李𥙆 |
1584 |
1637 |
NULL
|
| 이현(李鉉) |
이현 |
李鉉 |
NULL |
NULL |
NULL
|
| 이현(호산군) |
이현 |
李鉉 |
NULL |
NULL |
호산군
|
스토리 샘플
- 스토리샘플
- 추가할 데이터에서 나올 수 있는 스토리 작성이 가능한가?
- 스토리에 많은 노드가 필요한가?
- 안동권씨가 학봉 김성일에게 보낸 편지 :
- 사용된 노드: 김성일, 안동권씨, 임진왜란, 편지
- 편지 내용 자체가 하나의 스토리
- 조선 최초의 황비이자 숙명여대 설립자 - 순헌황귀비 엄씨 : 순헌황후, 조선 고종, 명성황후, 책황귀비홀기
- 순헌황후와 명성황후와의 관계 자체(권력싸움)가 하나의 스토리.
- 안성칠장사와 박문수 이야기.
- 박문수와 칠장사라는 노드만 있어도 재미있는 이야기.
- 학술적 스토리
- 한글로 기록된 왕실 의례 - 순종과 순명효황후의 결혼식 : 순종과 순명효황후의 결혼식과 관련된 기록을 모은 스토리.