20180125 회의록

khw
Haewonk (토론 | 기여) 사용자의 2018년 1월 25일 (목) 16:29 판

이동: 둘러보기, 검색
← Previous 회의록
20180123 회의록 20180125 회의록


회의내용

다음주까지

  1. Virtuoso Conductor에 기존 데이터 삭제하고 정제된 새로운 데이터 업로드
  2. Gephi를 활용해서 우리 현재의 데이터를 이해하기!!
    • 클러스터 - 서로에 대해 relation을 갖고 있는 집합
    • 전체 데이터가 몇개의 클러스터를 형성했는지
    • 최대 클러스터는 무엇인지
    • 최대 클러스터의 중심노드는 무엇인지
    • 가장 큰 클러스터 속에는 몇개의 노드가 있는지
    • 노드 수 별로 클러스터 분포가 어떠한지

온톨로지 정의

  1. http://dh.aks.ac.kr/ontologies/ekc#term
    • class, datatype property, object property
  2. http://dh.aks.ac.kr/iri/ekc#term
    • individual의 id
  3. 속성으로 기술되었던 url 데이터를 별도의 노드로 취급하고, 다른 노드와 관계를 설정하기로 함.
    • class: Web Resource / Encyves 기사냐 민백 기사냐 등의 세부 정보는 속성 데이터로 기록할 것.
    • relation
      • 현재 거의 모든 데이터는 edm:isShownAt
      • edm:isMentionedIn - 예: "최해산"에 대한 기사는 없고, "최무선" 기사로 연결되어 해당 기사 내에서 최해산이 언급된 경우.
      • edm:isShownBy - e-book 등의 멀티미디어 콘텐츠

앞으로의 데이터 활용

  1. Triplestore - Virtuoso
    • 데이터의 reuse와 공유
  2. Graph Database - Neo4j
    • 실제 데이터 확인, 관계 추적
  3. Gephi
    • 검색을 통한 전체 데이터 browsing/분석

추후 고려할 사항

  1. GPS 데이터 처리 방안 결정 필요!!
    • "~의 위치"와 같은 별도 노드 발생시키지 않음.
    • KML url을 id로 삼고 dcterms:spatial로 연결????


추가 데이터 생산 방안

  • 향교
  • 민백- 최신 데이터 필요
  • 전통사찰 - 본/말사 정보 조사 예정

서원

  • 원본 데이터 통계
    • 서원: 652건(encyves중복노드: 13건)
    • 인물: 1727건(encyves중복노드: 167건, 민백중복노드: 862건?)
  • 원본 데이터 점검 사항
    • 서원: 서원 이름 새롭게 부여해야 되는지 ... 동일 명칭이 많음
    • 인물: 현재 목록에 있는 인물들이 모두 다른 인물인지 확인 필요 ... 동명이인, 이칭, 한자 등 확인
  • encyves node와 비교
    • 기존 encvyes 노드와 비교하여 중복노드, 신규노드 확인