"2019 겨울방학 스터디 2주차"의 두 판 사이의 차이

seonae's wiki
이동: 둘러보기, 검색
(선애, 윤종웅 「전근대 인물 식별을 위한 인명 데이터베이스 구축 연구」)
(김바로선생님 특강)
 
(사용자 2명의 중간 판 8개는 보이지 않습니다)
1번째 줄: 1번째 줄:
 
[[2019 겨울방학 스터디 | 스터디 홈]]
 
[[2019 겨울방학 스터디 | 스터디 홈]]
==논문 선택==
+
{{스터디
*[http://dh.aks.ac.kr/wiki/index.php/DH_Theses 인문정보학과 학위 논문 목록] 중 택1
+
|스터디이름 = 2019 겨울방학 스터디 특강
*석사/박사 연도순으로 진행
+
|일정 = 2019/1/10 3-6시
{| class="wikitable" style="background:white;"
+
|장소 = 강의동 110호
!이름 || 논문 저자 || 논문 제목
+
|참여인원 = 광우,선애,정훈,승진,나라,에릭,인혁
|-
+
|내용 = 김바로선생님의 특강 : 네트워크 분석과 텍스트 분석
|광우 ||김지명 || 「기록문화유산의 디지털 큐레이션 모델 연구: 국채보상운동 기록물을 중심으로」
+
}}
|-
 
|인혁 || 김미정  || 「의궤 복식 정보의 전자적 활용방안 연구: 영조정순왕후가례도감의궤를 중심으로」
 
|-
 
|선애 || 윤종웅  || 「전근대 인물 식별을 위한 인명 데이터베이스 구축 연구」
 
|-
 
|정훈|| 김현종 || 「조선시대 교통로 복원과 공간 데이터베이스 설계: 경기도 광주부를 중심으로」
 
|-
 
|승진 || 서소리 || 「문화유산 지식 정보 데이터 모델 연구: 불탑 지식 정보망을 중심으로」
 
|-
 
|나라 || 김바로 || 「제도와 인사의 관계성 데이터 아카이브 구축과 활용: 근대 학교 자료(1895~1910)를 중심으로」
 
|-
 
|에릭 || || Oral History and Digital Humanities: Voice, Access, and Engagement
 
|}
 
  
===선애, 윤종웅 「전근대 인물 식별을 위한 인명 데이터베이스 구축 연구」===
+
==김바로선생님 특강==
* 수업시간에 조선왕조실록DB의 인명 정보에 대해 들었는데, 활용 연구가 아직 없다는 것과 윤종웅 선생님께서 이를 구축하셨다는 얘기를 듣고, 읽어보고자 함.
+
===준비하기===
*논문의 구성
+
*[https://cran.seoul.go.kr/ GNU R]
서론 : 연구 배경, 목적, 방법 및 범위
+
*[https://www.rstudio.com/products/rstudio/download/ RStudio]
본론1: 전근대 인명정보 처리 현황과 과제
+
*[https://gephi.org/users/download/ gephi]
본론2: 인명의 유형 및 출현형태
+
*[https://www.teamviewer.com/ko/ Teamviewer]
본론3: 인명식별을 위한 데이터 모델링
 
결론
 
====연구의 목적과 방법====
 
*'''왜 인명에 마크업을 해서 서비스해야 하는가?'''
 
**마크업을 통해 가독성을 높일 수 있음
 
**인명을 키워드로 하여 이용자의 지식 획득에 도움을 줄 수 있음
 
**인명은 본문에 접근하는 중요한 키워드
 
*다양한 형태로 나타나는 인명을 자동으로 식별할 수 있는 장치를 연구하는 것이 목적.
 
*기존 인명정보를 바탕으로 새로운 인명정보를 축적할 수 있는 DB설계가 가장 합리적.  
 
  
*연구 목적
+
*참고하기 : [https://www.youtube.com/channel/UC8yvEjmB4qcNr5G4g0FRdEA 유투브 채널 koreaDH]
**현재까지 축적된 인명정보 현황 파악
 
**조선왕조실록과 한국문집총간 인명색인을 중심으로 다양한 형태의 인명 유형 정리
 
**정리된 데이터를 토대로 인물을 식별하는데 필요한 요소 도출
 
**DB 스키마가 설계되면 실제 DB를 생성.
 
  
*'''연구 방법'''
+
===디지털 인문학===
**역사서와 개인 문집을 대상으로 다양한 인명 유형 정리
+
설계 – 구축 – 분석 –  해석 – 시각화
***활용 자료 : 조선왕조실록, 한국역대인물 종합정보시스템, 선원계보기략, 선원록
+
ontology - xml, rdb - GIS, linguistic analysis, network analysis -  - 3D, video, image
**정리 완료 이후 인명의 구체적인 출현 형태 및 특징 검토
 
**영조실록을 선택한 이유 : 재위년이 길어서 많은 인명 색인 추출 가능, 동시대의 승정원일기가 거의 완전하게 보존되어 있으며 전산화되어 있음.
 
***활용자료 : 영조실록
 
  
*연구 방법 흐름도
+
===네트워크 분석===
 +
*중요한 개념 : NODE & LINK
 +
* degree centrality  - hub 가장 많은 링크를 갖고 있는 노드.
 +
* betweeness centrality – linker 두 집단을 연결하는 데 꼭 필요한 노드.
 +
* closeness centrality – center 한 노드에서 네트워크의 끝노드까지의 영향력이 가장 큰 것.
  
  
====전근대 인명정보 처리 현황====
+
*네트워크 표현방법
*'''기존 인명정보 시스템'''
+
**1)source target weight (edge)
**한국역대인물 종합정보시스템
+
**이때 source와 target은 속성이 같아야 하는데, 속성이 다르면 계산이 복잡해지기 때문. but 속성이 다르더라도 2-mode등을 이용한 처리를 할 수는 있음.
***인물 생애정보, 문과방목, 무과방목, 사마방목, 잡과방목
+
**2) 인접행렬 : 표로 표현. but 잘 안씀.
**한중연 장서각 디지털 아카이브
+
**3) 그래프
***장서각 고도서 DB, 고문서 DB, 향토민속 구술녹취 DB
 
**국편 승정원일기
 
***문중요소(인명,지명,서명,연호), 식별자 refid
 
**국편 조선왕조실록
 
***문중요소(인명,지명,서명,연호), 한국,중국,일본,만몽 인명, 식별자 pid
 
**성균관대 한국족보자료
 
***9개의 문중요소.
 
*대표명칭 식별의 과제와 방법
 
**인명의 다양한 형태 : 성+명, 성+관직, 성+호, 성+자 등
 
**문헌별 인물 구성에 차이 존재
 
**인명정보를 통합하기 위해 UCI코드 활용 : 고유 인물에 주민번호를 부여하는 것과 유사
 
**UCI코드 부여를 통해
 
***상당수 인물에 고유 식별자를 부여함으로써 인물에 대한 기준 마련
 
***인물간 다양한 연계와 유통이 될 수 있는 기반 마련
 
***통합테이블에 인물을 식별할 수 있는 기본 정보 정리.
 
*인물 대표명칭의 정의 및 처리방안
 
**'''대표명칭'''
 
***하나의 인물이 다른 인물과 구별되는 명칭, 인명사전의 표제어와 같음
 
***논문에서는 성명이 대표명칭이며, 왕족의 경우 묘호나 봉작호가 대표명칭.
 
**대표명칭을 통해 인명 정보를 좀 더 정확하게 처리 가능.
 
**대표명칭 처리 방법
 
***동명이인을 숫자로 구분
 
***인물의 식별자를 만들어서 구분
 
***UCI코드 체계 활용
 
  
====인명식별을 위한 데이터 모델링====
 
  
===인혁, 김미정 「의궤 복식 정보의 전자적 활용방안 연구: 영조정순왕후가례도감의궤를 중심으로」===
+
*네트워크 분석 프로그램
===승진, 서소리 「문화유산 지식 정보 데이터 모델 연구: 불탑 지식 정보망을 중심으로」===
+
**UCINET : 네트워크 분석프로그램의 조상격. 1세대
===정훈, 김현종 「조선시대 교통로 복원과 공간 데이터베이스 설계: 경기도 광주부를 중심으로」===
+
**PAJEK, GEPHI : 요즘 많이쓰는 분석툴. UI가 좋음.
 +
 
 +
===텍스트 분석===
 +
*1) 형태소 분석 : 긴 텍스트를 형태소 단위로 분절하여 분석. 형태소 분석기 필요.
 +
**형태소분석기 :꼬꼬마 분석기(kkma), KoNLp(R)/KoNLpy(python) 등 다양.
 +
*2) 감정 분석 : 긴 텍스트를 분절한 뒤 어휘가 갖는 감정을 분석. 감정사전 필요.
 +
*3) 공기어 분석 : 텍스트 상에서 같이 출현하는 어휘들을 분석. (+군집분석)
 +
 
 +
=> 빈도 수 자체보다 전체 텍스트에서 차지하는 정도가 중요하므로 비율로 환산.
 +
=> 언어분석은 언어가 갖는 규칙을 명확히 이해하여 사전을 충실하게 구축하면 질좋은 산출물을 도출할 수 있음.
 +
=> 이 산출물에 대해 '''어떻게 해석하느냐'''가 중요한 것.

2019년 1월 11일 (금) 22:21 기준 최신판

스터디 홈


김바로선생님 특강

준비하기

디지털 인문학

설계 – 구축 – 분석 –  해석 – 시각화
ontology - xml, rdb - GIS, linguistic analysis, network analysis -  - 3D, video, image

네트워크 분석

  • 중요한 개념 : NODE & LINK
  • degree centrality - hub 가장 많은 링크를 갖고 있는 노드.
  • betweeness centrality – linker 두 집단을 연결하는 데 꼭 필요한 노드.
  • closeness centrality – center 한 노드에서 네트워크의 끝노드까지의 영향력이 가장 큰 것.


  • 네트워크 표현방법
    • 1)source target weight (edge)
    • 이때 source와 target은 속성이 같아야 하는데, 속성이 다르면 계산이 복잡해지기 때문. but 속성이 다르더라도 2-mode등을 이용한 처리를 할 수는 있음.
    • 2) 인접행렬 : 표로 표현. but 잘 안씀.
    • 3) 그래프


  • 네트워크 분석 프로그램
    • UCINET : 네트워크 분석프로그램의 조상격. 1세대
    • PAJEK, GEPHI : 요즘 많이쓰는 분석툴. UI가 좋음.

텍스트 분석

  • 1) 형태소 분석 : 긴 텍스트를 형태소 단위로 분절하여 분석. 형태소 분석기 필요.
    • 형태소분석기 :꼬꼬마 분석기(kkma), KoNLp(R)/KoNLpy(python) 등 다양.
  • 2) 감정 분석 : 긴 텍스트를 분절한 뒤 어휘가 갖는 감정을 분석. 감정사전 필요.
  • 3) 공기어 분석 : 텍스트 상에서 같이 출현하는 어휘들을 분석. (+군집분석)
=> 빈도 수 자체보다 전체 텍스트에서 차지하는 정도가 중요하므로 비율로 환산.
=> 언어분석은 언어가 갖는 규칙을 명확히 이해하여 사전을 충실하게 구축하면 질좋은 산출물을 도출할 수 있음. 
=> 이 산출물에 대해 어떻게 해석하느냐가 중요한 것.