"2019 겨울방학 스터디 2주차"의 두 판 사이의 차이

2019년 1월 11일 (금) 22:21 기준 최신판

2019 겨울방학 스터디 특강
일정	2019/1/10 3-6시
장소	강의동 110호
참여인원	광우,선애,정훈,승진,나라,에릭,인혁
내용	김바로선생님의 특강 : 네트워크 분석과 텍스트 분석

김바로선생님 특강

준비하기

참고하기 : 유투브 채널 koreaDH

디지털 인문학

설계 – 구축 – 분석 –  해석 – 시각화
ontology - xml, rdb - GIS, linguistic analysis, network analysis -  - 3D, video, image

네트워크 분석

중요한 개념 : NODE & LINK
degree centrality - hub 가장 많은 링크를 갖고 있는 노드.
betweeness centrality – linker 두 집단을 연결하는 데 꼭 필요한 노드.
closeness centrality – center 한 노드에서 네트워크의 끝노드까지의 영향력이 가장 큰 것.

네트워크 표현방법
- 1)source target weight (edge)
- 이때 source와 target은 속성이 같아야 하는데, 속성이 다르면 계산이 복잡해지기 때문. but 속성이 다르더라도 2-mode등을 이용한 처리를 할 수는 있음.
- 2) 인접행렬 : 표로 표현. but 잘 안씀.
- 3) 그래프

네트워크 분석 프로그램
- UCINET : 네트워크 분석프로그램의 조상격. 1세대
- PAJEK, GEPHI : 요즘 많이쓰는 분석툴. UI가 좋음.

텍스트 분석

1) 형태소 분석 : 긴 텍스트를 형태소 단위로 분절하여 분석. 형태소 분석기 필요.
- 형태소분석기 :꼬꼬마 분석기(kkma), KoNLp(R)/KoNLpy(python) 등 다양.
2) 감정 분석 : 긴 텍스트를 분절한 뒤 어휘가 갖는 감정을 분석. 감정사전 필요.
3) 공기어 분석 : 텍스트 상에서 같이 출현하는 어휘들을 분석. (+군집분석)

=> 빈도 수 자체보다 전체 텍스트에서 차지하는 정도가 중요하므로 비율로 환산.
=> 언어분석은 언어가 갖는 규칙을 명확히 이해하여 사전을 충실하게 구축하면 질좋은 산출물을 도출할 수 있음. 
=> 이 산출물에 대해 어떻게 해석하느냐가 중요한 것.

@@ 1번째 줄: / 1번째 줄: @@
 [[2019 겨울방학 스터디 | 스터디 홈]]
-==논문 선택==
+{{스터디
-*[http://dh.aks.ac.kr/wiki/index.php/DH_Theses 인문정보학과 학위 논문 목록] 중 택1
+|스터디이름 = 2019 겨울방학 스터디 특강
-*석사/박사 연도순으로 진행
+|일정 = 2019/1/10 3-6시
-{| class="wikitable" style="background:white;"
+|장소 = 강의동 110호
-!이름 || 논문 저자 || 논문 제목
+|참여인원 = 광우,선애,정훈,승진,나라,에릭,인혁
-|-
+|내용 = 김바로선생님의 특강 : 네트워크 분석과 텍스트 분석
-|광우 ||김지명 || 「기록문화유산의 디지털 큐레이션 모델 연구: 국채보상운동 기록물을 중심으로」
+}}
-|-
-|인혁 || 김미정  || 「의궤 복식 정보의 전자적 활용방안 연구: 영조정순왕후가례도감의궤를 중심으로」
-|-
-|선애 || 윤종웅  || 「전근대 인물 식별을 위한 인명 데이터베이스 구축 연구」
-|-
-|정훈|| 김현종 || 「조선시대 교통로 복원과 공간 데이터베이스 설계: 경기도 광주부를 중심으로」
-|-
-|승진 || 서소리 || 「문화유산 지식 정보 데이터 모델 연구: 불탑 지식 정보망을 중심으로」
-|-
-|나라 || 김바로 || 「제도와 인사의 관계성 데이터 아카이브 구축과 활용: 근대 학교 자료(1895~1910)를 중심으로」
-|-
-|에릭 || || Oral History and Digital Humanities: Voice, Access, and Engagement
-|}
-===선애, 윤종웅 「전근대 인물 식별을 위한 인명 데이터베이스 구축 연구」===
+==김바로선생님 특강==
-* 수업시간에 조선왕조실록DB의 인명 정보에 대해 들었는데, 활용 연구가 아직 없다는 것과 윤종웅 선생님께서 이를 구축하셨다는 얘기를 듣고, 읽어보고자 함.
+===준비하기===
-*논문의 구성
+*[https://cran.seoul.go.kr/ GNU R]
- 서론 : 연구 배경, 목적, 방법 및 범위
+*[https://www.rstudio.com/products/rstudio/download/ RStudio]
- 본론1: 전근대 인명정보 처리 현황과 과제
+*[https://gephi.org/users/download/ gephi]
- 본론2: 인명의 유형 및 출현형태
+*[https://www.teamviewer.com/ko/ Teamviewer]
- 본론3: 인명식별을 위한 데이터 모델링
- 결론
-====연구의 목적과 방법====
-*'''왜 인명에 마크업을 해서 서비스해야 하는가?'''
-**마크업을 통해 가독성을 높일 수 있음
-**인명을 키워드로 하여 이용자의 지식 획득에 도움을 줄 수 있음
-**인명은 본문에 접근하는 중요한 키워드
-*다양한 형태로 나타나는 인명을 자동으로 식별할 수 있는 장치를 연구하는 것이 목적.
-*기존 인명정보를 바탕으로 새로운 인명정보를 축적할 수 있는 DB설계가 가장 합리적.
-*연구 목적
+*참고하기 : [https://www.youtube.com/channel/UC8yvEjmB4qcNr5G4g0FRdEA 유투브 채널 koreaDH]
-**현재까지 축적된 인명정보 현황 파악
-**조선왕조실록과 한국문집총간 인명색인을 중심으로 다양한 형태의 인명 유형 정리
-**정리된 데이터를 토대로 인물을 식별하는데 필요한 요소 도출
-**DB 스키마가 설계되면 실제 DB를 생성.
-*'''연구 방법'''
+===디지털 인문학===
-**역사서와 개인 문집을 대상으로 다양한 인명 유형 정리
+ 설계 – 구축 – 분석 –  해석 – 시각화
-***활용 자료 : 조선왕조실록, 한국역대인물 종합정보시스템, 선원계보기략, 선원록
+ ontology - xml, rdb - GIS, linguistic analysis, network analysis -  - 3D, video, image
-**정리 완료 이후 인명의 구체적인 출현 형태 및 특징 검토
-**영조실록을 선택한 이유 : 재위년이 길어서 많은 인명 색인 추출 가능, 동시대의 승정원일기가 거의 완전하게 보존되어 있으며 전산화되어 있음.
-***활용자료 : 영조실록
-*연구 방법 흐름도
+===네트워크 분석===
+*중요한 개념 : NODE & LINK
+* degree centrality  - hub 가장 많은 링크를 갖고 있는 노드.
+* betweeness centrality – linker 두 집단을 연결하는 데 꼭 필요한 노드.
+* closeness centrality – center 한 노드에서 네트워크의 끝노드까지의 영향력이 가장 큰 것.
-====전근대 인명정보 처리 현황====
+*네트워크 표현방법
-*'''기존 인명정보 시스템'''
+**1)source target weight (edge)
-**한국역대인물 종합정보시스템
+**이때 source와 target은 속성이 같아야 하는데, 속성이 다르면 계산이 복잡해지기 때문. but 속성이 다르더라도 2-mode등을 이용한 처리를 할 수는 있음.
-***인물 생애정보, 문과방목, 무과방목, 사마방목, 잡과방목
+**2) 인접행렬 : 표로 표현. but 잘 안씀.
-**한중연 장서각 디지털 아카이브
+**3) 그래프
-***장서각 고도서 DB, 고문서 DB, 향토민속 구술녹취 DB
-**국편 승정원일기
-***문중요소(인명,지명,서명,연호), 식별자 refid
-**국편 조선왕조실록
-***문중요소(인명,지명,서명,연호), 한국,중국,일본,만몽 인명, 식별자 pid
-**성균관대 한국족보자료
-***9개의 문중요소.
-*대표명칭 식별의 과제와 방법
-**인명의 다양한 형태 : 성+명, 성+관직, 성+호, 성+자 등
-**문헌별 인물 구성에 차이 존재
-**인명정보를 통합하기 위해 UCI코드 활용 : 고유 인물에 주민번호를 부여하는 것과 유사
-**UCI코드 부여를 통해
-***상당수 인물에 고유 식별자를 부여함으로써 인물에 대한 기준 마련
-***인물간 다양한 연계와 유통이 될 수 있는 기반 마련
-***통합테이블에 인물을 식별할 수 있는 기본 정보 정리.
-*인물 대표명칭의 정의 및 처리방안
-**'''대표명칭'''
-***하나의 인물이 다른 인물과 구별되는 명칭, 인명사전의 표제어와 같음
-***논문에서는 성명이 대표명칭이며, 왕족의 경우 묘호나 봉작호가 대표명칭.
-**대표명칭을 통해 인명 정보를 좀 더 정확하게 처리 가능.
-**대표명칭 처리 방법
-***동명이인을 숫자로 구분
-***인물의 식별자를 만들어서 구분
-***UCI코드 체계 활용
-====인명식별을 위한 데이터 모델링====
-===인혁, 김미정 「의궤 복식 정보의 전자적 활용방안 연구: 영조정순왕후가례도감의궤를 중심으로」===
+*네트워크 분석 프로그램
-===승진, 서소리 「문화유산 지식 정보 데이터 모델 연구: 불탑 지식 정보망을 중심으로」===
+**UCINET : 네트워크 분석프로그램의 조상격. 1세대
-===정훈, 김현종 「조선시대 교통로 복원과 공간 데이터베이스 설계: 경기도 광주부를 중심으로」===
+**PAJEK, GEPHI : 요즘 많이쓰는 분석툴. UI가 좋음.
+===텍스트 분석===
+*1) 형태소 분석 : 긴 텍스트를 형태소 단위로 분절하여 분석. 형태소 분석기 필요.
+**형태소분석기 :꼬꼬마 분석기(kkma), KoNLp(R)/KoNLpy(python) 등 다양.
+*2) 감정 분석 : 긴 텍스트를 분절한 뒤 어휘가 갖는 감정을 분석. 감정사전 필요.
+*3) 공기어 분석 : 텍스트 상에서 같이 출현하는 어휘들을 분석. (+군집분석)
+ => 빈도 수 자체보다 전체 텍스트에서 차지하는 정도가 중요하므로 비율로 환산.
+ => 언어분석은 언어가 갖는 규칙을 명확히 이해하여 사전을 충실하게 구축하면 질좋은 산출물을 도출할 수 있음.
+ => 이 산출물에 대해 '''어떻게 해석하느냐'''가 중요한 것.

"2019 겨울방학 스터디 2주차"의 두 판 사이의 차이

2019년 1월 11일 (금) 22:21 기준 최신판

목차

김바로선생님 특강

준비하기

디지털 인문학

네트워크 분석

텍스트 분석

둘러보기 메뉴

개인 도구

이름공간

변수

보기

더 보기

검색

둘러보기

작업

도구