행위

"Digital Panopticon"의 두 판 사이의 차이

red

(임시저장)
(구현과정-디지털화)
33번째 줄: 33번째 줄:
 
'''구현 과정'''
 
'''구현 과정'''
 
* 디지털화
 
* 디지털화
문서들 중에 수기로 작성된 자료들은 직접 타이핑하고, 프린트된 자료들은 OCR을 이용해 문서들을 디지털화 했다. 직접 타이핑하는 경우 두 명 이상이 진행한 타이핑 자료들을 컴퓨터로 서로 대조하여 수정하는 'Double-rekeying'작업을 이용해 오타를 줄였다.  
+
문서들 중에 수기로 작성된 자료들은 직접 타이핑하고, 프린트된 자료들은 OCR을 이용해 문서들을 디지털화 했다.
OCR의 경우 일반적인 텍스트에서는 오류가 거의 발생하지 않았지만, 복잡한 표를 해석할 때, 행과 열사이의 선들을 누락하여 오류가 꽤 많이 발생했다.  
+
직접 타이핑하는 경우 두 명 이상이 진행한 타이핑 자료들을 컴퓨터로 서로 대조하여 수정하는 'Double-rekeying'작업을 이용해 오타를 줄였다.  
+
 
 +
Middlesex House of Detention Calendars 1836-1889 와 Metropolitan Police Register of Habitual Criminals 1881-1925자료는 OCR을 이용해 번역이 진행되었다.
 +
OCR의 경우 일반적인 텍스트에서는 오류가 거의 발생하지 않았지만, 복잡한 표를 해석할 때, 행과 열사이의 선들을 누락하여 오류가 꽤 많이 발생했다.  
 +
OCR을 이용해 디지털로 번역한 자료들의 정확도는 99%를 상회했다.
 +
 
 +
UK Licences for the Parole of Convicts 1853-1925의 일부 문서는 'Double-rekeying'을 이용하여 직접 타이핑을 진행했다.
 +
Rekeying의 전체적인 정확도는 약 98~99%였는데, 오류는 대부분 사람이 인식하기 힘든 필체때문이었다.
  
 
===Visualization(시각화)===
 
===Visualization(시각화)===

2020년 10월 2일 (금) 15:24 판


Who 누가

When 언제

Where 어디서

What 무엇을

How 어떻게

개요

관계사진 올릴 예정

데이터 검색기 (Data Search builder)

Dp1.jpg

아래와 같은 다양한 기준을 골라 dataset을 자세하게 검색할 수 있다.

검색 기준

  • dataset의 출처가 되는 문서의 종류
  • 문서에 기록된 기간
  • 성과 이름
  • 생년월일
  • 키, 머리카락과 동공의 색 등
  • 직업
  • 종교
  • 특별한 신체특징(흉터, 대머리, 발치, 점, 피어싱 등)
  • 타투(존재여부, 위치, 쓰여진 단어, 주제)
  • 재판결과, 사면, 출소사유 등
  • 결혼 및 가족

구현 과정

  • 디지털화

문서들 중에 수기로 작성된 자료들은 직접 타이핑하고, 프린트된 자료들은 OCR을 이용해 문서들을 디지털화 했다. 직접 타이핑하는 경우 두 명 이상이 진행한 타이핑 자료들을 컴퓨터로 서로 대조하여 수정하는 'Double-rekeying'작업을 이용해 오타를 줄였다.

Middlesex House of Detention Calendars 1836-1889 와 Metropolitan Police Register of Habitual Criminals 1881-1925자료는 OCR을 이용해 번역이 진행되었다. OCR의 경우 일반적인 텍스트에서는 오류가 거의 발생하지 않았지만, 복잡한 표를 해석할 때, 행과 열사이의 선들을 누락하여 오류가 꽤 많이 발생했다. OCR을 이용해 디지털로 번역한 자료들의 정확도는 99%를 상회했다.

UK Licences for the Parole of Convicts 1853-1925의 일부 문서는 'Double-rekeying'을 이용하여 직접 타이핑을 진행했다. Rekeying의 전체적인 정확도는 약 98~99%였는데, 오류는 대부분 사람이 인식하기 힘든 필체때문이었다.

Visualization(시각화)

데이터를 검색한 뒤 정렬된 데이터를 보는 것 만으로는 자료를 이용하기에 한계가 있다. Digital Panopticon에서는 적절한 시각화를 통해 자료를 볼 수 있도록 기능을 제공하고 있다.디지털 판옵티콘에는 세가지의 시각화 유형이 있다. 이를 이용해 판옵티콘의 데이터 검색 결과를 시각화할 수 있다. 데이터를 검색한 결과창에서 어떤 시각화 유형을 선택할 것인지, 그리고 범례에 대해서 설정할 수 있다. Digital Panopticon에서는 d3.js를 이용해 데이터 시각화를 구현했다.


파이 차트(Pie chart)

파이 차트에서 각 슬라이스의 크기는 각 기준에 대해 특성을 만족하는 사람의 수에 비례한다.

Dp2.jpg

파이차트 옵션

  • 파이(Pies)

파이를 어떻게 설정한 것인지 선택할 수 있다. 만약 'just one pie'메뉴를 선택한다면, 선택한 기준에 대해 각 특성마다 파이 가 생성된다. 예를 들어, 'Gender(성별)'을 선택한다면 'male(남성)', 'female(여성)', 'Unknown(알수없음)'에 해당하는 각각의 파이가 생성된다.

  • 파이 슬라이스(Pie Slices)

파이를 어떻게 나눌 것인지 선택할 수 있다. 만약 'Gender'를 선택한다면 'male', 'female', 'unknown'에 해당하는 슬라이스가 각각 생성된다.


Sankey Diagram

Sankey Diagram은 기준에 대해 특성을 만족하는 사람의 수에 비례하여 Start point와 End point를 잇는 화살표가 굵어지는 flow diagram이다.

Dp3.jpg

Sankey Diagram 옵션

  • Start Point


Sankey Diagram에서 좌측에 해당하는 기준을 설정할 수 있다. 예를 들어, 'Offence'를 시작점으로 선택한다면 각 범죄항목에 해당하는 시작지점을 생성할 수 있다.* End Point

Sankey Diagram에서 우측에 해당하는 기준을 설정할 수 있다. 예를 들어, 'Sentence Outcome'을 End point로 설정한다면 'Transported', 'Sureties', 'Commited to military service', 'Imprisoned', 'Freed', 'Executed', 'Unknown'에 해당하는 End point가 생성된다.

Life chart

각 점이 사건에 해당하는 산점도(Scatter Chart)를 생성한다. 사건에 해당하는 점을 잇는 선분들은 life path를 보여준다.

Dp4.jpg

Life Chart 옵션

  • Colours

기준에 따라 life chart의 선분들의 색상이 나뉘는데, 이 기준을 무엇으로 설정할 것인지 결정할 수 있다. 예를 들어 'offence'를 선택한다면, 범죄항목에 따라 선분의 색상이 다르게 표현된다.

  • Events

산점도(Scatter chart)의 각 점은 중요한 사건(태어남, 징역, 출소 등)을 뜻한다. Events항목은 사소한 사건들(문서에 등장한 시점, 다른 곳으로 이동한 시점) 또한 산점도에 표현할 것인가 아닌가를 선택할 수 있다.

Why 왜