행위

Digital Panopticon

red

Snu문정혁 (토론 | 기여) 사용자의 2020년 10월 2일 (금) 14:01 판 (이미지 추가)


Who 누가

When 언제

Where 어디서

What 무엇을

How 어떻게

데이터 검색기 (Data Search builder)

Dp1.jpg 아래와 같은 다양한 기준을 골라 dataset을 자세하게 검색할 수 있다.

검색 기준

  • dataset의 출처가 되는 문서의 종류
  • 문서에 기록된 기간
  • 성과 이름
  • 생년월일
  • 키, 머리카락과 동공의 색 등
  • 직업
  • 종교
  • 특별한 신체특징(흉터, 대머리, 발치, 점, 피어싱 등)
  • 타투(존재여부, 위치, 쓰여진 단어, 주제)
  • 재판결과, 사면, 출소사유 등
  • 결혼 및 가족


문서에 기록된 자료를 OCR과 직접 타이핑하여 디지털화 한 후 node.js를 이용하여 자료들을 데이터베이스에 알맞게 정리하였다. 먼저 각 문서들에 나타나는 동일인물을 연결시키고, 불가능한 기록을 가진 사람들을 제거해 인물에 대한 데이터베이스를 만들었다. 
그리고 각 인물이 가지는 특성을 분석했을 때, 비슷한 특성이지만 기록된 단어나 형태가 달라 다르게 분류되는 특성들이 있다. 이는 데이터를 분류하고 검색할 때 비효율적이므로 비슷한 특성은 동일한 특성으로 분류할 수 있도록 하는 것이 필요하다. 수작업으로도 모두 할 수 있겠지만, Levenshtein distance, DICE나 Jaro-Winkler와 같은 비교 알고리즘을 이용하여 데이터를 조금 더 쉽게 처리했다. 이후 수작업으로 MySQL과 node.js을 이용한 웹 인터페이스의 도움을 받아 데이터들을 연결하는 작업을 했다.
이 데이터들은 MySQL 데이터베이스에 테이블 형태로 정리되는데, 이를 쉽게 검색하고 정렬하기 위해 Elastic Search 검색엔진을 이용했다.

Visualization(시각화)

데이터를 검색한 뒤 정렬된 데이터를 보는 것 만으로는 자료를 이용하기에 한계가 있다. Digital Panopticon에서는 적절한 시각화를 통해 자료를 볼 수 있도록 기능을 제공하고 있다.디지털 판옵티콘에는 세가지의 시각화 유형이 있다. 이를 이용해 판옵티콘의 데이터 검색 결과를 시각화할 수 있다. 데이터를 검색한 결과창에서 어떤 시각화 유형을 선택할 것인지, 그리고 범례에 대해서 설정할 수 있다. Digital Panopticon에서는 d3.js를 이용해 데이터 시각화를 구현했다.


파이 차트(Pie chart)

파이 차트에서 각 슬라이스의 크기는 각 기준에 대해 특성을 만족하는 사람의 수에 비례한다.

Dp2.jpg

파이차트 옵션

  • 파이(Pies)

파이를 어떻게 설정한 것인지 선택할 수 있다. 만약 'just one pie'메뉴를 선택한다면, 선택한 기준에 대해 각 특성마다 파이 가 생성된다. 예를 들어, 'Gender(성별)'을 선택한다면 'male(남성)', 'female(여성)', 'Unknown(알수없음)'에 해당하는 각각의 파이가 생성된다.

  • 파이 슬라이스(Pie Slices)

파이를 어떻게 나눌 것인지 선택할 수 있다. 만약 'Gender'를 선택한다면 'male', 'female', 'unknown'에 해당하는 슬라이스가 각각 생성된다.


Sankey Diagram

Sankey Diagram은 기준에 대해 특성을 만족하는 사람의 수에 비례하여 Start point와 End point를 잇는 화살표가 굵어지는 flow diagram이다.

Dp3.jpg

Sankey Diagram 옵션

  • Start Point

Sankey Diagram에서 좌측에 해당하는 기준을 설정할 수 있다. 예를 들어, 'Offence'를 시작점으로 선택한다면 각 범죄항목에 해당하는 시작지점을 생성할 수 있다.

  • End Point

Sankey Diagram에서 우측에 해당하는 기준을 설정할 수 있다. 예를 들어, 'Sentence Outcome'을 End point로 설정한다면 'Transported', 'Sureties', 'Commited to military service', 'Imprisoned', 'Freed', 'Executed', 'Unknown'에 해당하는 End point가 생성된다.

Life chart

각 점이 사건에 해당하는 산점도(Scatter Chart)를 생성한다. 사건에 해당하는 점을 잇는 선분들은 life path를 보여준다.

Dp4.jpg

Life Chart 옵션

  • Colours

기준에 따라 life chart의 선분들의 색상이 나뉘는데, 이 기준을 무엇으로 설정할 것인지 결정할 수 있다. 예를 들어 'offence'를 선택한다면, 범죄항목에 따라 선분의 색상이 다르게 표현된다.

  • Events

산점도(Scatter chart)의 각 점은 중요한 사건(태어남, 징역, 출소 등)을 뜻한다. Events항목은 사소한 사건들(문서에 등장한 시점, 다른 곳으로 이동한 시점) 또한 산점도에 표현할 것인가 아닌가를 선택할 수 있다.

Why 왜