Busan Data Guide

pnu_dhc
이동: 둘러보기, 검색

부산 지역 인문학 데이터 편찬 입문 가이드

📚 부산 지역 인문학 자료의 디지털화(Digitalization)

『부산을 빛낸 인물』과 『부산의 자연마을』의 디지털 데이터 변환

📖 들어가며

본 프로젝트는 부산광역시 문화유산과 시사편찬실에서 발간한 『부산을 빛낸 인물』과 『부산의 자연마을』이라는 부산의 인문 자료를 디지털 데이터로 변환하는 기초 작업입니다.

📚 프로젝트 규모 및 팀 구성

작업 대상 자료: 부산광역시사편찬위원회 자료실 또는 부산 지역사 도서관에서 PDF 다운로드 & 모든 팀원 활동일지 다운로드

👥 역할 분담 (총 26명: 인문계 23명 + 이공계 3명)

역할: 인문계 학생들은 텍스트 구조화(EXCEL) 및 태깅(XML) + 이공계 학생들은 기술 지원 및 자동화

A팀

『부산을 빛낸 인물』전 3권 (780 페이지)

  • 구조화: 황인영, 이선영 (390페이지씩)
  • 태깅: 박하영, 김남희, 최은
  • 검수: 박수연
B팀

『부산의 자연마을』제1, 2, 6권(1,140여 페이지)

  • 구조화: 김수민, 김주난, 임승주 (380페이지씩)
  • 태깅: 김수인, 김민경, 홍정빈
  • 검수: 정재환
C팀

『부산의 자연마을』제3, 4, 5권(1,140여 페이지)

  • 구조화: 김수영, 엄미연, 윤채영 (380페이지씩)
  • 태깅: 우지성, 임혜민, 조혜원
  • 검수: 노수미
D팀

전체 작업 (약 3,000 페이지)

  • 원본 파일(txt): 이다원, 최나영 (1500페이지씩)
  • 표, 이미지 및 전체 검수: 윤수현
  • 전처리 및 XML 변환: 강주연, 박지현, 박비원
📊 A~C팀의 역할
  • 구조화: PDF에서 추출한 텍스트를 팀별 작업 시트에 입력
  • 매주 일정 분량씩 검수자에게 제출
  • 태깅: 의미 요소 식별 (XML 태깅을 위한 준비 작업)
  • 검수: 누락된 부분 없는지 확인 및 작업 일정 관리
💻 D팀의 역할
  • 파이썬 스크립트 개발 (태깅 마커 [P][/P] → XML 자동 변환)
  • 데이터 검증 및 오류 체크 자동화
  • 팀 내 기술적 문제 실시간 지원
  • VScode, Git 등 도구 활용 지원

이제 책 속의 자료를 시맨틱 데이터로 변환하는 기초 작업을 진행할 예정입니다. 왜 이 작업이 필요할까요?

부산광역시사편찬위원회 자료실에 PDF로 제공되는 도서는 한 번에 한 사람만 읽을 수 있지만, 디지털 데이터로 변환된 지식은:

  • 💡 검색 가능: "1950년대 부산 영도구"라고 검색하면 관련된 모든 내용이 한눈에 보이게 만들 수 있습니다!
  • 🔗 연결 가능: 인물과 장소, 사건이 서로 연결되어 새로운 통찰을 발견할 수 있습니다!
  • 📊 분석 가능: 빈도, 패턴, 관계를 통해 보이지 않던 역사적 의미를 발견할 수 있습니다!
  • 🌐 공유 가능: 전 세계 연구자들과 부산의 이야기를 나눌 수 있어요

🔥 전체 로드맵: 3단계 여정

1

디지털화(Digitalization) 기초 작업

현재 단계

  • PDF → 텍스트 추출
  • 구조화 → CSV 정리
  • 태깅 → XML 변환

목표: 원천 자료를 DB에 업로드 가능한 형태로 구조화

2

데이터 분석(Data Analysis)

  • 빈도 분석 & 키워드 추출
  • 관계 파악
  • 의미 해석

목표: 구축된 데이터에서 학문적 의미와 패턴 도출

3

데이터 설계(Data Modeling)

  • 온톨로지 설계
  • 지식 그래프 구상
  • 활용 방안 기획

목표: 플랫폼 구축을 위한 데이터 모델링

📊 작업일정 계획 (2026년 1월~2월)

부산 인문자료 디지털화 온보딩 타임라인

부산 인문자료 디지털화 온보딩 타임라인

💻 실습용 작업 스프레드시트

아래는 우리 팀이 실제로 작업하는 구글 시트입니다. 실시간으로 데이터를 확인하고 입력할 수 있어요.

📊 PNU_DHC 플랫폼 데이터 작업 시트 새 탭에서 열기 →
💡 스프레드시트 사용 팁
  • 위 임베드 창에서 바로 데이터를 확인할 수 있어요
  • 실제 입력은 "새 탭에서 열기" 버튼을 클릭해서 진행하세요
  • 여러 사람이 동시에 작업할 수 있어요 (실시간 공동 편집)
  • 변경 이력은 자동으로 저장됩니다

🎯 단계별 XML 태깅 전략 (난이도별 접근)

1

1차 작업 (필수) - 가장 명확한 요소

현재 작업 단계

인명 [P]최치원[/P] 사람 이름 (판단 쉬움)
지명 [L]영도구[/L] 장소, 지역명 (판단 쉬움)

💡 추천: 학부생 기초 작업은 인명과 지명만 집중하는 것을 권장합니다!

  • ✅ 판단이 가장 명확
  • ✅ 작업 속도가 빠름
  • ✅ 온톨로지 핵심인 "누가-어디서" 관계망 우선 구축
2

2차 작업 (선택) - 조금 더 복잡

시간 [D]1876년[/D] 날짜, 연도, 시대
기관명 [O]동래부[/O] 단체, 조직, 관청
서명 [T]동래부지[/T] 책, 문서, 작품명

진행 시기: 1차 작업 완료 후 또는 동시 진행 가능

3

3차 작업 (고급) - 전문가 검수 필요

문화유산 [H]동래읍성[/H] 유적, 문화재, 건축물
사건명 [E]임진왜란[/E] 역사적 사건, 행사
작품명 [W]해운대가[/W] 시, 그림, 예술작품

진행 시기: 데이터 분석 및 설계 단계에서

※ 문화유산과 지명, 작품명과 서명의 구분이 애매할 수 있어 전문가 판단 필요

© 2025 부산대학교 디지털인문학센터 (Digital Humanities Center of Pusan National University)

PNU Knowledge Base 로컬 인문학 프로젝트

문의 및 결과물 제출: 김서윤 sy527991@pusan.ac.kr | 051-510-1594 | 최종 업데이트: 2025년 12월 20일