Busan Data Guide
📚 부산 지역 인문학 자료의 디지털화(Digitalization)
『부산을 빛낸 인물』과 『부산의 자연마을』의 디지털 데이터 변환
📖 들어가며
본 프로젝트는 부산광역시 문화유산과 시사편찬실에서 발간한 『부산을 빛낸 인물』과 『부산의 자연마을』이라는 부산의 인문 자료를 디지털 데이터로 변환하는 기초 작업입니다.
📚 프로젝트 규모 및 팀 구성
작업 대상 자료: 부산광역시사편찬위원회 자료실 또는 부산 지역사 도서관에서 PDF 다운로드 & 모든 팀원 활동일지 다운로드
👥 역할 분담 (총 26명: 인문계 23명 + 이공계 3명)
역할: 인문계 학생들은 텍스트 구조화(EXCEL) 및 태깅(XML) + 이공계 학생들은 기술 지원 및 자동화
A팀
『부산을 빛낸 인물』전 3권 (780 페이지)
- 구조화: 황인영, 이선영 (390페이지씩)
- 태깅: 박하영, 김남희, 최은
- 검수: 박수연
B팀
『부산의 자연마을』제1, 2, 6권(1,140여 페이지)
- 구조화: 김수민, 김주난, 임승주 (380페이지씩)
- 태깅: 김수인, 김민경, 홍정빈
- 검수: 정재환
C팀
『부산의 자연마을』제3, 4, 5권(1,140여 페이지)
- 구조화: 김수영, 엄미연, 윤채영 (380페이지씩)
- 태깅: 우지성, 임혜민, 조혜원
- 검수: 노수미
D팀
전체 작업 (약 3,000 페이지)
- 원본 파일(txt): 이다원, 최나영 (1500페이지씩)
- 표, 이미지 및 전체 검수: 윤수현
- 전처리 및 XML 변환: 강주연, 박지현, 박비원
📊 A~C팀의 역할
- 구조화: PDF에서 추출한 텍스트를 팀별 작업 시트에 입력
- 매주 일정 분량씩 검수자에게 제출
- 태깅: 의미 요소 식별 (XML 태깅을 위한 준비 작업)
- 검수: 누락된 부분 없는지 확인 및 작업 일정 관리
💻 D팀의 역할
- 파이썬 스크립트 개발 (태깅 마커 [P][/P] → XML 자동 변환)
- 데이터 검증 및 오류 체크 자동화
- 팀 내 기술적 문제 실시간 지원
- VScode, Git 등 도구 활용 지원
이제 책 속의 자료를 시맨틱 데이터로 변환하는 기초 작업을 진행할 예정입니다. 왜 이 작업이 필요할까요?
부산광역시사편찬위원회 자료실에 PDF로 제공되는 도서는 한 번에 한 사람만 읽을 수 있지만, 디지털 데이터로 변환된 지식은:
- 💡 검색 가능: "1950년대 부산 영도구"라고 검색하면 관련된 모든 내용이 한눈에 보이게 만들 수 있습니다!
- 🔗 연결 가능: 인물과 장소, 사건이 서로 연결되어 새로운 통찰을 발견할 수 있습니다!
- 📊 분석 가능: 빈도, 패턴, 관계를 통해 보이지 않던 역사적 의미를 발견할 수 있습니다!
- 🌐 공유 가능: 전 세계 연구자들과 부산의 이야기를 나눌 수 있어요
🔥 전체 로드맵: 3단계 여정
1
디지털화(Digitalization) 기초 작업
현재 단계
- PDF → 텍스트 추출
- 구조화 → CSV 정리
- 태깅 → XML 변환
목표: 원천 자료를 DB에 업로드 가능한 형태로 구조화
2
데이터 분석(Data Analysis)
- 빈도 분석 & 키워드 추출
- 관계 파악
- 의미 해석
목표: 구축된 데이터에서 학문적 의미와 패턴 도출
3
데이터 설계(Data Modeling)
- 온톨로지 설계
- 지식 그래프 구상
- 활용 방안 기획
목표: 플랫폼 구축을 위한 데이터 모델링
📊 작업일정 계획 (2026년 1월~2월)
부산 인문자료 디지털화 온보딩 타임라인
💻 실습용 작업 스프레드시트
아래는 우리 팀이 실제로 작업하는 구글 시트입니다. 실시간으로 데이터를 확인하고 입력할 수 있어요.
📊 PNU_DHC 플랫폼 데이터 작업 시트
새 탭에서 열기 →
💡 스프레드시트 사용 팁
- 위 임베드 창에서 바로 데이터를 확인할 수 있어요
- 실제 입력은 "새 탭에서 열기" 버튼을 클릭해서 진행하세요
- 여러 사람이 동시에 작업할 수 있어요 (실시간 공동 편집)
- 변경 이력은 자동으로 저장됩니다
🎯 단계별 XML 태깅 전략 (난이도별 접근)
1
1차 작업 (필수) - 가장 명확한 요소
현재 작업 단계
| 인명 | [P]최치원[/P] |
사람 이름 (판단 쉬움) |
| 지명 | [L]영도구[/L] |
장소, 지역명 (판단 쉬움) |
💡 추천: 학부생 기초 작업은 인명과 지명만 집중하는 것을 권장합니다!
- ✅ 판단이 가장 명확
- ✅ 작업 속도가 빠름
- ✅ 온톨로지 핵심인 "누가-어디서" 관계망 우선 구축
2
2차 작업 (선택) - 조금 더 복잡
| 시간 | [D]1876년[/D] |
날짜, 연도, 시대 |
| 기관명 | [O]동래부[/O] |
단체, 조직, 관청 |
| 서명 | [T]동래부지[/T] |
책, 문서, 작품명 |
진행 시기: 1차 작업 완료 후 또는 동시 진행 가능
3
3차 작업 (고급) - 전문가 검수 필요
| 문화유산 | [H]동래읍성[/H] |
유적, 문화재, 건축물 |
| 사건명 | [E]임진왜란[/E] |
역사적 사건, 행사 |
| 작품명 | [W]해운대가[/W] |
시, 그림, 예술작품 |
진행 시기: 데이터 분석 및 설계 단계에서
※ 문화유산과 지명, 작품명과 서명의 구분이 애매할 수 있어 전문가 판단 필요