"Busan Data Guide"의 두 판 사이의 차이
| (같은 사용자의 중간 판 21개는 보이지 않습니다) | |||
| 459번째 줄: | 459번째 줄: | ||
<div class="container"> | <div class="container"> | ||
<header> | <header> | ||
| − | <h1>📚 부산 지역 인문학 | + | <h1>📚 부산 지역 인문학 자료의 디지털화(Digitalization)</h1> |
<p>『부산을 빛낸 인물』과 『부산의 자연마을』의 디지털 데이터 변환 </p> | <p>『부산을 빛낸 인물』과 『부산의 자연마을』의 디지털 데이터 변환 </p> | ||
</header> | </header> | ||
| 467번째 줄: | 467번째 줄: | ||
<li><a href="#intro">들어가며</a></li> | <li><a href="#intro">들어가며</a></li> | ||
<li><a href="#roadmap">전체 로드맵</a></li> | <li><a href="#roadmap">전체 로드맵</a></li> | ||
| − | <li><a href="# | + | <li><a href="#schedule">작업일정 계획</a></li> |
| − | |||
| − | |||
| − | |||
<li><a href="#spreadsheet">작업 스프레드시트</a></li> | <li><a href="#spreadsheet">작업 스프레드시트</a></li> | ||
<li><a href="#xml-tagging">XML 태깅</a></li> | <li><a href="#xml-tagging">XML 태깅</a></li> | ||
| − | |||
</ul> | </ul> | ||
</nav> | </nav> | ||
| 480번째 줄: | 476번째 줄: | ||
<!-- 들어가며 --> | <!-- 들어가며 --> | ||
<section id="intro"> | <section id="intro"> | ||
| − | <h2>📖 들어가며 | + | <h2>📖 들어가며</h2> |
<p>본 프로젝트는 부산광역시 문화유산과 시사편찬실에서 발간한 『부산을 빛낸 인물』과 『부산의 자연마을』이라는 부산의 인문 자료를 디지털 데이터로 변환하는 기초 작업입니다.</p> | <p>본 프로젝트는 부산광역시 문화유산과 시사편찬실에서 발간한 『부산을 빛낸 인물』과 『부산의 자연마을』이라는 부산의 인문 자료를 디지털 데이터로 변환하는 기초 작업입니다.</p> | ||
| 487번째 줄: | 483번째 줄: | ||
<div class="info-box"> | <div class="info-box"> | ||
| − | <p> <strong>작업 대상 자료</strong>: 부산광역시사편찬위원회 자료실 | + | <p> <strong>작업 대상 자료</strong>: 부산광역시사편찬위원회 자료실 또는 부산 지역사 도서관에서 PDF 다운로드 & 모든 팀원 활동일지 다운로드</p> |
<ul> | <ul> | ||
| − | <li><strong> <a href="https://busandabom.net/index.nm?menuCd=105">『부산의 자연마을』전 6권</a> </strong> | + | <li><strong> <a href="https://busandabom.net/index.nm?menuCd=105">『부산의 자연마을』전 6권</a> </strong> </li> |
| − | <li><strong> <a href="https://busandabom.net/index.nm?menuCd=110">『부산을 빛낸 인물』전 3권</a> </strong>: | + | <li><strong> <a href="https://busandabom.net/index.nm?menuCd=110">『부산을 빛낸 인물』전 3권</a> </strong> </li> |
| + | <li><strong> <a href="https://script.google.com/macros/s/AKfycbxWAfQ8l8_BEurbtQq8hAFS76zWnxnj8O3nNjEFo_rGdDkWMQcjkmaCVas5eREZxTV1/exec" target="_blank">오리엔테이션 출석체크</a></strong> </li> | ||
| + | <li><strong> <a href="https://docs.google.com/document/d/1I-bov6PDifJkqLkjBKopsXauVQU5NWSySAi_VA1BxG4/edit?usp=sharing">보조연구원 활동일지 서식 보기(hwp파일로 개별 배포 예정)</a> </strong> </li> | ||
</ul> | </ul> | ||
</div> | </div> | ||
<div class="roadmap" style="margin-top: 20px;"> | <div class="roadmap" style="margin-top: 20px;"> | ||
| − | <h4 style="color: #2b5a7a; margin-bottom: 15px;">👥 | + | <h4 style="color: #2b5a7a; margin-bottom: 15px;">👥 역할 분담 (총 26명: 인문계 23명 + 이공계 3명)</h4> |
| − | <p><strong>역할:</strong> 인문계 | + | <p><strong>역할:</strong> 인문계 학생들은 텍스트 구조화(EXCEL) 및 태깅(XML) + 이공계 학생들은 기술 지원 및 자동화</p> |
<div class="roadmap-step"> | <div class="roadmap-step"> | ||
<div class="roadmap-number">A팀</div> | <div class="roadmap-number">A팀</div> | ||
<div class="roadmap-content"> | <div class="roadmap-content"> | ||
| − | <h3 style="margin-top: 0;"> | + | <h3 style="margin-top: 0;"> 『부산을 빛낸 인물』전 3권 (780 페이지)</h3> |
<ul> | <ul> | ||
| − | <li><strong> | + | <li><strong>구조화:</strong> 황인영, 이선영 (390페이지씩) </li> |
| − | <li><strong> | + | <li><strong>태깅:</strong> 박하영, 김남희, 최은 </li> |
| − | <li><strong> | + | <li><strong>검수:</strong> 박수연 </li> |
</ul> | </ul> | ||
</div> | </div> | ||
| 513번째 줄: | 511번째 줄: | ||
<div class="roadmap-number">B팀</div> | <div class="roadmap-number">B팀</div> | ||
<div class="roadmap-content"> | <div class="roadmap-content"> | ||
| − | <h3 style="margin-top: 0;"> | + | <h3 style="margin-top: 0;">『부산의 자연마을』제1, 2, 6권(1,140여 페이지)</h3> |
<ul> | <ul> | ||
| − | <li><strong> | + | <li><strong>구조화:</strong> 김수민, 김주난, 임승주 (380페이지씩) </li> |
| − | <li><strong> | + | <li><strong>태깅:</strong> 김수인, 김민경, 홍정빈 </li> |
| − | <li><strong> | + | <li><strong>검수:</strong> 정재환 </li> |
</ul> | </ul> | ||
</div> | </div> | ||
| 525번째 줄: | 523번째 줄: | ||
<div class="roadmap-number">C팀</div> | <div class="roadmap-number">C팀</div> | ||
<div class="roadmap-content"> | <div class="roadmap-content"> | ||
| − | <h3 style="margin-top: 0;"> | + | <h3 style="margin-top: 0;">『부산의 자연마을』제3, 4, 5권(1,140여 페이지) </h3> |
<ul> | <ul> | ||
| − | <li><strong> | + | <li><strong>구조화:</strong> 김수영, 엄미연, 윤채영 (380페이지씩) </li> |
| − | <li><strong> | + | <li><strong>태깅:</strong> 우지성, 임혜민, 조혜원 </li> |
| − | <li><strong> | + | <li><strong>검수:</strong> 노수미 </li> |
</ul> | </ul> | ||
</div> | </div> | ||
</div> | </div> | ||
| + | |||
| + | <div class="roadmap-step"> | ||
| + | <div class="roadmap-number">D팀</div> | ||
| + | <div class="roadmap-content"> | ||
| + | <h3 style="margin-top: 0;"> 전체 작업 (약 3,000 페이지)</h3> | ||
| + | <ul> | ||
| + | <li><strong>원본 파일(txt):</strong> 이다원, 최나영 (1500페이지씩) </li> | ||
| + | <li><strong>표, 이미지 및 전체 검수:</strong> 윤수현 </li> | ||
| + | <li><strong>전처리 및 XML 변환:</strong> 강주연, 박지현, 박비원 </li> | ||
| + | </ul> | ||
| + | </div> | ||
| + | </div> | ||
| + | |||
<div class="tip-box" style="margin-top: 20px;"> | <div class="tip-box" style="margin-top: 20px;"> | ||
| − | <strong>📊 | + | <strong>📊 A~C팀의 역할</strong> |
<ul> | <ul> | ||
| − | <li>PDF에서 추출한 텍스트를 | + | <li>구조화: PDF에서 추출한 텍스트를 팀별 작업 시트에 입력</li> |
| − | <li> | + | <li>매주 일정 분량씩 검수자에게 제출</li> |
| − | <li>의미 요소 식별 (XML 태깅을 위한 준비 작업)</li> | + | <li>태깅: 의미 요소 식별 (XML 태깅을 위한 준비 작업)</li> |
| − | <li> | + | <li>검수: 누락된 부분 없는지 확인 및 작업 일정 관리</li> |
</ul> | </ul> | ||
</div> | </div> | ||
<div class="tip-box" style="margin-top: 20px;"> | <div class="tip-box" style="margin-top: 20px;"> | ||
| − | <strong>💻 | + | <strong>💻 D팀의 역할</strong> |
<ul> | <ul> | ||
<li>파이썬 스크립트 개발 (태깅 마커 [P][/P] → XML 자동 변환)</li> | <li>파이썬 스크립트 개발 (태깅 마커 [P][/P] → XML 자동 변환)</li> | ||
<li>데이터 검증 및 오류 체크 자동화</li> | <li>데이터 검증 및 오류 체크 자동화</li> | ||
<li>팀 내 기술적 문제 실시간 지원</li> | <li>팀 내 기술적 문제 실시간 지원</li> | ||
| − | <li>VScode, Git 등 도구 활용 | + | <li>VScode, Git 등 도구 활용 지원</li> |
</ul> | </ul> | ||
</div> | </div> | ||
| 567번째 줄: | 578번째 줄: | ||
</div> | </div> | ||
</section> | </section> | ||
| + | |||
<!-- 전체 로드맵 --> | <!-- 전체 로드맵 --> | ||
| 576번째 줄: | 588번째 줄: | ||
<div class="roadmap-number">1</div> | <div class="roadmap-number">1</div> | ||
<div class="roadmap-content"> | <div class="roadmap-content"> | ||
| − | <h3>기초 | + | <h3>디지털화(Digitalization) 기초 작업<p style="display: inline-block; padding: 5px 12px; border-radius: 20px; font-size: 0.85em; font-weight: 600; background-color: #ff6b35; color: white; margin: 5px;">현재 단계</p></h3> |
<ul> | <ul> | ||
<li>PDF → 텍스트 추출</li> | <li>PDF → 텍스트 추출</li> | ||
| 615번째 줄: | 627번째 줄: | ||
</section> | </section> | ||
| − | + | ||
| + | |||
<!-- 주차별 작업 계획 --> | <!-- 주차별 작업 계획 --> | ||
<section id="schedule"> | <section id="schedule"> | ||
| − | <h2>📊 | + | <h2>📊 작업일정 계획 (2026년 1월~2월)</h2> |
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | + | <div style="text-align: center; margin: 40px 0;"> | |
| − | + | <div style="display: inline-block; border-radius: 8px; box-shadow: 0 4px 15px rgba(0,0,0,0.1); overflow: hidden; border: 1px solid #eee;"> | |
| − | + | <img src="https://dh.aks.ac.kr/~kimseoyun/wiki/images/8/8c/Timeline.jpg" | |
| − | + | alt="부산 인문자료 디지털화 온보딩 타임라인" | |
| − | + | style="width: 1000px; max-width: 100%; height: auto; display: block;"> | |
| − | + | </div> | |
| − | + | <p style="margin-top: 10px; color: #666; font-size: 0.9em;">부산 인문자료 디지털화 온보딩 타임라인</p> | |
| − | + | </div> | |
| − | |||
<!-- 작업 스프레드시트 --> | <!-- 작업 스프레드시트 --> | ||
<section id="spreadsheet"> | <section id="spreadsheet"> | ||
| − | <h2>💻 | + | <h2>💻 실습용 작업 스프레드시트</h2> |
<p>아래는 우리 팀이 실제로 작업하는 구글 시트입니다. 실시간으로 데이터를 확인하고 입력할 수 있어요.</p> | <p>아래는 우리 팀이 실제로 작업하는 구글 시트입니다. 실시간으로 데이터를 확인하고 입력할 수 있어요.</p> | ||
| 1,159번째 줄: | 672번째 줄: | ||
</ul> | </ul> | ||
</div> | </div> | ||
| + | |||
| − | + | ||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
<!-- XML 태깅 가이드 --> | <!-- XML 태깅 가이드 --> | ||
<section id="xml-tagging"> | <section id="xml-tagging"> | ||
| − | + | ||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | < | + | <h2>🎯 단계별 XML 태깅 전략 (난이도별 접근)</h2> |
<div class="roadmap"> | <div class="roadmap"> | ||
| 1,292번째 줄: | 760번째 줄: | ||
</div> | </div> | ||
</div> | </div> | ||
| + | </section> | ||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | + | ||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
| − | |||
</main> | </main> | ||
<footer> | <footer> | ||
<p>© 2025 부산대학교 디지털인문학센터 (Digital Humanities Center of Pusan National University)</p> | <p>© 2025 부산대학교 디지털인문학센터 (Digital Humanities Center of Pusan National University)</p> | ||
| − | <p>PNU 로컬 인문학 | + | <p>PNU Knowledge Base 로컬 인문학 프로젝트</p> |
<p style="margin-top: 10px; font-size: 0.9em;"> | <p style="margin-top: 10px; font-size: 0.9em;"> | ||
| − | 문의 및 결과물 제출: 김서윤 sy527991@pusan.ac.kr | 051-510-1594 | 최종 업데이트: 2025년 12월 | + | 문의 및 결과물 제출: 김서윤 sy527991@pusan.ac.kr | 051-510-1594 | 최종 업데이트: 2025년 12월 20일 |
</p> | </p> | ||
</footer> | </footer> | ||
2026년 1월 18일 (일) 12:32 기준 최신판
📚 부산 지역 인문학 자료의 디지털화(Digitalization)
『부산을 빛낸 인물』과 『부산의 자연마을』의 디지털 데이터 변환
📖 들어가며
본 프로젝트는 부산광역시 문화유산과 시사편찬실에서 발간한 『부산을 빛낸 인물』과 『부산의 자연마을』이라는 부산의 인문 자료를 디지털 데이터로 변환하는 기초 작업입니다.
📚 프로젝트 규모 및 팀 구성
작업 대상 자료: 부산광역시사편찬위원회 자료실 또는 부산 지역사 도서관에서 PDF 다운로드 & 모든 팀원 활동일지 다운로드
👥 역할 분담 (총 26명: 인문계 23명 + 이공계 3명)
역할: 인문계 학생들은 텍스트 구조화(EXCEL) 및 태깅(XML) + 이공계 학생들은 기술 지원 및 자동화
A팀
『부산을 빛낸 인물』전 3권 (780 페이지)
- 구조화: 황인영, 이선영 (390페이지씩)
- 태깅: 박하영, 김남희, 최은
- 검수: 박수연
B팀
『부산의 자연마을』제1, 2, 6권(1,140여 페이지)
- 구조화: 김수민, 김주난, 임승주 (380페이지씩)
- 태깅: 김수인, 김민경, 홍정빈
- 검수: 정재환
C팀
『부산의 자연마을』제3, 4, 5권(1,140여 페이지)
- 구조화: 김수영, 엄미연, 윤채영 (380페이지씩)
- 태깅: 우지성, 임혜민, 조혜원
- 검수: 노수미
D팀
전체 작업 (약 3,000 페이지)
- 원본 파일(txt): 이다원, 최나영 (1500페이지씩)
- 표, 이미지 및 전체 검수: 윤수현
- 전처리 및 XML 변환: 강주연, 박지현, 박비원
📊 A~C팀의 역할
- 구조화: PDF에서 추출한 텍스트를 팀별 작업 시트에 입력
- 매주 일정 분량씩 검수자에게 제출
- 태깅: 의미 요소 식별 (XML 태깅을 위한 준비 작업)
- 검수: 누락된 부분 없는지 확인 및 작업 일정 관리
💻 D팀의 역할
- 파이썬 스크립트 개발 (태깅 마커 [P][/P] → XML 자동 변환)
- 데이터 검증 및 오류 체크 자동화
- 팀 내 기술적 문제 실시간 지원
- VScode, Git 등 도구 활용 지원
이제 책 속의 자료를 시맨틱 데이터로 변환하는 기초 작업을 진행할 예정입니다. 왜 이 작업이 필요할까요?
부산광역시사편찬위원회 자료실에 PDF로 제공되는 도서는 한 번에 한 사람만 읽을 수 있지만, 디지털 데이터로 변환된 지식은:
- 💡 검색 가능: "1950년대 부산 영도구"라고 검색하면 관련된 모든 내용이 한눈에 보이게 만들 수 있습니다!
- 🔗 연결 가능: 인물과 장소, 사건이 서로 연결되어 새로운 통찰을 발견할 수 있습니다!
- 📊 분석 가능: 빈도, 패턴, 관계를 통해 보이지 않던 역사적 의미를 발견할 수 있습니다!
- 🌐 공유 가능: 전 세계 연구자들과 부산의 이야기를 나눌 수 있어요
🔥 전체 로드맵: 3단계 여정
1
디지털화(Digitalization) 기초 작업
현재 단계
- PDF → 텍스트 추출
- 구조화 → CSV 정리
- 태깅 → XML 변환
목표: 원천 자료를 DB에 업로드 가능한 형태로 구조화
2
데이터 분석(Data Analysis)
- 빈도 분석 & 키워드 추출
- 관계 파악
- 의미 해석
목표: 구축된 데이터에서 학문적 의미와 패턴 도출
3
데이터 설계(Data Modeling)
- 온톨로지 설계
- 지식 그래프 구상
- 활용 방안 기획
목표: 플랫폼 구축을 위한 데이터 모델링
📊 작업일정 계획 (2026년 1월~2월)
부산 인문자료 디지털화 온보딩 타임라인
💻 실습용 작업 스프레드시트
아래는 우리 팀이 실제로 작업하는 구글 시트입니다. 실시간으로 데이터를 확인하고 입력할 수 있어요.
📊 PNU_DHC 플랫폼 데이터 작업 시트
새 탭에서 열기 →
💡 스프레드시트 사용 팁
- 위 임베드 창에서 바로 데이터를 확인할 수 있어요
- 실제 입력은 "새 탭에서 열기" 버튼을 클릭해서 진행하세요
- 여러 사람이 동시에 작업할 수 있어요 (실시간 공동 편집)
- 변경 이력은 자동으로 저장됩니다
🎯 단계별 XML 태깅 전략 (난이도별 접근)
1
1차 작업 (필수) - 가장 명확한 요소
현재 작업 단계
| 인명 | [P]최치원[/P] |
사람 이름 (판단 쉬움) |
| 지명 | [L]영도구[/L] |
장소, 지역명 (판단 쉬움) |
💡 추천: 학부생 기초 작업은 인명과 지명만 집중하는 것을 권장합니다!
- ✅ 판단이 가장 명확
- ✅ 작업 속도가 빠름
- ✅ 온톨로지 핵심인 "누가-어디서" 관계망 우선 구축
2
2차 작업 (선택) - 조금 더 복잡
| 시간 | [D]1876년[/D] |
날짜, 연도, 시대 |
| 기관명 | [O]동래부[/O] |
단체, 조직, 관청 |
| 서명 | [T]동래부지[/T] |
책, 문서, 작품명 |
진행 시기: 1차 작업 완료 후 또는 동시 진행 가능
3
3차 작업 (고급) - 전문가 검수 필요
| 문화유산 | [H]동래읍성[/H] |
유적, 문화재, 건축물 |
| 사건명 | [E]임진왜란[/E] |
역사적 사건, 행사 |
| 작품명 | [W]해운대가[/W] |
시, 그림, 예술작품 |
진행 시기: 데이터 분석 및 설계 단계에서
※ 문화유산과 지명, 작품명과 서명의 구분이 애매할 수 있어 전문가 판단 필요