<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ko">
	<id>https://dh.aks.ac.kr/~kimseoyun/wiki/index.php?action=history&amp;feed=atom&amp;title=2025_Busan_Data_Guide_Materials</id>
	<title>2025 Busan Data Guide Materials - 편집 역사</title>
	<link rel="self" type="application/atom+xml" href="https://dh.aks.ac.kr/~kimseoyun/wiki/index.php?action=history&amp;feed=atom&amp;title=2025_Busan_Data_Guide_Materials"/>
	<link rel="alternate" type="text/html" href="https://dh.aks.ac.kr/~kimseoyun/wiki/index.php?title=2025_Busan_Data_Guide_Materials&amp;action=history"/>
	<updated>2026-05-01T23:10:43Z</updated>
	<subtitle>이 문서의 편집 역사</subtitle>
	<generator>MediaWiki 1.31.8</generator>
	<entry>
		<id>https://dh.aks.ac.kr/~kimseoyun/wiki/index.php?title=2025_Busan_Data_Guide_Materials&amp;diff=245&amp;oldid=prev</id>
		<title>Kimseoyun: /* 📚 프로젝트 규모 및 팀 구성 */</title>
		<link rel="alternate" type="text/html" href="https://dh.aks.ac.kr/~kimseoyun/wiki/index.php?title=2025_Busan_Data_Guide_Materials&amp;diff=245&amp;oldid=prev"/>
		<updated>2026-01-18T03:53:31Z</updated>

		<summary type="html">&lt;p&gt;‎&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;📚 프로젝트 규모 및 팀 구성&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;ko&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← 이전 판&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;2026년 1월 18일 (일) 03:53 판&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l31&quot; &gt;31번째 줄:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;31번째 줄:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* [https://docs.google.com/document/d/1I-bov6PDifJkqLkjBKopsXauVQU5NWSySAi_VA1BxG4/edit?usp=sharing 보조연구원 활동일지 서식]&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* [https://docs.google.com/document/d/1I-bov6PDifJkqLkjBKopsXauVQU5NWSySAi_VA1BxG4/edit?usp=sharing 보조연구원 활동일지 서식]&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* [https://docs.google.com/document/d/1I-bov6PDifJkqLkjBKopsXauVQU5NWSySAi_VA1BxG4/edit?usp=sharing 각 팀 검수자에게 연락망, 활동일지 파일, 결과보고서 파일 배포 예정] (서류 제출: dhc1622@pusan.ac.kr 디지털인문학센터 심교우)&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* [https://docs.google.com/document/d/1I-bov6PDifJkqLkjBKopsXauVQU5NWSySAi_VA1BxG4/edit?usp=sharing 각 팀 검수자에게 연락망, 활동일지 파일, 결과보고서 파일 배포 예정] (서류 제출: dhc1622@pusan.ac.kr 디지털인문학센터 심교우)&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* 활동일지 기록 시 유의사항: 기간을 2025년 12월 20일부터 2026년 2월 &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;19일까지로 &lt;/del&gt;기록&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* 활동일지 기록 시 유의사항: 기간을 2025년 12월 20일부터 2026년 2월 &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;19일까지 &lt;/ins&gt;기록&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* 각 팀의 검수자는 결과 산출물과 팀원들의 활동일지를 압축하여 2월 19일 이전에 제출&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* 각 팀의 검수자는 결과 산출물과 팀원들의 활동일지를 압축하여 2월 19일 이전에 제출&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* 2월 27일까지 팀별 결과보고서 제출&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;* 2월 27일까지 팀별 결과보고서 제출&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Kimseoyun</name></author>
		
	</entry>
	<entry>
		<id>https://dh.aks.ac.kr/~kimseoyun/wiki/index.php?title=2025_Busan_Data_Guide_Materials&amp;diff=244&amp;oldid=prev</id>
		<title>Kimseoyun: /* 20260107 오리엔테이션 */</title>
		<link rel="alternate" type="text/html" href="https://dh.aks.ac.kr/~kimseoyun/wiki/index.php?title=2025_Busan_Data_Guide_Materials&amp;diff=244&amp;oldid=prev"/>
		<updated>2026-01-18T03:52:42Z</updated>

		<summary type="html">&lt;p&gt;‎&lt;span dir=&quot;auto&quot;&gt;&lt;span class=&quot;autocomment&quot;&gt;20260107 오리엔테이션&lt;/span&gt;&lt;/span&gt;&lt;/p&gt;
&lt;table class=&quot;diff diff-contentalign-left&quot; data-mw=&quot;interface&quot;&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;col class=&quot;diff-marker&quot; /&gt;
				&lt;col class=&quot;diff-content&quot; /&gt;
				&lt;tr class=&quot;diff-title&quot; lang=&quot;ko&quot;&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;← 이전 판&lt;/td&gt;
				&lt;td colspan=&quot;2&quot; style=&quot;background-color: #fff; color: #222; text-align: center;&quot;&gt;2026년 1월 18일 (일) 03:52 판&lt;/td&gt;
				&lt;/tr&gt;&lt;tr&gt;&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot; id=&quot;mw-diff-left-l1&quot; &gt;1번째 줄:&lt;/td&gt;
&lt;td colspan=&quot;2&quot; class=&quot;diff-lineno&quot;&gt;1번째 줄:&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;= &lt;del class=&quot;diffchange diffchange-inline&quot;&gt;20260107 &lt;/del&gt;오리엔테이션 =&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;= 오리엔테이션 &lt;ins class=&quot;diffchange diffchange-inline&quot;&gt;[https://docs.google.com/document/d/1q-jVdz5Mxy-_Zst4AX05czj4XC6yBepfh52irRvziDI/edit?tab=t.0#heading=h.1mhpe0quv4u9 Busan Data Guide] &lt;/ins&gt;=&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;{| class=&amp;quot;wikitable&amp;quot; style=&amp;quot;text-align:center; width:100%;&amp;quot;&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;{| class=&amp;quot;wikitable&amp;quot; style=&amp;quot;text-align:center; width:100%;&amp;quot;&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;|-&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;|-&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;−&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #ffe49c; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;| 📚 '''부산 지역 인문학 자료의 디지털화 작업'''&amp;lt;br /&amp;gt;본 프로젝트는 ‘부산광역시 문화유산과 시사편찬실’에서 발간한 『부산을 빛낸 인물』과 『부산의 자연마을』이라는 부산의 인문 자료를 디지털 데이터로 변환하는 기초 작업입니다.&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;+&lt;/td&gt;&lt;td style=&quot;color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #a3d3ff; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;| 📚 ''' 부산 지역 인문학 자료의 디지털화 작업 '''&amp;lt;br /&amp;gt;본 프로젝트는 ‘부산광역시 문화유산과 시사편찬실’에서 발간한 『부산을 빛낸 인물』과 『부산의 자연마을』이라는 부산의 인문 자료를 디지털 데이터로 변환하는 기초 작업입니다.&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;|}&lt;/div&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;div&gt;|}&lt;/div&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;tr&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;td class='diff-marker'&gt;&amp;#160;&lt;/td&gt;&lt;td style=&quot;background-color: #f8f9fa; color: #222; font-size: 88%; border-style: solid; border-width: 1px 1px 1px 4px; border-radius: 0.33em; border-color: #eaecf0; vertical-align: top; white-space: pre-wrap;&quot;&gt;&lt;/td&gt;&lt;/tr&gt;
&lt;/table&gt;</summary>
		<author><name>Kimseoyun</name></author>
		
	</entry>
	<entry>
		<id>https://dh.aks.ac.kr/~kimseoyun/wiki/index.php?title=2025_Busan_Data_Guide_Materials&amp;diff=243&amp;oldid=prev</id>
		<title>Kimseoyun: 새 문서:  = 20260107 오리엔테이션 =  {| class=&quot;wikitable&quot; style=&quot;text-align:center; width:100%;&quot; |- | 📚 '''부산 지역 인문학 자료의 디지털화 작업'''&lt;br /&gt;본 프로젝...</title>
		<link rel="alternate" type="text/html" href="https://dh.aks.ac.kr/~kimseoyun/wiki/index.php?title=2025_Busan_Data_Guide_Materials&amp;diff=243&amp;oldid=prev"/>
		<updated>2026-01-18T03:48:15Z</updated>

		<summary type="html">&lt;p&gt;새 문서:  = 20260107 오리엔테이션 =  {| class=&amp;quot;wikitable&amp;quot; style=&amp;quot;text-align:center; width:100%;&amp;quot; |- | 📚 &amp;#039;&amp;#039;&amp;#039;부산 지역 인문학 자료의 디지털화 작업&amp;#039;&amp;#039;&amp;#039;&amp;lt;br /&amp;gt;본 프로젝...&lt;/p&gt;
&lt;p&gt;&lt;b&gt;새 문서&lt;/b&gt;&lt;/p&gt;&lt;div&gt;&lt;br /&gt;
= 20260107 오리엔테이션 =&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot; style=&amp;quot;text-align:center; width:100%;&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| 📚 '''부산 지역 인문학 자료의 디지털화 작업'''&amp;lt;br /&amp;gt;본 프로젝트는 ‘부산광역시 문화유산과 시사편찬실’에서 발간한 『부산을 빛낸 인물』과 『부산의 자연마을』이라는 부산의 인문 자료를 디지털 데이터로 변환하는 기초 작업입니다.&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 🔥 전체 로드맵 ==&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot; style=&amp;quot;text-align:center; width:100%;&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| ① '''디지털화 기초 작업''' → 현재단계&amp;lt;br /&amp;gt;PDF에서 텍스트를 추출해서 CSV로 정리(구조화), XML 태깅으로 책 속에 어떤 요소들이 있는지 표시(인명, 지명 등)&lt;br /&gt;
|-&lt;br /&gt;
| ② '''데이터 분석'''&amp;lt;br /&amp;gt;빈도분석, 공기어 분석, 토픽모델링 등 → 학문적 의미와 패턴 도출&lt;br /&gt;
|-&lt;br /&gt;
| ③ '''데이터 모델링'''&amp;lt;br /&amp;gt;온톨로지라는 ‘데이터 설계도(RDF)’를 만들어서 모든 정보를 ‘지식 그래프’라는 네트워크 형태로 변환하면, 복잡한 내용을 한눈에 볼 수 있고, 관련 내용을 빠르게 검색하는 것이 가능&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
; 예시: 최치원은 857년에 경주에서 태어났다&lt;br /&gt;
: 최치원(인물), 857년(시간), 경주(장소), 태어남(인물과 장소의 ‘관계’)&lt;br /&gt;
&lt;br /&gt;
'''지식 그래프(Knowledge Graph)'''&lt;br /&gt;
&lt;br /&gt;
== 📚 프로젝트 규모 및 팀 구성 ==&lt;br /&gt;
&lt;br /&gt;
작업 대상 자료: 부산광역시사편찬위원회 자료실 또는 부산 지역사 도서관에서 PDF 다운로드&lt;br /&gt;
&lt;br /&gt;
* [https://busandabom.net/index.nm?menuCd=105 『부산의 자연마을』 전 6권]&lt;br /&gt;
* [https://busandabom.net/index.nm?menuCd=110 『부산을 빛낸 인물』 전 3권]&lt;br /&gt;
* [https://docs.google.com/document/d/1I-bov6PDifJkqLkjBKopsXauVQU5NWSySAi_VA1BxG4/edit?usp=sharing 보조연구원 활동일지 서식]&lt;br /&gt;
* [https://docs.google.com/document/d/1I-bov6PDifJkqLkjBKopsXauVQU5NWSySAi_VA1BxG4/edit?usp=sharing 각 팀 검수자에게 연락망, 활동일지 파일, 결과보고서 파일 배포 예정] (서류 제출: dhc1622@pusan.ac.kr 디지털인문학센터 심교우)&lt;br /&gt;
* 활동일지 기록 시 유의사항: 기간을 2025년 12월 20일부터 2026년 2월 19일까지로 기록&lt;br /&gt;
* 각 팀의 검수자는 결과 산출물과 팀원들의 활동일지를 압축하여 2월 19일 이전에 제출&lt;br /&gt;
* 2월 27일까지 팀별 결과보고서 제출&lt;br /&gt;
&lt;br /&gt;
=== 👥 역할 분담 (총 26명) 및 작업 시트 ===&lt;br /&gt;
&lt;br /&gt;
* 검수자는 팀원들에게 작업분량을 할당하여 2월까지 작업 검수, 다른 팀에 검수가 끝난 데이터를 전달, 논의가 필요한 부분들을 정리하여 결과보고서 기록&lt;br /&gt;
* 모든 보조연구원은 2개월간 할당 받은 작업의 진행상황을 활동일지에 기록하여 제출(지출 근거)&lt;br /&gt;
&lt;br /&gt;
'''[https://docs.google.com/spreadsheets/d/11Tei-3JCBK0dAjM73UipQRY1t3JbLEUq4-Wq8oc1xSk/edit 부산인물팀] : 『부산을 빛낸 인물』 전 3권 (783 페이지)'''&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot; style=&amp;quot;text-align:center;&amp;quot;&lt;br /&gt;
! 전공 !! 이름 !! 과정 !! 역할 !! 담당 분량&lt;br /&gt;
|-&lt;br /&gt;
| 한문교육전공 || 박수연 || 석사과정생 || 검수 || 부산을 빛낸 인물 전체&lt;br /&gt;
|-&lt;br /&gt;
| 한문학과 || 황인영 || 학부생 || CSV || 390페이지&lt;br /&gt;
|-&lt;br /&gt;
| 한문학과 || 이선영 || 학부생 || CSV || 390페이지&lt;br /&gt;
|-&lt;br /&gt;
| 한문학과 || 박하영 || 석사과정생 || XML || 전체분량의 1/3&lt;br /&gt;
|-&lt;br /&gt;
| 한문학과 || 김남희 || 박사과정생 || XML || 전체분량의 1/3&lt;br /&gt;
|-&lt;br /&gt;
| 한문학과 || 최은 || 박사과정생 || XML || 전체분량의 1/3&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''[https://docs.google.com/spreadsheets/d/1bjaiy9KrFZHgtSyRCJ9zzQGUhnwsTtVJHSSunL2dXE0/edit?gid=0#gid=0 자연마을(A)팀] : 『부산의 자연마을』 제1, 2, 6권 (1,141 페이지)'''&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot; style=&amp;quot;text-align:center;&amp;quot;&lt;br /&gt;
! 전공 !! 이름 !! 과정 !! 역할 !! 담당 분량&lt;br /&gt;
|-&lt;br /&gt;
| 국어국문학과 || 정재환 || 박사과정생 || 검수 || 자연마을 1, 2, 6권 전체&lt;br /&gt;
|-&lt;br /&gt;
| 국어국문학과 || 김수민 || 학부생 || CSV || 380페이지&lt;br /&gt;
|-&lt;br /&gt;
| 국어국문학과 || 김주난 || 학부생 || CSV || 380페이지&lt;br /&gt;
|-&lt;br /&gt;
| 국어국문학과 || 임승주 || 학부생 || CSV || 380페이지&lt;br /&gt;
|-&lt;br /&gt;
| 국어국문학과 || 김민경 || 석사과정생 || XML || 전체분량의 1/3&lt;br /&gt;
|-&lt;br /&gt;
| 국어국문학과 || 홍정빈 || 석사과정생 || XML || 전체분량의 1/3&lt;br /&gt;
|-&lt;br /&gt;
| 사학과 || 김수인 || 석사과정생 || XML || 전체분량의 1/3&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''[https://docs.google.com/spreadsheets/d/1KOPKYaeoJCLrKLmlRQsD_Lke_d7EKGF2KmuJWItKY8A/edit?gid=0#gid=0 자연마을(B)팀] : 『부산의 자연마을』 제3, 4, 5권 (1,131 페이지)'''&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot; style=&amp;quot;text-align:center;&amp;quot;&lt;br /&gt;
! 전공 !! 이름 !! 과정 !! 역할 !! 담당 분량&lt;br /&gt;
|-&lt;br /&gt;
| 사학과 || 노수미 || 석사과정생 || 검수 || 자연마을 3, 4, 5권 전체&lt;br /&gt;
|-&lt;br /&gt;
| 고고학과 || 김수영 || 학부생 || CSV || 380페이지&lt;br /&gt;
|-&lt;br /&gt;
| 고고학과 || 엄미연 || 학부생 || CSV || 380페이지&lt;br /&gt;
|-&lt;br /&gt;
| 고고학과 || 윤채영 || 학부생 || CSV || 380페이지&lt;br /&gt;
|-&lt;br /&gt;
| 사학과 || 우지성 || 석사과정생 || XML || 전체분량의 1/3&lt;br /&gt;
|-&lt;br /&gt;
| 사학과 || 임혜민 || 석사과정생 || XML || 전체분량의 1/3&lt;br /&gt;
|-&lt;br /&gt;
| 사학과 || 조혜원 || 석사과정생 || XML || 전체분량의 1/3&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
'''전체작업팀 (작업시트 불필요)'''&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot; style=&amp;quot;text-align:center;&amp;quot;&lt;br /&gt;
! 전공 !! 이름 !! 과정 !! 담당 분량 !! 역할&lt;br /&gt;
|-&lt;br /&gt;
| 고고학과 || 윤수현 || 석사과정생 || 3000페이지 || 전체(표, 이미지 검수)&lt;br /&gt;
|-&lt;br /&gt;
| 고고학과 || 이다원 || 학부생 || 1500페이지 || 전체 txt&lt;br /&gt;
|-&lt;br /&gt;
| 사학과 || 최나영 || 학부생 || 1500페이지 || 전체 txt&lt;br /&gt;
|-&lt;br /&gt;
| 산업공학과 || 강주연 || 학부생 || txt 전처리 및 XML변환 || txt 전처리 및 XML변환&lt;br /&gt;
|-&lt;br /&gt;
| 산업공학과 || 박지현 || 학부생 || txt 전처리 및 XML변환 || txt 전처리 및 XML변환&lt;br /&gt;
|-&lt;br /&gt;
| 산업공학과 || 박비원 || 학부생 || txt 전처리 및 XML변환 || txt 전처리 및 XML변환&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
; 1. 오리엔테이션 및 팀구성&lt;br /&gt;
* 디지털화 과정소개&lt;br /&gt;
* 팀원 담당업무 배정 및 검수자의 역할 안내&lt;br /&gt;
&lt;br /&gt;
; 2. 텍스트 추출 (pdf to csv) 단락을 최소 단위로&lt;br /&gt;
* 각 팀에 배정된 3권의 도서 PDF에서 텍스트 추출&lt;br /&gt;
* 단락별 정보를 구조화 된 표로 작성하고 ID 부여(txt_id)해서 한 줄의 정보로 엮기&lt;br /&gt;
* 각 도서작업팀은 권별로 CSV 파일을 다운로드 받아 제출&lt;br /&gt;
&lt;br /&gt;
; 3. 분석용 텍스트 (csv to txt) 컴퓨터가 읽기 쉽게 청소&lt;br /&gt;
* 원본 텍스트 (text_original) 수합 후 책 형태로 배치&lt;br /&gt;
* 분석을 방해하는 불필요한 요소 제거하고 텍스트의 기본 구조 유지&lt;br /&gt;
* 전제작업팀은 원본과 전처리 작업을 거친 txt 파일 제출(2종)&lt;br /&gt;
&lt;br /&gt;
; 4. 의미 태깅 (txt to xml) 컴퓨터에게 의미를 알려주는 꼬리표(Semantic Tag) 붙이기&lt;br /&gt;
* 인명 지명 등의 핵심 정보에 한글마커&lt;br /&gt;
* 검수 후 전체작업팀에 전달하여 XML 자동 변환&lt;br /&gt;
&lt;br /&gt;
; 5. 최종 검수 및 결과보고서 제출&lt;br /&gt;
* 최종 데이터의 오류를 교차 검토하고 결과보고서 제출&lt;br /&gt;
&lt;br /&gt;
----&lt;br /&gt;
&lt;br /&gt;
=== 🎯 단계별 태깅 전략 (난이도별 접근) ===&lt;br /&gt;
&lt;br /&gt;
==== 1. 인명, 지명(필수) ====&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! 구분 !! 태깅 예시 !! 설명&lt;br /&gt;
|-&lt;br /&gt;
| 인명 || &amp;amp;lt;인명&amp;amp;gt;최치원&amp;amp;lt;/인명&amp;amp;gt; || 사람 이름 (판단 쉬움)&lt;br /&gt;
|-&lt;br /&gt;
| 지명 || &amp;amp;lt;지명&amp;amp;gt;영도구&amp;amp;lt;/지명&amp;amp;gt; || 장소, 지역명 (판단 쉬움)&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
==== 2. 시간, 기관명, 서명 ====&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! 구분 !! 태깅 예시 !! 설명&lt;br /&gt;
|-&lt;br /&gt;
| 시간 || &amp;amp;lt;시간&amp;amp;gt;1876년&amp;amp;lt;/시간&amp;amp;gt; || 날짜, 연도, 시대&lt;br /&gt;
|-&lt;br /&gt;
| 기관명 || &amp;amp;lt;기관명&amp;amp;gt;동래부&amp;amp;lt;/기관명&amp;amp;gt; || 단체, 조직, 관청&lt;br /&gt;
|-&lt;br /&gt;
| 서명 || &amp;amp;lt;서명&amp;amp;gt;동래부지&amp;amp;lt;/서명&amp;amp;gt; || 책, 문헌, 문서자료&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
==== 3. 문화유산, 주요사건, 작품 ====&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! 구분 !! 태깅 예시 !! 설명&lt;br /&gt;
|-&lt;br /&gt;
| 문화유산 || &amp;amp;lt;문화유산&amp;amp;gt;동래읍성&amp;amp;lt;/문화유산&amp;amp;gt; || 유적, 문화재, 건축물&lt;br /&gt;
|-&lt;br /&gt;
| 사건명 || &amp;amp;lt;사건명&amp;amp;gt;임진왜란&amp;amp;lt;/사건명&amp;amp;gt; || 역사적 사건, 행사&lt;br /&gt;
|-&lt;br /&gt;
| 작품명 || &amp;amp;lt;작품명&amp;amp;gt;해운대가&amp;amp;lt;/작품명&amp;amp;gt; || 시, 그림, 예술작품&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
=== 🎯 XML 파일로 변환 ===&lt;br /&gt;
* &amp;amp;lt;인명&amp;amp;gt; → &amp;amp;lt;Person&amp;amp;gt;&lt;br /&gt;
* &amp;amp;lt;지명&amp;amp;gt; → &amp;amp;lt;Place&amp;amp;gt;&lt;br /&gt;
* *시트 검색 후 ID 있으면 추가&lt;br /&gt;
* &amp;amp;lt;시간&amp;amp;gt; → &amp;amp;lt;Date&amp;amp;gt;&lt;br /&gt;
* &amp;amp;lt;기관명&amp;amp;gt; → &amp;amp;lt;Organization&amp;amp;gt;&lt;br /&gt;
* &amp;amp;lt;서명&amp;amp;gt; → &amp;amp;lt;Book&amp;amp;gt;&lt;br /&gt;
* &amp;amp;lt;문화유산&amp;amp;gt; → &amp;amp;lt;Heritage&amp;amp;gt;&lt;br /&gt;
* &amp;amp;lt;사건명&amp;amp;gt; → &amp;amp;lt;Event&amp;amp;gt;&lt;br /&gt;
* &amp;amp;lt;작품명&amp;amp;gt; → &amp;amp;lt;Work&amp;amp;gt;&lt;br /&gt;
&lt;br /&gt;
== &amp;amp;lt;p id=”txt_10014” corresp=”#txt_10013” xml:lang=”ko”&amp;amp;gt; ==&lt;br /&gt;
== 이 단락(paragraph)은 id가 txt_10014이고, 앞에 나온 txt_10013과 대응(corresponds)되고, 언어(language)는 한국어(korean)이다. ==&lt;br /&gt;
&lt;br /&gt;
; 참고: [https://wikidocs.net/255396 XML의 개념]&lt;br /&gt;
&lt;br /&gt;
== 태깅하면 무엇이 가능해질까요? ==&lt;br /&gt;
&lt;br /&gt;
; ✅ 검색이 정확해집니다&lt;br /&gt;
: - &amp;quot;해운대와 관련된 인물을 모두 찾아줘&amp;quot; → 모든 &amp;lt;code&amp;gt;&amp;amp;lt;Person&amp;amp;gt;&amp;lt;/code&amp;gt; 중에서 &amp;lt;code&amp;gt;&amp;amp;lt;Place&amp;amp;gt;해운대&amp;amp;lt;/Place&amp;amp;gt;&amp;lt;/code&amp;gt;와 연결된 것만 추출&lt;br /&gt;
&lt;br /&gt;
; ✅ 관계를 파악할 수 있습니다&lt;br /&gt;
: - &amp;quot;19세기에 활동한 사람들끼리 네트워크를 그려줘&amp;quot; → &amp;lt;code&amp;gt;&amp;amp;lt;Date&amp;amp;gt;&amp;lt;/code&amp;gt; 태그로 시대를 필터링하고 &amp;lt;code&amp;gt;&amp;amp;lt;Person&amp;amp;gt;&amp;lt;/code&amp;gt; 간 관계 시각화&lt;br /&gt;
&lt;br /&gt;
; ✅ 통계 분석이 가능합니다&lt;br /&gt;
: - &amp;quot;가장 자주 등장하는 지명 Top 10&amp;quot; → &amp;lt;code&amp;gt;&amp;amp;lt;Place&amp;amp;gt;&amp;lt;/code&amp;gt; 태그 빈도 계산&lt;br /&gt;
&lt;br /&gt;
; ✅ 맥락을 유지하며 재조합할 수 있습니다&lt;br /&gt;
: - 같은 인물에 대한 정보를 여러 곳에서 모아 한 페이지에 표시&lt;br /&gt;
&lt;br /&gt;
----&lt;br /&gt;
&lt;br /&gt;
== 작업 상세안내 ==&lt;br /&gt;
&lt;br /&gt;
* PDF에서 추출한 텍스트를 팀별 작업 시트에 입력 : [https://docs.google.com/spreadsheets/d/1beVxX1Q-xRAyHOxjk-u3YLYszGZjftkONu_EtR0n9yM/edit?gid=0#gid=0 PNU_DHC 실습용 작업 시트]에서 연습 후 팀별 작업 시트로 이동&lt;br /&gt;
* 본문 제1장부터 입력 시작(표지, 범례, 목차, 참고문헌 등은 별도로 정리)&lt;br /&gt;
* 검수자는 누락된 곳이 없는지 살핀 후에 일정 분량 씩 전체 작업팀에 전달, 작업 완료 후에는 권별로 정리된 CSV 파일 제출(파일명: 자연마을01.csv, 부산인물01.csv)&lt;br /&gt;
* 전체작업팀에서 작업시트의 txt_id와 text_original을 TXT 파일로 모으기 ([https://notepad-plus-plus.org/downloads/ Notepad++], [https://code.visualstudio.com/download VScode] 등에서 작업)&lt;br /&gt;
* 권별로 작업(파일명: 자연마을01_원본.txt, 부산인물01_원본.txt)&lt;br /&gt;
* 전체작업팀의 검수자가 표 및 이미지 등이 누락된 부분 없는지 확인&lt;br /&gt;
* 분석에 필요한 파일로 만들기: 정규표현식으로 전처리 후 권별로 제출(파일명: 자연마을01_정제.txt, 부산인물01_정제.txt)&lt;br /&gt;
* 정제된 txt 파일에 XML을 위한 마커 작업: &amp;amp;lt;인명&amp;amp;gt;, &amp;amp;lt;지명&amp;amp;gt; 등의 한글 표기&lt;br /&gt;
* 마커 검수 후 전체작업팀에 전달, 전체작업팀에서 마커 작업한 TXT파일을 XML로 변환&lt;br /&gt;
* 작업 완료 후에는 권별로 정리된 XML 파일 제출(파일명: 자연마을01.xml, 부산인물01.xml)&lt;br /&gt;
&lt;br /&gt;
== 🏷️ TXT 전처리: 분석이 가능한 텍스트로 정제하기 ==&lt;br /&gt;
CSV로 정리한 텍스트 중에서 불필요한 중복언어나 기호들을 제거하는 일입니다. 텍스트의 기본 구조를 유지하되, 페이지나 이미지 같은 부가적인 정보는 제거하고 이 정보를 그대로 불러올 수 있는 txt_id와 text_original 컬럼으로만 구성합니다.&lt;br /&gt;
&lt;br /&gt;
; 🎯 왜 txt_id가 필요한가요?&lt;br /&gt;
페이지나 챕터, 한자로 병기한 정보등을 모두 포함하는 경우&lt;br /&gt;
: 제1장 개관&lt;br /&gt;
: 1. 부산의 자연마을&lt;br /&gt;
: 1) 현대 도시에서의 자연마을&lt;br /&gt;
: 부근에 있는 영가대(永嘉臺, 현재 범일동 성남초등학교 옆 철로변 일대) 아래의 선창에서는 일본으로 가는 사절의 배가 출항하였다.&lt;br /&gt;
: → 분석을 돌렸을 때 불필요한 정보들이 포함되어 정확한 의미를 찾아내기 어려움&lt;br /&gt;
&lt;br /&gt;
; txt_id가 있을 경우&lt;br /&gt;
나중에 조각조각으로 텍스트가 쪼개져도 각 단락은 출처 정보를 갖고 있어야 함&lt;br /&gt;
: &amp;amp;lt;p xml:id=&amp;quot;txt_10001&amp;quot;&amp;amp;gt;부근에 있는 영가대 아래의 선창에서는 일본으로 가는 사절의 배가 출항하였다.&amp;amp;lt;/p&amp;amp;gt;&lt;br /&gt;
: → 나중에 XML 파일과 CSV 파일이 같은 폴더 안에 있으면 컴퓨터는 txt_id를 찾아서 참고할 수 있음&lt;br /&gt;
&lt;br /&gt;
== 🏷️ XML 태깅: 데이터에 의미 부여하기 ==&lt;br /&gt;
CSV로 정리한 텍스트에 의미론적 태그(Semantic Tags)를 붙여서 컴퓨터가 &amp;quot;누가&amp;quot;, &amp;quot;어디서&amp;quot;, &amp;quot;언제&amp;quot; 같은 정보를 이해할 수 있게 만드는 작업입니다.&lt;br /&gt;
&lt;br /&gt;
; 🎯 왜 XML 태깅이 필요한가요?&lt;br /&gt;
; 태깅 전 (일반 텍스트)&lt;br /&gt;
: 최치원은 857년에 경주에서 태어났다. → 컴퓨터는 그냥 의미 없는 글자로만 인식&lt;br /&gt;
; 태깅 후 (XML)&lt;br /&gt;
: &amp;amp;lt;Person xml:id=&amp;quot;per_10001&amp;quot;&amp;amp;gt;최치원&amp;amp;lt;/Person&amp;amp;gt;은&lt;br /&gt;
: &amp;amp;lt;Date when=&amp;quot;857&amp;quot;&amp;amp;gt;헌안왕 원년&amp;amp;lt;/Date&amp;amp;gt;에&lt;br /&gt;
: &amp;amp;lt;Place xml:id=&amp;quot;plc_10001&amp;quot;&amp;amp;gt;경주&amp;amp;lt;/Place&amp;amp;gt;에서 태어났다.&lt;br /&gt;
: → 인물, 시간, 장소를 구분해서 인식!&lt;br /&gt;
&lt;br /&gt;
----&lt;br /&gt;
&lt;br /&gt;
== 📊 데이터 구조 이해하기 ==&lt;br /&gt;
&lt;br /&gt;
=== 🔑 핵심 필드 설명 ===&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! 필드명 !! 예시 !! 설명 !! 작업자가 할 일&lt;br /&gt;
|-&lt;br /&gt;
| id || txt_10001 || 단락별 정보를 하나로 묶는 고유 번호 || '''필수''' 반드시 부여 (중복 금지!)&lt;br /&gt;
|-&lt;br /&gt;
| book_id || lightuppeople01 || 책 식별자(부산지역사도서관 PDF 파일명을 따름) || 책마다 고정값 사용&lt;br /&gt;
|-&lt;br /&gt;
| book_title || 부산을_빛낸_인물 || 책 제목 || 언더바(_)로 연결&lt;br /&gt;
|-&lt;br /&gt;
| subTitle || 20세기_이전_인물편 || 부제목 || 있는 경우만 입력&lt;br /&gt;
|-&lt;br /&gt;
| publisher || 부산광역시_문화유산과_시사편찬실 || 발행처(필수표기) || 책 정보 그대로&lt;br /&gt;
|-&lt;br /&gt;
| pub_date || 2004.06 || 출판일 || YYYY.MM 형식&lt;br /&gt;
|-&lt;br /&gt;
| chapter || 001 || 장 번호 || 3자리 숫자 (001, 002...)&lt;br /&gt;
|-&lt;br /&gt;
| ch_name || 최치원 || 장 제목 || 정확하게 입력&lt;br /&gt;
|-&lt;br /&gt;
| subChapter || 崔致遠 || 장 제목(한자나 영어) || 있는 경우만 입력&lt;br /&gt;
|-&lt;br /&gt;
| person_id || per_10001 || 인물 고유 번호 || '''필수''' 새 인물마다 부여&lt;br /&gt;
|-&lt;br /&gt;
| place_id || plc_10001 || 지명 고유 번호 || '''필수''' 새 지명마다 부여&lt;br /&gt;
|-&lt;br /&gt;
| topic || 해운대의_유래 || 소주제 || 섹션 제목 그대로&lt;br /&gt;
|-&lt;br /&gt;
| page || 005 || 페이지 || 3자리 숫자 (005, 006...)&lt;br /&gt;
|-&lt;br /&gt;
| author || 정경주_경성대교수 || 집필자(필수표기) || 이름_소속 형식&lt;br /&gt;
|-&lt;br /&gt;
| text_original || 단락별로 붙여넣기 || 원문 텍스트 || 줄바꿈 → 한 줄로 '''중요!'''&lt;br /&gt;
|-&lt;br /&gt;
| text_type || normal/citation || 텍스트 유형 구분 || 추후 인용문만 별도로 추출 가능&lt;br /&gt;
|-&lt;br /&gt;
| relation_note || txt_10008 || 관련 텍스트 ID || 단락이 연결되는 경우에만 기입&lt;br /&gt;
|-&lt;br /&gt;
| img_caption || 최치원_영정 || 이미지 설명 || 이미지 있을 때만&lt;br /&gt;
|-&lt;br /&gt;
| remark || 번역문 / 원문 표시 등 || 논의가 필요하면 자유롭게 기술, 띄어쓰기에 언더바 불필요 || '''필수''' 2월27일까지 결과보고서 제출&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
=== 인용문 처리하기 ===&lt;br /&gt;
* text_type은 'normal': 일반 서술 텍스트, 'citation': 직접 인용문임을 표시&lt;br /&gt;
* relation_note 활용: 앞 문장(txt_10006)과 연결됨을 표시&lt;br /&gt;
&lt;br /&gt;
==== 부산을 빛낸 인물 PDF 원문 (6페이지) 스프레드시트 입력 결과 ====&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! id !! text_original !! text_type !! relation_note&lt;br /&gt;
|-&lt;br /&gt;
| txt_10006 || 최치원은 857년(헌안왕 원년)에 신라의 서울 경주에서 태어났다 || normal || &lt;br /&gt;
|-&lt;br /&gt;
| txt_10007 || 제 나이 열 두살 때 집을 떠나 서쪽으로 갔습니다.(도서 원본에서는 볼드체로 표시) || citation || txt_10006&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
=== 운문(verse) 처리하기 ===&lt;br /&gt;
==== 부산을 빛낸 인물 PDF 원문 (11페이지) (relation_note: txt_10014 원문 / txt_10013 번역문) ====&lt;br /&gt;
: 狂奔疊石吼重巒 / 人語難分咫尺間 / 常恐是非聲到耳 / 故敎流水盡籠山&lt;br /&gt;
: 미친 물 바위 치며 겹겹 산을 뒤흔드니 / 지척 사이에도 사람 소리 모르겠네. / 세상의 시비 소리 들릴까 두려워서 / 짐짓 흐르는 물로 산을 온통 가두었네.&lt;br /&gt;
&lt;br /&gt;
* 운문에 /를 표시하는 이유: XML로 변환했을 때 각 line을 &amp;amp;lt;lg&amp;amp;gt; line group으로 묶어서 하나의 연임을 표현&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
|-&lt;br /&gt;
| &amp;amp;lt;p xml:id=”txt_10013” xml:lang=”cn”&amp;amp;gt; &amp;amp;lt;lg&amp;amp;gt; &amp;amp;lt;l&amp;amp;gt;狂奔疊石吼重巒 &amp;amp;lt;/l&amp;amp;gt; &amp;amp;lt;l&amp;amp;gt;人語難分咫尺間&amp;amp;lt;/l&amp;amp;gt; &amp;amp;lt;l&amp;amp;gt;常恐是非聲到耳&amp;amp;lt;/l&amp;amp;gt; &amp;amp;lt;l&amp;amp;gt;故敎流水盡籠山&amp;amp;lt;/l&amp;amp;gt; &amp;amp;lt;lg&amp;amp;gt;&amp;amp;lt;/p&amp;amp;gt;&amp;amp;lt;p id=”txt_10014” corresp=”#txt_10013” xml:lang=”ko”&amp;amp;gt; &amp;amp;lt;lg&amp;amp;gt; &amp;amp;lt;l&amp;amp;gt;미친 물 바위 치며 겹겹 산을 뒤흔드니 &amp;amp;lt;/l&amp;amp;gt; &amp;amp;lt;l&amp;amp;gt;지척 사이에도 사람 소리 모르겠네. &amp;amp;lt;/l&amp;amp;gt; &amp;amp;lt;l&amp;amp;gt;세상의 시비 소리 들릴까 두려워서 &amp;amp;lt;/l&amp;amp;gt; &amp;amp;lt;l&amp;amp;gt;짐짓 흐르는 물로 산을 온통 가두었네.&amp;amp;lt;/l&amp;amp;gt; &amp;amp;lt;lg&amp;amp;gt;&amp;amp;lt;/p&amp;amp;gt;&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 🎯 마무리 ==&lt;br /&gt;
# '''작업 순서''': PDF (원본)→ CSV (구조화)→ TXT (정제)→ XML(의미 부여) = DB에 업로드 될 최종 데이터&lt;br /&gt;
# '''핵심은 ID 부여와 태그 달기'''&lt;br /&gt;
# '''완벽보다는 일관성이 중요'''&lt;br /&gt;
# '''모를 땐 검수자와 소통'''&lt;br /&gt;
&lt;br /&gt;
----&lt;br /&gt;
&lt;br /&gt;
= txt2xml 자동 변환 스크립트 =&lt;br /&gt;
; TXT/LST 파일 XML 변환 스크립트 작업 안내서&lt;br /&gt;
본 문서는 PDF 텍스트 추출 및 태깅 작업의 최종 단계인 '한글 마커가 삽입된 TXT 파일'을 '분석용 XML 파일'로 자동 변환하는 Python 스크립트의 사용 방법과 변환 결과를 안내합니다.&lt;br /&gt;
&lt;br /&gt;
== 1. 스크립트 개요 ==&lt;br /&gt;
텍스트 파일(LST 파일) 내에 지정된 한글 마커(&amp;amp;lt;인명&amp;amp;gt;, &amp;amp;lt;지명&amp;amp;gt; 등)를 XML 태그(&amp;amp;lt;Person&amp;amp;gt;, &amp;amp;lt;Place&amp;amp;gt; 등)로 일괄 변환하고, 텍스트의 구조를 XML 형식에 맞게 구성합니다.&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! 작업 파일 종류 !! 확장자 !! 주요 내용&lt;br /&gt;
|-&lt;br /&gt;
| 원본 파일 (입력) || *.lst || 한글 마커(&amp;amp;lt;인명&amp;amp;gt;, &amp;amp;lt;지명&amp;amp;gt; 등)가 적용된 텍스트&lt;br /&gt;
|-&lt;br /&gt;
| 변환 파일 (출력) || *.xml || XML 태그(&amp;amp;lt;Person&amp;amp;gt;, &amp;amp;lt;Place&amp;amp;gt; 등)로 변환된 데이터&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 2. Python 변환 스크립트 (txt2xml.py) ==&lt;br /&gt;
다음은 한글 마커를 XML 태그로 변환하는 Python 스크립트의 예시입니다. 전체작업팀의 강주연, 박지현, 박비원 보조연구원이 이 작업을 담당하게 됩니다.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;python&amp;quot;&amp;gt;&lt;br /&gt;
import re&lt;br /&gt;
&lt;br /&gt;
# 한글 마커와 XML 태그 매핑 정의&lt;br /&gt;
tag_mapping = {&lt;br /&gt;
    &amp;quot;&amp;lt;인명&amp;gt;&amp;quot;: &amp;quot;&amp;lt;Person&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;/인명&amp;gt;&amp;quot;: &amp;quot;&amp;lt;/Person&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;지명&amp;gt;&amp;quot;: &amp;quot;&amp;lt;Place&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;/지명&amp;gt;&amp;quot;: &amp;quot;&amp;lt;/Place&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;시간&amp;gt;&amp;quot;: &amp;quot;&amp;lt;Date&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;/시간&amp;gt;&amp;quot;: &amp;quot;&amp;lt;/Date&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;기관명&amp;gt;&amp;quot;: &amp;quot;&amp;lt;Organization&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;/기관명&amp;gt;&amp;quot;: &amp;quot;&amp;lt;/Organization&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;서명&amp;gt;&amp;quot;: &amp;quot;&amp;lt;Book&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;/서명&amp;gt;&amp;quot;: &amp;quot;&amp;lt;/Book&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;문화유산&amp;gt;&amp;quot;: &amp;quot;&amp;lt;Heritage&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;/문화유산&amp;gt;&amp;quot;: &amp;quot;&amp;lt;/Heritage&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;사건명&amp;gt;&amp;quot;: &amp;quot;&amp;lt;Event&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;/사건명&amp;gt;&amp;quot;: &amp;quot;&amp;lt;/Event&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;작품명&amp;gt;&amp;quot;: &amp;quot;&amp;lt;Work&amp;gt;&amp;quot;,&lt;br /&gt;
    &amp;quot;&amp;lt;/작품명&amp;gt;&amp;quot;: &amp;quot;&amp;lt;/Work&amp;gt;&amp;quot;,&lt;br /&gt;
}&lt;br /&gt;
&lt;br /&gt;
def convert_txt_to_xml(input_filepath, output_filepath):&lt;br /&gt;
    &amp;quot;&amp;quot;&amp;quot;&lt;br /&gt;
    LST 파일의 한글 마커를 XML 태그로 변환하고 XML 구조를 구성합니다.&lt;br /&gt;
    &amp;quot;&amp;quot;&amp;quot;&lt;br /&gt;
    try:&lt;br /&gt;
        with open(input_filepath, 'r', encoding='utf-8') as f:&lt;br /&gt;
            content = f.read()&lt;br /&gt;
&lt;br /&gt;
        # 1. 한글 마커를 XML 태그로 치환&lt;br /&gt;
        for ko_tag, xml_tag in tag_mapping.items():&lt;br /&gt;
            content = content.replace(ko_tag, xml_tag)&lt;br /&gt;
&lt;br /&gt;
        # 2. 텍스트를 단락별로 분리&lt;br /&gt;
        # 이 예시에서는 줄바꿈(\n)을 단락의 구분자로 가정합니다.&lt;br /&gt;
        paragraphs = content.strip().split('\n')&lt;br /&gt;
&lt;br /&gt;
        xml_output = []&lt;br /&gt;
        xml_output.append('&amp;lt;?xml version=&amp;quot;1.0&amp;quot; encoding=&amp;quot;UTF-8&amp;quot;?&amp;gt;')&lt;br /&gt;
        xml_output.append('&amp;lt;Document&amp;gt;')&lt;br /&gt;
&lt;br /&gt;
        txt_id_counter = 10000&lt;br /&gt;
&lt;br /&gt;
        for paragraph in paragraphs:&lt;br /&gt;
            if paragraph.strip():&lt;br /&gt;
                # txt_id를 부여하여 &amp;lt;p&amp;gt; 태그로 감싸기&lt;br /&gt;
                txt_id_counter += 1&lt;br /&gt;
                p_tag = f'&amp;lt;p xml:id=&amp;quot;txt_{txt_id_counter}&amp;quot; xml:lang=&amp;quot;ko&amp;quot;&amp;gt;{paragraph.strip()}&amp;lt;/p&amp;gt;'&lt;br /&gt;
                xml_output.append(p_tag)&lt;br /&gt;
&lt;br /&gt;
        xml_output.append('&amp;lt;/Document&amp;gt;')&lt;br /&gt;
&lt;br /&gt;
        # XML 파일로 저장&lt;br /&gt;
        with open(output_filepath, 'w', encoding='utf-8') as f:&lt;br /&gt;
            f.write('\n'.join(xml_output))&lt;br /&gt;
&lt;br /&gt;
        return True&lt;br /&gt;
&lt;br /&gt;
    except Exception as e:&lt;br /&gt;
        print(f&amp;quot;변환 중 오류 발생: {e}&amp;quot;)&lt;br /&gt;
        return False&lt;br /&gt;
&lt;br /&gt;
# 예시 파일 실행&lt;br /&gt;
# 파일명: 자연마을01_태깅완료.lst -&amp;gt; 자연마을01.xml&lt;br /&gt;
input_file = &amp;quot;자연마을01_태깅완료.lst&amp;quot;&lt;br /&gt;
output_file = &amp;quot;자연마을01.xml&amp;quot;&lt;br /&gt;
&lt;br /&gt;
# 실제 파일은 전체작업팀에 전달된 txt2xml 자동 변환 스크립트를 사용합니다.&lt;br /&gt;
# convert_txt_to_xml(input_file, output_file)&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 3. 파일 변환 예시 ==&lt;br /&gt;
&lt;br /&gt;
=== 원본 LST 파일 (자연마을01_태깅완료.lst) ===&lt;br /&gt;
이 파일은 각 팀의 XML 담당자가 한글 마커를 삽입하고 검수가 완료된 파일입니다.&lt;br /&gt;
&amp;amp;lt;인명&amp;amp;gt;최치원&amp;amp;lt;/인명&amp;amp;gt;은 857년에 신라의 서울 &amp;amp;lt;지명&amp;amp;gt;경주&amp;amp;lt;/지명&amp;amp;gt;에서 태어났다.&lt;br /&gt;
&amp;amp;lt;작품명&amp;amp;gt;해운대가&amp;amp;lt;/작품명&amp;amp;gt;는 &amp;amp;lt;인명&amp;amp;gt;최치원&amp;amp;lt;/인명&amp;amp;gt;이 지은 시조이다.&lt;br /&gt;
&amp;amp;lt;기관명&amp;amp;gt;동래부&amp;amp;lt;/기관명&amp;amp;gt;에서 발행한 &amp;amp;lt;서명&amp;amp;gt;동래부지&amp;amp;lt;/서명&amp;amp;gt;에는 &amp;amp;lt;문화유산&amp;amp;gt;동래읍성&amp;amp;lt;/문화유산&amp;amp;gt;에 대한 기록이 있다.&lt;br /&gt;
&lt;br /&gt;
=== 변환 후 XML 파일 (자연마을01.xml) ===&lt;br /&gt;
Python 스크립트를 실행하여 변환된 최종 결과물입니다.&lt;br /&gt;
&amp;lt;syntaxhighlight lang=&amp;quot;xml&amp;quot;&amp;gt;&lt;br /&gt;
&amp;lt;?xml version=&amp;quot;1.0&amp;quot; encoding=&amp;quot;UTF-8&amp;quot;?&amp;gt;&lt;br /&gt;
&amp;lt;Document&amp;gt;&lt;br /&gt;
&amp;lt;p xml:id=&amp;quot;txt_10001&amp;quot; xml:lang=&amp;quot;ko&amp;quot;&amp;gt;&amp;lt;Person&amp;gt;최치원&amp;lt;/Person&amp;gt;은 857년에 신라의 서울 &amp;lt;Place&amp;gt;경주&amp;lt;/Place&amp;gt;에서 태어났다.&amp;lt;/p&amp;gt;&lt;br /&gt;
&amp;lt;p xml:id=&amp;quot;txt_10002&amp;quot; xml:lang=&amp;quot;ko&amp;quot;&amp;gt;&amp;lt;Work&amp;gt;해운대가&amp;lt;/Work&amp;gt;는 &amp;lt;Person&amp;gt;최치원&amp;lt;/Person&amp;gt;이 지은 시조이다.&amp;lt;/p&amp;gt;&lt;br /&gt;
&amp;lt;p xml:id=&amp;quot;txt_10003&amp;quot; xml:lang=&amp;quot;ko&amp;quot;&amp;gt;&amp;lt;Organization&amp;gt;동래부&amp;lt;/Organization&amp;gt;에서 발행한 &amp;lt;Book&amp;gt;동래부지&amp;lt;/Book&amp;gt;에는 &amp;lt;Heritage&amp;gt;동래읍성&amp;lt;/Heritage&amp;gt;에 대한 기록이 있다.&amp;lt;/p&amp;gt;&lt;br /&gt;
&amp;lt;/Document&amp;gt;&lt;br /&gt;
&amp;lt;/syntaxhighlight&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== 4. 변환 내용 상세 설명 ==&lt;br /&gt;
다음 표는 LST 파일이 XML 파일로 변환되면서 바뀐 주요 요소들을 설명합니다.&lt;br /&gt;
&lt;br /&gt;
{| class=&amp;quot;wikitable&amp;quot;&lt;br /&gt;
! 구분 !! LST 파일 (원본) !! XML 파일 (변환) !! 변환 내용&lt;br /&gt;
|-&lt;br /&gt;
| 파일 구조 || 단순 텍스트(.lst) || XML 형식으로 감싸기 || XML선언부 &amp;amp;lt;?xml version=&amp;quot;1.0&amp;quot; encoding=&amp;quot;UTF-8&amp;quot;?&amp;amp;gt;와 &amp;amp;lt;Document&amp;amp;gt; 태그 추가&lt;br /&gt;
|-&lt;br /&gt;
| 태그 치환 || &amp;amp;lt;인명&amp;amp;gt; || &amp;amp;lt;Person&amp;amp;gt; || 한글 마커가 의미론적 영어 태그로 자동 치환&lt;br /&gt;
|-&lt;br /&gt;
| || &amp;amp;lt;지명&amp;amp;gt; || &amp;amp;lt;Place&amp;amp;gt; || 모든 지정된 한글 태그가 해당 영어 태그로 변환&lt;br /&gt;
|-&lt;br /&gt;
| 단락 구조화 || 단락 텍스트 || &amp;amp;lt;p xml:id=&amp;quot;txt_#####&amp;quot; xml:lang=&amp;quot;ko&amp;quot;&amp;amp;gt;...&amp;amp;lt;/p&amp;amp;gt; || 각 단락에 고유 ID(txt_#####)가 부여되고 &amp;amp;lt;p&amp;amp;gt; 태그로 감싸져 구조화됨. 고유 ID는 권별로 시작되는 숫자가 다르며, 다음 텍스트에서 1씩 증가&lt;br /&gt;
|-&lt;br /&gt;
| 속성 추가 || (없음) || xml:id, xml:lang || XML 표준에 따라 고유 식별자(xml:id)와 언어 정보(xml:lang=&amp;quot;ko&amp;quot;)가 자동으로 삽입됨.&lt;br /&gt;
|-&lt;br /&gt;
| ID 부여 || (없음) || txt_10001, txt_10002, txt_10003 || CSV 파일의 id 필드와 동일한 역할을 하는 단락별 고유 식별자가 순차적으로 부여됨.&lt;br /&gt;
|}&lt;br /&gt;
&lt;br /&gt;
== 5. 작업 참고 사항 ==&lt;br /&gt;
* '''LST 파일 준비''': 각 팀 검수자는 2월 19일 이전에 검수가 끝난 *.lst 파일을 전체작업팀에게 전달해야 합니다. 파일명은 [자연마을/부산인물][권번호]_태깅완료.lst 형식이어야 합니다.&lt;br /&gt;
* '''XML ID''': XML 변환 시 부여되는 xml:id는 나중에 CSV 파일의 id와 연동되어 데이터 분석 및 지식 그래프 구축의 핵심 키로 사용됩니다.&lt;br /&gt;
* '''XML 최종 제출''': 전체작업팀은 자동 변환 후 최종적으로 [자연마을/부산인물][권번호].xml 파일(자연마을01.xml, 부산인물02.xml 등)을 생성하여 Person 심교우에게 제출해야 합니다.&lt;br /&gt;
* '''결과보고서''': XML 변환 과정에서 특이사항이나 논의가 필요한 부분(예: 태그 오류 발견 등)은 2월 27일까지 제출할 결과보고서에 기록해야 합니다.&lt;br /&gt;
* '''문의''': 스크립트 관련 기술적인 문의는 전체작업팀의 강주연, 박지현, 박비원 보조연구원에게 하시기 바랍니다.&lt;/div&gt;</summary>
		<author><name>Kimseoyun</name></author>
		
	</entry>
</feed>