20171228 회의록
khw
안건
- Encyves 5개 주제별 LST 파일을 토대로 5개의 노드 리스트와 5개의 링크 리스트 만들기
회의 내용
LST 파일 취합 및 검토
- 5개 주제별 LST 파일 취합
- 노드 리스트 및 링크 리스트 추출 + 각 노드 및 링크 데이터에 소스 LST 파일명 함께 기술 (EmEditor 기능 활용)
- 주제별 노드 리스트 및 링크 리스트는 다음 회의 때까지 검토해오기로 함.
- txt 파일의 내용을 그대로 복사해서 엑셀 시트에 붙인 후 "노드 원본", "링크 원본"으로 구분.
- "노드 원본", "링크 원본"의 내용은 그대로 두고, "노드 검토본", "링크 검토본"으로 새 시트를 만들어서 검토 내용을 기록.
공유폴더의 민족_통합_171229.xlsx 파일 참고.
- 검토할 내용
- Node_ID와 Node_Label이 서로 일치하는가?
- 일치하지 않는 경우, 색깔 표시
- Node_Label과 Node_URL에 표시된 위키 기사의 제목이 서로 일치하는가?
- 일치하지 않는 경우, 색깔 표시
- "노드 검토본" 시트에는 Node_Type 칼럼을 추가해서 기술
- A : Encyves 위키 기사 있음 / B: Encyves 위키 기사 없음 / C: 검토요망 (Node_ID와 Node_Label이 일치하지 않거나, Node_Label과 Node_URL의 기사 제목이 일치하지 않는 것)
- 이외에도 LST 파일에서 수정이 필요한 내용은 별도 파일에 메모해서 각 팀 대표에게 전달할 예정.
- 예: URL에 엉뚱한 내용이 들어간 것, image URL을 상대경로로 표시한 것, etc.
- Node_ID와 Node_Label이 서로 일치하는가?
RDB 테이블 설계
- 총 3개의 기본 테이블 사용 - LST파일 테이블, 노드 테이블, 링크 테이블
- LST파일 테이블 디자인
- ID값 네이밍 방식 결정 필요
- LST 파일 내용 전체를 xml 파일 형태로 변환해서 적재
| LST_ID | LST_name | LST_file |
|---|
- 노드 테이블 디자인
- 아래 디자인은 검토용 테이블이며, 정제된 unique 노드 테이블은 별도의 디자인 필요
| LST_name | Node_ID | Class | Node_Label | Node_URL | Node_Type |
|---|
- 링크 테이블 디자인
| LST_name | Source | Target | Relation |
|---|
emditor 기능 활용 노드 추출 프로세스
- emeditor Professional (64bit) version 17.2.5
- 모든 문서 한번에 열기
- 정규식 활용 문장 추출 (그룹 열린 문서 모두검색 체크) : ^(.+)\s(.+)\s(.+)\r
- 추출 후 빈칸 정리 (그룹내 열린 문서 모두 검색 해제):
- 스페이스 -> \t
- \t\t -> \t (변환이 이루어지지 않을 때까지 반복)
- 추출된 파일 경로 정리
- \((.+)\)\:\s -> \t
- 파일명 제외 경로 삭제
- 불필요 부분 삭제
- 릴레이션 정의 부분 삭제 : ^\S+\t\S+\tblack\t\S+\t\d
- 클래스 정의 부분 삭제 : ^\S+\t\S+\tblue\t\S+\r\n
- 기타 부분 삭제;;;ㅎㅎㅎ
- 나머지 정렬하여 사용
- 참고사항
- 노드+링크 선택 : ^([가-힣|_|-]+)([\t|\s]+)([가-힣]+)(.*)
- 노드 선택 : ^([가-힣|_|-]+)([\t|\s]+)([가-힣|_|-]+)([\t|\s]+)([가-힣|_|-]+)(.*)
- 링크 선택 : ^([가-힣|_|-]+)([\t|\s]+)([가-힣|_|-]+)([\t|\s]+)([a-zA-Z])(.*)
다음 회의 계획
- 일시: 2018년 1월 2일 화요일 오전 11시 30분
- 검토 결과 확인
- Node_Type 이 A로 기록된 노드 리스트와 위키 기사 리스트를 대조해서 점검.
- RDB 적재 & unique 노드 리스트 만들기
- unique 노드는 총 몇개?