"20180221 회의록"의 두 판 사이의 차이
khw
(→문화정보원 전통문화데이터 정제) |
(→문화정보원 전통문화데이터 정제) |
||
| 4번째 줄: | 4번째 줄: | ||
찾기 : (\r|\n)([^0-9]) | 찾기 : (\r|\n)([^0-9]) | ||
바꾸기 : \2 | 바꾸기 : \2 | ||
| − | + | #전체 데이터 정제 후 RDB 탑재. | |
| − | *전체 데이터 약 500만건 중 의미 있을 정보 4000건 우선 확보. | + | #*백과사전의 항목이 되기 힘든 것들은 제외 : <small>ex)</small> 우리말사전(opendic.korea...?) / e영상역사관(ehistory.go.kr) 등 |
| + | #전체 데이터 약 500만건 중 의미 있을 정보 4000건 우선 확보. | ||
*'''1인 1주제'''씩 기관/ heading / 라벨 / url / discription 추출(정리) | *'''1인 1주제'''씩 기관/ heading / 라벨 / url / discription 추출(정리) | ||
**<small>고전번역원 해제정보</small> | **<small>고전번역원 해제정보</small> | ||
2018년 2월 21일 (수) 17:06 판
Virtuso
- 개인 PC에 로컬 설치 및 msSQL와 연동 방안 : commercial release 확보 후 테스트 가능
문화정보원 전통문화데이터 정제
찾기 : (\r|\n)([^0-9]) 바꾸기 : \2
- 전체 데이터 정제 후 RDB 탑재.
- 백과사전의 항목이 되기 힘든 것들은 제외 : ex) 우리말사전(opendic.korea...?) / e영상역사관(ehistory.go.kr) 등
- 전체 데이터 약 500만건 중 의미 있을 정보 4000건 우선 확보.
- 1인 1주제씩 기관/ heading / 라벨 / url / discription 추출(정리)
- 고전번역원 해제정보