"20180305 회의록"의 두 판 사이의 차이
khw
| 10번째 줄: | 10번째 줄: | ||
===인물 데이터 식별=== | ===인물 데이터 식별=== | ||
# 역대인물-서원제향인물 데이터 매칭 | # 역대인물-서원제향인물 데이터 매칭 | ||
| − | #*과정: #* | + | #*과정: |
| + | #*# 데이터 RDB 적재 2) 한글이름, 한자이름을 기준으로 두 테이블 JOIN 3) 매칭이 안된 인물 중 오타+역대인물DB와 한자값이 상이한 데이터 수정, 다시 매칭. 4) 최종적으로 매칭인물 / 매칭안된인물 추출. | ||
#*역대인물DB 중, 같은 인물이라도 UCI값이 과거시험 날짜에 따라 달라지므로 기준이 되는 인물 고유의 ID값이 존재하지 않음. 한글이름과 한자이름이 모두 같지만 다른 인물인 경우에는 식별 불가. | #*역대인물DB 중, 같은 인물이라도 UCI값이 과거시험 날짜에 따라 달라지므로 기준이 되는 인물 고유의 ID값이 존재하지 않음. 한글이름과 한자이름이 모두 같지만 다른 인물인 경우에는 식별 불가. | ||
#*총 매칭된 인물: 907건, 매칭 안된 인물:801건. (중복제거) | #*총 매칭된 인물: 907건, 매칭 안된 인물:801건. (중복제거) | ||
2018년 3월 5일 (월) 23:21 판
| ← Previous | 회의록 | Next → |
| 20180228 회의록 | 20180305 회의록 | [[]] |
회의록
인물 데이터 식별
- 역대인물-서원제향인물 데이터 매칭
- 과정:
- 데이터 RDB 적재 2) 한글이름, 한자이름을 기준으로 두 테이블 JOIN 3) 매칭이 안된 인물 중 오타+역대인물DB와 한자값이 상이한 데이터 수정, 다시 매칭. 4) 최종적으로 매칭인물 / 매칭안된인물 추출.
- 역대인물DB 중, 같은 인물이라도 UCI값이 과거시험 날짜에 따라 달라지므로 기준이 되는 인물 고유의 ID값이 존재하지 않음. 한글이름과 한자이름이 모두 같지만 다른 인물인 경우에는 식별 불가.
- 총 매칭된 인물: 907건, 매칭 안된 인물:801건. (중복제거)
- 과정: