"20180305 회의록"의 두 판 사이의 차이
khw
| 11번째 줄: | 11번째 줄: | ||
# 역대인물-서원제향인물 데이터 매칭 | # 역대인물-서원제향인물 데이터 매칭 | ||
#*과정: | #*과정: | ||
| − | #*# 데이터 RDB 적재 | + | #*# 데이터 RDB 적재 |
| + | #*# 한글이름, 한자이름을 기준으로 두 테이블 JOIN | ||
| + | #*# 매칭이 안된 인물 중 오타+역대인물DB와 한자값이 상이한 데이터 수정, 다시 매칭. | ||
| + | #*# 최종적으로 매칭인물 / 매칭안된인물 추출. | ||
#*역대인물DB 중, 같은 인물이라도 UCI값이 과거시험 날짜에 따라 달라지므로 기준이 되는 인물 고유의 ID값이 존재하지 않음. 한글이름과 한자이름이 모두 같지만 다른 인물인 경우에는 식별 불가. | #*역대인물DB 중, 같은 인물이라도 UCI값이 과거시험 날짜에 따라 달라지므로 기준이 되는 인물 고유의 ID값이 존재하지 않음. 한글이름과 한자이름이 모두 같지만 다른 인물인 경우에는 식별 불가. | ||
#*총 매칭된 인물: 907건, 매칭 안된 인물:801건. (중복제거) | #*총 매칭된 인물: 907건, 매칭 안된 인물:801건. (중복제거) | ||
2018년 3월 5일 (월) 23:21 판
| ← Previous | 회의록 | Next → |
| 20180228 회의록 | 20180305 회의록 | [[]] |
회의록
인물 데이터 식별
- 역대인물-서원제향인물 데이터 매칭
- 과정:
- 데이터 RDB 적재
- 한글이름, 한자이름을 기준으로 두 테이블 JOIN
- 매칭이 안된 인물 중 오타+역대인물DB와 한자값이 상이한 데이터 수정, 다시 매칭.
- 최종적으로 매칭인물 / 매칭안된인물 추출.
- 역대인물DB 중, 같은 인물이라도 UCI값이 과거시험 날짜에 따라 달라지므로 기준이 되는 인물 고유의 ID값이 존재하지 않음. 한글이름과 한자이름이 모두 같지만 다른 인물인 경우에는 식별 불가.
- 총 매칭된 인물: 907건, 매칭 안된 인물:801건. (중복제거)
- 과정: