"2017-1 여름방학 논문스터디 4차(20170712)"의 두 판 사이의 차이
hiblue
(→참가자) |
(→그 외) |
||
| 37번째 줄: | 37번째 줄: | ||
*아직까지 고전용어 시소러스는 보완점이 많지만 (시소러스 검색과 원문검색이 연결되지 않는 점, 동음이의어 검색의 불편.) 고전 데이터베이스에서는 유의미한 결과를 도출할 수 있을 것으로 보인다. | *아직까지 고전용어 시소러스는 보완점이 많지만 (시소러스 검색과 원문검색이 연결되지 않는 점, 동음이의어 검색의 불편.) 고전 데이터베이스에서는 유의미한 결과를 도출할 수 있을 것으로 보인다. | ||
| − | *'''"정보시스템의 지능이라고 이야기할 수 있는 기계적 판단의 모든 근거는 사람에 의해 주어져야 한다"''' ->기계가독형 데이터를 만들려면 자료를 제작하는 콘텐츠 제작자의 자료에 대한 이해가 선행되어야 한다. 이와 같은 사항은 어느 분야에도 적용될 수 있으므로 디지털인문학자가 역할을 수행하기 위해서는 다양한 | + | *'''"정보시스템의 지능이라고 이야기할 수 있는 기계적 판단의 모든 근거는 사람에 의해 주어져야 한다"''' ->기계가독형 데이터를 만들려면 자료를 제작하는 콘텐츠 제작자의 자료에 대한 이해가 선행되어야 한다. 이와 같은 사항은 어느 분야에도 적용될 수 있으므로 디지털인문학자가 역할을 수행하기 위해서는 다양한 분야에서 폭넓은 지식을 습득해야 한다. |
*지식 컨텐츠에서의 온톨로지는 백과사전식 정렬, 부분적인 이해에서 벗어나 맥락을 포함하는 단위로 구상하고 사용자의 수준과 관심도에 맞춰 자료를 개시할 수 있는 방안이 필요하다. | *지식 컨텐츠에서의 온톨로지는 백과사전식 정렬, 부분적인 이해에서 벗어나 맥락을 포함하는 단위로 구상하고 사용자의 수준과 관심도에 맞춰 자료를 개시할 수 있는 방안이 필요하다. | ||
<br/> | <br/> | ||
| + | |||
==주석== | ==주석== | ||
<references/> | <references/> | ||
[[분류:2017-1 여름방학 논문스터디]] | [[분류:2017-1 여름방학 논문스터디]] | ||
2017년 7월 13일 (목) 23:28 기준 최신판
자료
- 한국 고전적 전산화의 발전방향, 김현
- 한국고전종합DB 시소러스, 한국고전번역원
- 시소러스 기반 온톨로지에 관한 연구, 김영만
참가자
- 김선미(인문정보학과 석사1차)
- 김현규(인문정보학과 석사1차)
- 이혜영(인문정보학과 석사1차)
토론 내용
고전용어 시소러스
- 한국고전번역원은 용어색인의 효율성과 정확성을 높이기 위해 '고전용어 시소러스'라는 부가적인 기능을 운영하고 있다.
- 고전용어 시소러스
- '검색-세부정보-관계도-다른 노드 선택-노드 확장'의 과정을 거쳐 특정 검색어에 대한 결과물을 '네트워크 분석'과 같이 분석할수 있음
- 일종의 검색 안내도의 역할
- 컴퓨터 자체가 스스로 자료를 판단할 수 있는 능력. xml과 같이 세부적으로 노드값이 태깅되지 않은 상황에서라도 검색에 참고가 될 것으로 보임
- 시소러스 : 데이터 검색을 위한 키워드(색인어)간의 관계, 즉 동의어, 하위어(下位語 : 그 색인어에 속하는 용어), 관련어 등의 관계를 나타낸 사전을 시소러스라고 한다. 시소러스를 사용해서 검색하는 것을 포괄검색(包括檢索)이라고 하며, 그것은 사용하는 키워드에 관계하는 기사를 될 수 있는 대로 많이 꺼내기 위해서 또는 이용자가 사용하는 키워드와 데이터 베이스중에서 사용되고 있는 키워드와의 벗어남을 조정하여 검색효율을 높이기 위해서 행해진다.[1]
- 우리가 만드는 관계테에블도 넓은 의미의 시소러스라고 볼 수 있지 않을까?
온톨로지와 머신리더블 데이터
- 온톨로지는 개념형 분류체계로서 방대한 고전문헌에서 용어들을 분류해서 보여주기 위해 사용
- 머신리더블한 자료를 만들기 위해서 온톨로지를 사용하는 것인가에 대한 논의
- Q : 자료의 모호성을 최대한 줄여 컴퓨터가 용어의 관계를 파악할 수 있게 한다는 것은 이용자가 검색 서비스를 쉽게 이용하고 결과적으로 자료 접근성을 높여주는 데 까지 도움을 줄 수 있는데 논문에서 사업의 최종 소비자는 기계이다 라고 한 이유는?
- A : 사업의 산출물이라는 부분에 초점을 두면 사업의 1차적인 목적은 기계가 읽을 수 있는 자료를 만드는 것이지만 그에 따른 결과는 연구자가 되는 것이다.
- Q : 그렇다면 완벽하게 설계된 머신리더블 데이터가 일반 사용자도 쉽게 접근할 수 있는 방식으로 연결이 되는가, 즉 기계가 읽을 수 있는 자료와 사람이 읽을 수 있는 자료로 연결이 되는가?
- A : 김바로선생님의 의견에 따르면 모호성을 최대한 배제하고 기계가 읽을 수 있을 정도로 미세한 부분까지 쪼개고 쪼개서 데이터베이스를 구축하면 재조합 즉, 사람이 읽을 수 있을 형태로 재구축할 수 있으므로(이것은 ux의 문제이다.) 기계가독형 데이터도 사람이 볼 수 있는 데이터로 전환이 가능할 것이다. (린지 선생님의 석사 학위 논문 참고).
- 온톨로지와 시소러스의 차이
온톨로지가 시소러스와 다른 점의 하나는 시소러스에 비해 개념 관계를 보다 세분하여 차별화할 수 있는 구조를 갖추고 있다는 점이다. 온톨로지는 개념 간의 관계와 용어 간의 관계를 분리하여 해당 주제 영역을 파악할 수 있는 구조를 갖추고 있다. 이를 통해 인간의 이해 구조를 더 잘 반영할 수 있으므로 시소러스에 비해 개념 간의 관계를 보다 정확하고 분명하게 만든다. 또한 주제 영역 내에서 일관성 있고 명확하게 각각의 개념을 정의하고, 개념 간의 관계를 구조화함으로써 해당 주제 영역의 특성을 보다 더 분명하게 반영할 수 있도록 해준다. 온톨로지가 시소러스와 구별되는 또 다른 특성은 일반화 혹은 상호운영성의 규칙을 적용함으로써 구조화된 지식으로부터 새로운 지식을 추론할 수 있다는 점이다. 추론을 통해 새롭게 덧붙여지는 지식은 지능적인 정보 처리에 적용될 경우 많은 역할을 할 수 있다. -출처 : 시소러스 기반 온톨로지에 관한 연구], 김영만-
- 고전데이터베이스에 있어서는 머신리더블 데이터=>휴먼리더블 데이터의 전환이 가능하지만 일반적인 지식에 대해 이와 같은 방식을 적용할 수 있을 것인가?
- 고전 데이터베이스를 이용하는 사람들의 유형은 크게 두 가지이다. 1. 사료로서 연구자들에게 이용되거나 2. 번역의 참고자료로 활용되거나. 이와 같이 기계가독형 자료는 방대한 데이터에서 세부적인 부분을 찾아낼 수 있기 때문에 위와 같이 전체적인 맥락 파악보다는 부분적으로 자료를 활용하는 고전에서는 유용하게 사용할 수 있다. 그러나 전체적인 관계를 이해해야 하는 분야, 총체적으로 파악하는 분야에서 맥락을 파악하는 분야에서 기계가독형 자료를 어떻게 구상해야 할 것인가의 문제는 우리가 앞으로 고민해야 할 문제이다.
그 외
- 온톨로지와 시소러스가 다른 이유는 분류체계의 차이가 있기 때문이다. 시소러스에서 유의어, 하의어로 분류하는 것으로는 전체적인 맥락을 파악할수 없으므로 맥락을 조금 더 반영하기 위한 노력의 결과물이 온톨로지일 것이다.
- 아직까지 고전용어 시소러스는 보완점이 많지만 (시소러스 검색과 원문검색이 연결되지 않는 점, 동음이의어 검색의 불편.) 고전 데이터베이스에서는 유의미한 결과를 도출할 수 있을 것으로 보인다.
- "정보시스템의 지능이라고 이야기할 수 있는 기계적 판단의 모든 근거는 사람에 의해 주어져야 한다" ->기계가독형 데이터를 만들려면 자료를 제작하는 콘텐츠 제작자의 자료에 대한 이해가 선행되어야 한다. 이와 같은 사항은 어느 분야에도 적용될 수 있으므로 디지털인문학자가 역할을 수행하기 위해서는 다양한 분야에서 폭넓은 지식을 습득해야 한다.
- 지식 컨텐츠에서의 온톨로지는 백과사전식 정렬, 부분적인 이해에서 벗어나 맥락을 포함하는 단위로 구상하고 사용자의 수준과 관심도에 맞춰 자료를 개시할 수 있는 방안이 필요하다.