"CiTO, the Citation Typing Ontology"의 두 판 사이의 차이

seonae's wiki
이동: 둘러보기, 검색
(citation frequency)
(citation frequency)
83번째 줄: 83번째 줄:
  
 
[[파일:cnetwork2.jpg|800px|center]]
 
[[파일:cnetwork2.jpg|800px|center]]
 +
 +
===characterization of cited works: use of the FRBR classification model===
  
 
==The relationship of CiTO with other metadata schemas and ontologies==
 
==The relationship of CiTO with other metadata schemas and ontologies==

2019년 11월 5일 (화) 12:58 판

the Citation Typing Ontology

Background

context and rational

온라인 출판과 서지 검색 엔진의 등장은 개별 연구 논문을 찾기 쉽게 해주었지만 현재의 학술 인용 시스템은 과학적 문학, 연결 논문(linking papers), 저자들과 연구 프로젝트 내에 존재하는 지식 네트워크에 부적절하게 노출되어 있다. 문제의 대부분은 자유롭게 인용가능한 데이터의 부족에서 기인한다. 이 오픈 액세스 시대에 학술데이터 사이클의 핵심 요소인 저널의 아티클의 참고문헌 목록이 학자들에게 자유롭게 이용되지 못한다는 것은 충격적인 일이다.

이 글은 인용을 특성화시키는 새 도구인 CiTO를 설명하고, CiTO가 인용을 특성화하기 위해 어떻게 이용되며 이 데이터는 기계가독적인 형태로 어떻게 출판될 수 있는지를 보여주고자 한다. 만약 CiTO를 적용할 수 있는 기계가독적 인용 데이터가 모든 학술출판물과 연결되고 웹 상에서 자유롭게 출판된다면, 인용 네트워크의 구성과 질문(interrogation)은 많은 학문적 이점과 함께 아주 단순해질 것이다.

what is CiTO

CiTO는 과학 연구 논문과 다른 학술적 저작들(그런 출판물들과 또 웹 정보자원 모두)에 있는 참조 인용의 본질을 기술하고, 시맨틱 웹에서 이 내용을 출판하기 위한 온톨로지이다. 이는 생의학 연구자들의 필요에 의해 계획되었다. 인용은 인용(citing) 출판물과 피인용(cited) 출판물 간의 실제적이고 은유적인 관계들로 묘사된다. 이 글은 CiTO에 대해 기술한 뒤, 서지 참고 목록의 주석을 작성하고 인용 네트워크를 시각화함에 있어서 그것이 유용함을 보여줄 것이다.

CiTO의 최신 버전은 2010년 3월 26일에 발행된 ver 1.6이다. 이 온톨로지는 OWL로 작성되었으며, http://purl.org/spar/cito의 네임스페이스를 사용하고 있다. 웹 브라우저를 통해서도 온톨로지에 접근할 수 있으며 프로테제(Protege)를 통해서도 접근할 수 있다.

What is meant by a citation

CiTO의 맥락에서, 서지 인용은 피인용 작업을 일컫는 다른 출판물을 인용하고 있는 작업 내의 참조(reference)이다. 과학 연구 논문에서 인용은 대개 2가지 형태로 나타나는데, in-text citation으로 일컬어지는 논문의 텍스트 내에서 축약된 형태(condensed form)와 문헌의 끝에 참고문헌 목록 내의 완전한 형태(full form)이다. 단어 '인용(citation)'의 이용은 피인용 작업 그 자체를 암시하기 위해서 단어와 흔히 관련된 이용과는 분명하게 구별되어야만 한다. CiTO내에서 'cite'와 'citation'은 인용의 행위 그 자체를 의미하지 그 인용의 대상을 의미하지 않는다.

CiTO scope and usage

citation publication and citation networks

CiTO의 첫번째 목적은 인용 작업(citing work) 내의 인용들을 RDF라고 하는 기계가독적 형태로 표현하고자 하는 것이다.

<http://example1.com/citingwork> cito:cites <http://example2.com/citedwork>

심지어 인용의 존재를 나타내는 간단한 문장은 중요한 가능성을 보여주는데, 예를 들어 몇 가지의 논문에서 RDF 인용 리스트를 결합함으로써 인용 네트워크를 쉽게 생성할 수 있게 된다.

반대로 우리는 이렇게도 말할 수 있다.

<http://example2.com/citedwork> ctio:isCitedBy <http://example1.com/citingwork>

이것은 논리적 관점에서 장황함에도 불구하고, 특정 환경에서는 유용하다.

아래의 그림은 Reis et al(2008)에서 직접적으로나 간접적으로 인용된 몇가지의 문헌을 연결하여 간단한 인용네트워크를 보여준다. 이 그림은 임시 수직축을 따라 노드들을 배열하는 RDF 그래프 시각화 툴 Welkin에 CiTO 인용의 RDF 그래프를 넣어서 자동적으로 생성한 것이다.

Cnetwork.jpg


컴퓨터가 쉽게 읽을 수 있는 형태로 인용 네트워크 정보에 접근할 수 있는 것의 중요성은 최근에 Greenberg의 논문에서 강조되었다. 그는 완전한 인용 네트워크를 구성하였는데, 1992년에서 2007년 사이에 PubMed목록에 있는 영어 논문 중 알츠하이머와 관련되어 뇌에 축적되는 단백질인 베타 아미로이드가 포함체 근육염(inclusion body myositis)과 함께 환자의 골격근을 손상시킨다는 연구에 대한 242개의 문헌과 675건의 인용을 결합하였다. 이를 통해 그는 3가지의 중요한 점을 발견하게 되었다.

  • 가설을 반박하거나 약화시키기 보다 지지하는 논문을 편향적으로 인용하는 것(근거없는 권위).
  • 지지함에 있어서 추가 증거를 제시하지 않고 가설을 강화하는 것.
  • 초기 논문에서 가설에 대해 진술한 것을 인용함으로써 사실의 진술로 변환하는 것.

걱정스럽게도, 그는 정보 행위의 자유법(The Freedom of Information Act)으로부터, 국립 보건원이 후원하는 보조금 신청에서도 이와 같은 경향을 발견하였다. 따라서 인용이 편파적인 학술 방법이고 사회적 소통의 강력한 형태인 반면, Greenberg는 특정 주제에 대한 인용 네트워크 분석을 통해 편견, 강화, 사실의 창조 그리고 주장에 대한 근거없는 권위의 생성 등을 포함하여 인용의 사회적 이용에 왜곡이 있음을 밝혀내었다. 이 모든 것은 당신이 갖고 있는 인용 네트워크가 이용가능하다면 인용 네트워크 분석이 얼마나 가치있는지를 보여주고 있다. CiTO는 인용 네트워크의 생성 작업을 쉽게해주면서, 출판할 수 있는 기계가독적 형태의 인용 데이터를 인코딩하는 방법을 제공해준다.

Citation characterization

CiTO의 두번째 목적은 서지 인용의 특성화를 가능하게 하는 것이다. 하나의 출판물이 다른 출판물들을 인용하는 이유는 다양하다. 대개, 그것은 더 최근에 출판된 인용 작업들이 배경 정보, 생각, 방법, 또는 데이터 등을 형성하는 등의 여러 도움을 과거의 피인용 작업들에서 얻을 수 있기 때문이다. 그러나 드물게도 이전의 작업들에 대해 비판하거나 논쟁하기 위해서 인용을 하기도 한다. CiTO는 그러한 구별을 포착하여 출판할 수 있게 하는데 예를 들면 이렇다. 특정 출판물을 인용할 때 저자의 의도는 저자들이 자신들의 인용을 기술하는 메타데이터를 생성하면서도 피인용 작업들을 기술하고 있는 메타데이터와는 상당히 구별된다. CiTO를 이용하여 기록가능한 인용 유형 관계의 전체 목록은 아래의 표에 있다.

Citetable1.png

cito:citescito:isCitedBy를 제외하고 위의 모든 프로퍼티는 cito:cites의 하위 프로퍼티이다. 이 모든 하위 프로퍼티들은 인용 작업과 피인용 작업의 관계를 특징 짓고 그들의 역 프로퍼티는 적용되지 않는다. 그러므로 cito:supportscito:obtainsSupportFrom은 분리되고 구분되는 프로퍼티이며, 서로의 역관계가 아니다. 하나의 단일한 인용은 실제적이고 은유적인 몇몇의 다른 관계에 의해 특징지어질 수 있다. 온톨로지의 텍스트적 정의에 따라 이용자는 어느 관계가 가장 적절한지를 결정한다. N3(Notation3)형태로는 아래와 같이 기술될 수 있다.

<http://example1.com/citingwork>
   cito:cites <http://example2.com/citedwork>;
   cito:usesMethodIn <http://example2.com/citedwork>;
   cito:extends <http://example2.com/citedwork>;
   cito:sharesAuthorsWith <http://example2.com/citedwork>;

citation frequency

세번째 목적은 인용 빈도를 기록하기 위함인데, local과 global의 두가지 유형이 있다. 우리는 저널 임팩트 팩터(Impact Factor)에 익숙한데, 그것은 전체적으로 그들이 포함한 논문의 인용에 대한 global 빈도에 기반한다. 오용과 스파이킹(spiking)에 대한 취약점에도 불구하고, IF는 저널의 질을 평가할 때 널리 이용되고 있는데, 보다 덜 적절하게는 모든 인용은 피인용 작업에 대한 '신뢰감의 투표(votes of confidence)'라는 전제를 깔고 개별 논문의 질과, 저자들과 기관의 학술적 장점에 대한 계산식으로 이용되고 있다. 거칠게 말해서, 문헌 A가 문헌 B는 한번 인용하지만 문헌 C는 텍스트 내의 다른 곳에서 10번 인용하고 있다면 인용 문헌의 관점(citing paper)에서는 문헌 B의 global 빈도와 관계가 없이 문헌 C가 더 중요하다.

  • local frequency : 하나의 문헌 내에서 인용이 이루어지는 빈도
  • global frequency : 전체 문헌 집단 내에서 인용이 이루어지는 빈도

CiTO는 특정 날짜에 구글 스콜라나, SCOPUS 등과 같은 제 3자 기관과 협의하여, 문헌 A에서 인용하고 있는 문헌들의 텍스트 내에서의 인용 빈도(local)와 각 인용되고 있는 전체에서의 인용 빈도(global) 모두를 기록할 수 있다. global 인용에서는 전체 학술 커뮤니티에서 각각 피인용 문헌들의 중요성에 대한 대리 추정치(proxy estimates)를 제공함으로써 계산한다. CiTO에서 그러한 정보는 아래의 표에서 보이는 프로퍼티들을 이용하여 기록한다.

Ctable2.png

아래와 같은 방식으로 기술할 수 있다.

<http://example1.com/citingwork>
   cito:cites <http://example2.com/citedwork> ;
   cito:inTextCitationFrequency [
      a cito:InTextCitationCount ;
      cito:inTextCountValue "10"^^xsd:integer ;
      cito:inTextCitationTarget <http://example2.com/citedwork> ;
] ; .
<http://example2.com/citedwork>
   cito:isCitedBy <http://example1.com/citingwork> ;
   cito:globalCitationFrequency [
      a cito:GlobalCitationCount ;
      cito:globalCountValue "206"^^xsd:integer ;
      cito:globalCountSource <>;http://scholar.google.com
      cito:globalCountDate "2009-03-11"^^xsd:date ;
] ; 

‘A cites B’와 'B is cited by A'는 모두 다른 진술에서 추론가능하기 때문에 이 트리플 세트에는 의도적인 중복이 있다. 이정도의 중복은 실제적 유용성을 갖는데, 직접 인용문을 사용하여 인용 네트워크 시각화 프로그램 입력을 깔끔하게 할 수 있기 때문이고 또 두 번째 트리플의 명시적이고도 호혜적인 진술은 이후 두 세트가 분리되어도 인용 작업의 정체성을 보존할 수 있기 때문이다. 그림 1(위에)에서 제시된 것과는 다른 관점이 그림 2(아래)에서 제시된다. 구글 스콜라의 수치 데이터를 이용하였는데, 노드 크기는 각각 2006년 이전 참조에서 얻은 global 인용 횟수의 세제곱근에 비례하는 반면 각각의 인용 참조 연결은 피인용문헌의 인용 문헌에 대한 중요성을 암시하는 각각의 인용 문헌 내에서 인용 문헌의 local 인용 횟수의 제곱근에 비례한다.

Cnetwork2.jpg

characterization of cited works: use of the FRBR classification model

The relationship of CiTO with other metadata schemas and ontologies

Example of CiTO in use

Conclusion