FaBio and Cito:ontologies for describing bibliographic resources and citations

학술 저작과 출판이 활발하던 때에 온라인 출판 가능성은 관심을 받았지만 현재까지도 그러한 작업에서 웹 표준을 적용하지는 않는다. 오히려 XML기반의 정보 모델과 DTD를 적용하는 경우가 간간이 있지만 그것은 웹이 등장하기 이전 종이 출판 시대에는 합리적이었을지는 몰라도 지금은 시대착오적이다. 서로 다른 자원을 가진 출판물과 메타데이터는 서로 양립이 불가능해서 수작업으로 매핑하는 작업이 필요하기 때문이다. 출판계와 같은 큰 규모의 커뮤니티에서 전 산업에 아울러 이용될 수 있는 표준적 정의의 부재는 돈, 시간, 노력의 손실을 초래한다.

반면, 현대의 웹 정보 관리 기술에서는 RDF, OWL2와 같은 표준을 채택하여 자동화된 방식으로 메타데이터 쿼리를 날리고, 다양한 웹기반 자원들을 통합할 수 있다. 학문적 의사소통 과정에서 과학의 실천이 중심적이기 때문에 출판업자들은 그러한 기준을 채택하는 것이 필수적이다. 이것은 저자와 출판업자, 그리고 독자들의 요구를 잘 수용하는 온톨로지의 이용을 필요로 한다. 이 논문의 목적은 시맨틱 출판 혁명(Semantic publishing revolution)의 중요한 요소인 두 온톨로지를 소개하려는 것이다.

시맨틱 출판 혁명은 출판물을 향상시키고, 기계적인 발견(automatic discovery)을 용이하게 하며, 관련된 아티클을 의미적으로 연결하고, 아티클 내에서 데이터에 접근할 수 있게 하며, 논문간의 데이터를 통합하기 위해 시맨틱 웹 기술을 이용하는 것이다. 시맨틱 출판과 웹표준을 이용한 학술 인용은 과학 출판 영역에서 흥미로운 주제 중 두 가지를 보여준다. 이 분야의 연구 영역은 4가지의 발전을 포함한다.

  • 학술 저작과 출판의 요구를 충족시키는 semantic models(vocabularies, ontologies)
  • 온톨로지를 쉽게 이해할 수 있게 하는 visualization and documentation tools
  • 관련 문헌에 이러한 모델을 적용할 수 있게 하는 annotation tools
  • 많은 양의 온라인 문서를 검색할 때 시맨틱 주석을 쓸 수 있게 하는 new algorithms

이 논문에서는 시맨틱 출판의 작업에 주력하는 두 가지 온톨로지의 원리와 구조를 묘사하는 게 가장 큰 목적이다. 바로 FaBiO(FRBR-aligned Bibliographic Ontology)와 CiTO(Citation Typing Ontology)가 그것이다. 이 온톨로지들은 SPAR(Semantic Publishing and Referencing Ontologies)에 속한다.

Characteristics, starting point and principles

이 작업이 이전의 작업들보다 두드러지는 주요한 특징은 학술저자와 출판업자 같은 최종 이용자(end users)들의 요구사항을 충족시키에 충분한 표현력을 갖는 두가지의 온톨로지를 생성한 것이다. 또 우리는 2개의 새로운 표현 기술을 개발해왔는데, LODE(Live OWL Documentation Environment)Graffoo(Graphical Framework For OWL Ontologies)이다. 이 도구들은 더이상 여기서는 논의하지 않겠지만 온톨로지의 문서화, 시각화, 탐색(navigation)을 용이하게 하고, 온톨로지의 모델링과 지식의 구조화 능력이 부족한 학술 연구자, 출판업자, 사서 등의 잠재적 이용자들이 더 쉽게 이해할 수 있도록 한다.

이 작업에 도움을 받기 위해 출판업자, 연합 단체, 학술단체 등의 요구사항을 수렴하였으며, 가능한 기존의 모델과 온톨로지 및 어휘를 재사용하고자 했다. 이 작업의 시작점은 CiTO 버전1.6이며, 이것은 아직 준비 단계이고 불완전하지만 서지적 문서의 기술을 위한 용어와 인용의 특성을 잘 포함하는 특성이 담긴 단일한 온톨로지를 포함하고 있다.

우리의 첫번째 결정은 이 온톨로지를 모듈화하는 것이었는데, 그것은 기존 버전의 각 측면을 더욱 발전시키고, 각각의 온톨로지 모듈을 쉽게 이해할 수 있도록 작고 균일하게 유지하기 위함이다. 이에 따라 온톨로지의 모듈화에 대한 방법론을 수립하고, 3가지의 원칙을 세워 준수하였다.

  • 문헌들과 인용의 특성에 대한 서지적 기술은 2개로 분리되지만 상호운용가능한 온톨로지에 의해 표현되어야 한다.
  • 각 온톨로지 모듈의 재사용성을 극대화하기 위해 논리적 제약은 오직 엄격히 요구되는 곳에서만 추가되어야 한다.
  • 우리가 기술하고자 하는 영역의 일부에 잘 알려지고 널리 공유된 어휘가 이미 존재하는 경우에는 이것들이 적절하게 수용되고 재사용되어야 한다.

Related works

여기서는 간략하게 잘 알려진 어휘들을 소개하고자 한다.

  • Dublin Core+Dublin Core Metadata Elements
  • PRISM(Publishing Requirements for Industry Standard Metadata)
  • SKOS(Simple Knowledge Organization System)
  • FOAF(Friend of a Friend Ontology)
  • SWRC(Semantic Web for Research Communities)
  • FRBR(Functional Requirements for Bibliographic Records) : 4가지의 상호 연관된 관점으로 기술.(Work, Expression, Manifestation, Item)
  • BIBO(Bibliographic Ontology)
  • SWAN(Semantic Web Applications in Neuroscience)

Representing bibliographic information using FaBiO

  • 아래의 예시를 가지고, BIBO에서의 기술방식, FRBR에서의 기술방식을 살펴본 뒤, FaBiO를 이용하여 더 정확하게 기술할 수 있음을 보일 것.
  • typical bibliographic reference example
 Yves Marcoux, Élias Rizkallah (2009). Intertextual semantics: A semantics for information design. Journal of the American Society for Information Science and Technology, 60 (9): 1895-1906. John Wiley & Sons, Inc. DOI:10.1002/asi.21134. First published online (PDF and HTML) 21 August 2009.
  1. 이 문헌은 출판된 저널에 수록된 학술 연구 논문.
  2. 저자 : Yves Marcoux, Élias Rizkallah
  3. 출판년도 : 2009
  4. 제목 : Intertextual semantics: A semantics for information design
  5. 출판 저널 : Journal of the American Society for Information Science and Technology 60권 9호
  6. DOI : 10.1002/asi.21134
  7. 2009년 8월 21일에 PDF와 HTML형식으로 첫 온라인 출판.
  8. 출판 페이지 : 1895-1906
  9. 출판사 : John Wiley & Sons, Inc.

Bibliographic reference metadata encoding using BIBO

  • BIBO는 첫 OWL 온톨로지로, DC terms의 어휘를 확장하였으며, PRISM과 FOAF의 어휘를 포함하고 있다.
:intertextual-semantics a bibo:AcademicArticle
 ; bibo:authorList ( :marcoux :rizkallah )
 ; dcterms:title “Intertextual semantics: A semantics for information design”
 ; dcterms:issued “2009”^^xsd:gYear
 ; bibo:doi “10.1002/asi.21134”
 ; bibo:pageStart “1895”
 ; bibo:pageEnd “1906”
 ; dcterms:hasFormat :html , :pdf
 ; dcterms:isPartOf [ a bibo:Issue
    ; bibo:issue “9”
    ; bibo:volume “60”
    ; dcterms:isPartOf [ a bibo:Journal
      ; dcterms:title “Journal of the American Society for Information Science and Technology”
      ; dcterms:publisher :wiley-and-sons ]] .
:html a bibo:AcademicArticle
 ; dcterms:format type:text/html
 ; dcterms:issued “21-08-2009”^^xsd:date .
:pdf a bibo:AcademicArticle
 ; dcterms:format type:application/pdf
 ; dcterms:issued “21-08-2009”^^xsd:date .
:marcoux a foaf:Person
 ; foaf:givenName “Yves”
 ; foaf:familyName “Marcoux” .
:rizkallah a foaf:Person
 ; foaf:givenName “Élias”
 ; foaf:familyName “Rizkallah” .
:wiley-and-sons a foaf:Organization
 ; foaf:name “John Wiley & Sons, Inc.” 
  • 몇 가지의 모호한 점 발생
    • 어떤 구문은 너무 포괄적. 예를 들어 dcterms:issueddcterms:issued “21-08-2009”^^xsd:date, dcterms:issued “2009”^^xsd:gYear 두 가지의 날짜 형식을 다 허용하여 정확성이 부족함.
    • BIBO에서는 저자들을 리스트화할 때 rdf:Listrdf:Seq를 가져야만 하는데, OWL2DL은 RDF의 클래스를 지원하지 않기 때문에 DL을 지향하는 자들의 이용을 제한함.
    • PRISM과 같이 BIBO는 권수를 기록할 수 있는 bibo:volumebibo:AcademicArticle, bibo:Issue, bibo:Journal 어휘가 있지만 이들의 계층적 구조를 뚜렷하게 반영하지 않음.(Journal Article>Issue>Volume>Journal)
    • 예시의 다양한 아티클 형식간의 관계가 분명하지 않음. 자원 :intertextualsemantics:pdf의 관계가 구체적이지 않음.
    • 또, 페이지 번호가 HTML이 아니라 인쇄된 기사만에 해당한다는 것을 명확히 나타내지 못함.
    • 게다가 FRBR의 계층적 구조가 없어서, 다양한 층위의 개념들을 구분하는 유연함이 없음. academic paper는 journal article이나 conference paper나 book chapter를 포함할 수 있지만 bibo:AcademicArticle는 academic paper와 journal article의 개념을 융합한 것.

Bibliographic reference metadata encoding using FRBR

  • 보다 구조적인 FRBR 모델은 위에서 제기한 것 이상을 다룰 수 있음.
:intertextual-semantics a frbr:Work
 ; frbr:creator :marcoux , :rizkallah
 ; frbr:realization :content .
:content a frbr:Expression
 ; dcterms:title “Intertextual semantics: A semantics for information design”
 ; dcterms:issued “2009”^^xsd:gYear
 ; dcterms:identifier “doi:10.1002/asi.21134”
 ; frbr:embodiment :printed , :html , :pdf
 ; frbr:partOf [ a frbr:Expression
    ; dcterms:identifier “9”
    ; dcterms:description “Issue”
    ; frbr:embodiment :printed-issue
    ; frbr:partOf [ a frbr:Expression
       ; dcterms:identifier “60”
       ; dcterms:description “Volume”
       ; frbr:partOf [ a frbr:Expression
          ; dcterms:title “Journal of the American Society for Information Science and Technology” ] ] ] .
:printed-issue a frbr:Manifestation
 ; frbr:producer :wiley-and-sons
 ; dcterms:issued “09-2009”^^xsd:gYearMonth
 ; frbr:part :printed .
:printed a frbr:Manifestation
 ; frbr:producer :wiley-and-sons
 ; dcterms:issued “09-2009”^^xsd:gYearMonth
 ; dcterms:extent [ a dcterms:SizeOrDuration
      ; dcterms:description “1895-1906” ] .
:html a frbr:Manifestation
 ; frbr:producer :wiley-and-sons
 ; dcterms:format type:text/html
 ; dcterms:issued “21-08-2009”^^xsd:date .
:pdf a frbr:Manifestation
 ; frbr:producer :wiley-and-sons
 ; dcterms:format type:application/pdf
 ; dcterms:issued “21-08-2009”^^xsd:date .
:marcoux a frbr:Person
 ; dcterms:description “Yves Marcoux” .
:rizkallah a frbr:Person
 ; dcterms:description “Élias Rizkallah” .
:wiley-and-sons a frbr:CorporateBody
 ; dcterms:description  “John Wiley & Sons, Inc.” .
  • 이렇게 FRBR을 이용함으로써 서지 개체를 구조적이고 덜 모호하게 기술할 수 있지만 이 예시에서도 FRBR의 한계는 분명하다. 구체적인 용어가 부족하여 "Journal", "Page"등과 같은 일상 용어를 허용하고 있다.

Bibliographic reference metadata encoding using FaBiO

  • FaBiO는 이전 예시에서 드러나는 문제들을 정밀하게 기술하기 위해 개발되었다. 이 모델에는 DC terms, PRISM, FRBR, SKOS의 어휘가 포함되었다.
:intertextual-semantics a fabio:ResearchPaper
 ; dcterms:creator :marcoux , :rizkallah
 ; frbr:realization :version-of-record .
:version-of-record a fabio:JournalArticle
 ; dcterms:title “Intertextual semantics: A emantics for information design”
 ; fabio:hasPublicationYear “2009”^^xsd:gYear
 ; prism:doi “10.1002/asi.21134”
 ; frbr:embodiment :printed , :html ,:pdf
 ; frbr:partOf [ a fabio:JournalIssue
    ; prism:issueIdentifier “9”
    ; frbr:embodiment :printed-issue
    ; frbr:partOf [ a fabio:JournalVolume
       ; prism:volume “60”
       frbr:partOf [ a fabio:Journal
            ; dcterms:title “Journal of the American Society for Information Science and  Technology” ] ] ] .
:printed a fabio:PrintObject
 ; prism:startingPage “1895”
 ; prism:endingPage “1906”
 ; frbr:part of :printed-issue .
:printed-issue a fabio:Paperback
 ; dcterms:publisher :wiley-and-sons
 ; prism:publicationDate “09-2009”^^xsd:gYearMonth .
:html a fabio:WebPage
 ; dcterms:publisher :wiley-and-sons
 ; dcterms:format type:text/html
 ; prism:publicationDate “21-08-2009”^^xsd:date .
:pdf a fabio:DigitalManifestation
 ; dcterms:publisher :wiley-and-sons
 ; dcterms:format type:application/pdf
 ; prism:publicationDate “21-08-2009”^^xsd:date .
:marcoux a foaf:Person
 ; foaf:givenName “Yves”
 ; foaf:familyName “Marcoux” .
:rizkallah a foaf:Person
 ; foaf:givenName “Élias”
 ; foaf:familyName “Rizkallah” .
:wiley-and-sons a foaf:Organization
 ; foaf:name “John Wiley & Sons, Inc.” .

New capabilities when using FaBiO

Characterising citations with CiTO

서지 인용은 저작물의 생산에 있어서 저자에게 가장 중요한 활동 중 하나이다. 이러한 활동이 재현하는 출처의 인정은 학술 단체에서 아주 핵심적이기 때문이다. 인용정보와 학술논문 및 문헌을 결합하여 만든 인용 네트워크는 학자들에게는 풍부한 정보의 근원이 되고, 출판사들에게는 새롭고 흥미로운 방식으로 데이터를 둘러보기 위해 이용될 수도 있다.

한 저자가 다른 출판물을 인용하는 이유는 명백하다. 대개 그것은 저자가 배경정보, 생각, 방법론 또는 데이터과 같은 종류의 도움을 얻어왔기 때문이다. 드물게는 이전 작업물에 대해 리뷰, 비판, 논쟁을 하기 위해 인용을 하기도 한다. 대부분의 인용은 직접적이고 명백하지만 간접적이고 함축적이기도 하다.

고전적 학문에서 개별 섹션이나 문단 또는 구절을 인용하는 방법은 잘 발달해왔다. 반대로, 현대의 과학적 실천에서는 독자들에 인용의 맥락에서 얻기 어려운 것을 제외하고는 왜 그 논문을 인용했는지나 그것이 논쟁과 직접적으로 어떻게 연관되는지에 대한 암시가 거의 없이 이전의 출판물을 전부 인용한다.

물론 이전의 서지 객체를 기술하는 모델에서도 서지 개체간의 인용은 기록할 수 있었다. 앞에서 제시한 것으로 예를 들자면 BIBO를 이용해서는 아래와 같이 기술할 수 있다.

# :version-of-record is the published
# Expression of :intertextual-semantics
:version-of-record bibo:cites
 # The following resources are Expressions
 # (‘vor’ stands for ‘version of record’)
 , :meaning-and-interpretation-vor
 , :design-everyday-things-vor
 , :exploring-intertextual-semantics-vor … 

아니면 SWAN에 있는 Discourse Relationships Module을 이용해서도 기술할 수 있다.

 , :meaning-and-interpretation-vor
 , :design-everyday-things-vor
 , :exploring-intertextual-semantics-vor … 

그러나 dcterms:relation 프로퍼티 뿐만 아니라 이 두 온톨로지에서 보이는 cites 프로퍼티가 인용이 존재한다는 그 자체를 기록하는 반면에, 저자가 인용을 할 때 왜 그것을 인용하는지에 대해서는 드러내지 않는다. CiTO는 저자들이 특정 출판물을 인용하는 그 의도를 표현함으로써 피인용 저작에서 기술된 것과 상당히 다른 인용 메타데이터를 생성하여 이러한 상황을 더 개선시키고자 한다. 그러므로 CiTO는 다른 문헌을 언급할 때 저자의 동기를 보여주도록 한다. 예를 들어, 앞의 예를 CiTO로 다시 기술하면 아래와 같다.

 cito:disputes :towards-a-semantics-vor
 ; cito:citesAsRelated
 ; cito:agreesWith
 ; cito:extends
 :exploring-intertextual-semantics-vor … 

현재 CiTO는 cito:citescito:isCitedBy의 두 가지 주요한 오브젝트 프로퍼티를 갖고 있다. 이것들은 각각 32개의 하위 프로퍼티와 공식적인 인용 행위를 보여주지 않는 두 개체를 표현하기 위한 cito:shareAuthorsWithcito:likes, 2가지의 제너릭 오브젝트 프로퍼티(generic object property)를 갖고 있다.


그림 3에서 보다시피, 이 프로퍼티들은 함축정도에 따라 positive, informative(neutral), negative로 구분될 수 있는 수사적인 프로퍼티와 함께 수사적이고/거나 사실적인 것(rhetorical and/or factual)으로 분류될 수 있다. 버전 1.6을 향상시키면서 의도적으로 오브젝트 프로퍼티의 정의역과 치역에 대한 제한을 제거해서 이 온톨로지는 다른 모델과 쉽게 통합될 수 있다. 명백하게 FaBiO와 성공적으로 결합될 수 있어서 서지적 개체와 인용에 대한 기술은 단일한 RDF 그래프에서 혼합될 수 있다.

:version-of-record a fabio:JournalArticle
 ; dcterms:title “Intertextual semantics: A semantics for information design”
 ; cito:disputes :towards-a-semantics-vor …
:towards-a-semantics-vor fabio:ConferencePaper
 ; :frbr:realizationOf [
 a fabio:ResearchPaper
 ; dcterms:creator :renear
 , :dubin , :sperberg-mcqueen ]
 ; dcterms:title “Towards a semantics for XML markup”
 ; cito:isDisputedBy : version-of-record … 

게다가 최근에 cito:compilescito:isCompiledBy 프로퍼티를 추가하였는데, 데이터셋, 컴퓨터 프로그램, 그리고 다른 디지털 오브젝트에 대한 구체적인 기술을 하기 위함이다. 또 우리는 Toulmin의 주장(argument) 모델에 따라 학술 작업에서 주장을 기술할 수 있는 온톨로지, Argument Model Ontology를 개발해왔다.

Community uptake of FaBiO and CiTO

다른 커뮤니티에 이 모델을 적용하게 될 수도 있는데, 이 온톨로지들은 매우 다양한 상황에 적용될 수 있다.
