논자시 답안준비
인문정보편찬연구
디지털인문학
『디지털인문학 입문』 97p
- 디지털 인문학과 인문정보학의 차이.
디지털 인문학은 인문학과 정보기술의 융합 영역에서 이루어지는 다양한 연구, 교육 활동을 폭넓게 지칭하는 말이다. 인문정보학은 디지털 인문학을 위한 기술적 방법론을 탐구하는 학문으로서, 디지털 인문학의 한 분야라고 할 수 있다. 인문정보학은 디지털 인문학의 연구와 교육에 쓰일 수 있는 정보 처리 기술을 연구하고, 그것의 효과적인 활용 방안 실천적으로 모색한다. 인문학 교육의 수단으로 정보기술을 가르치지 않으면 '디지털 인문학 교육'이 될 수 없듯이, 정보기술의 도움을 받지 않는 '디지털 인문학'은 성립할 수가 없다. 그렇기 때문에 디지털 인문학의 첫 단계인 '디지털 문식 증진'의 과정에서는 인문정보학과 디지털 인문학이 동일한 것으로 취급될 수도 있다. 굳이 두 가지 이름의 차이점을 이야기하자면, 디지털 인문학은 전통적인 인문학의 연구를 디지털 환경에서 계승, 발전시키려 하는 노력에 대한 포괄적인 이름이고, 인문정보학은 이를 위한 기술적 방법론의 탐구에 무게중심을 두는 도구적 학문이라는 점이다.
디지털 인문학은 우리 사회에서 디지털 기술의 영향력이 커졌기 때문에 발생했지만, 다른 관점에서는 인문학과 디지털 기술 사이의 거리가 무척 멀기 때문에 그것을 좁히기 위해서 생겨난 것이라고도 할 수 있다. 미래에 디지털 기술의 활용이 일반화 되어 그 간극이 해소되면 디지털 인문학은 그냥 그 시대의 인문학 또는 그것에 속하는 분과 학문의 이름으로 불릴지 모른다. 굳이 '디지털'이라는 수식어를 유지할 필요가 없게 되는 것이다. 반면, 인문정보학의 향방은 이와는 조금 다른 각도에서 점쳐진다. 정보기술의 영향력이 커진다는 것은 그것의 응용 범위가 넓어진다는 이야기이고, 적용 영역에 따라 그 분야의 특수한 요구를 반영하는 맞춤 기술이 생겨나게 된다는 것이다. 인문학 연구의 디지털 기술 의존도가 높아갈수록 인문학의 고유성을 반영하는 특수 목적 기술이 더욱 강도 높게 요청될 것을 예상할 수 있다. 인문정보학은 인문과학의 여러 분과 영역에서, 또는 제분과 학문 사이의 융합과 소통을 추구하는 영역에서 발생하는 정보기술적 수요에 적정한 해법을 제공할 것을 목적으로 한다. 디지털 기술의 고도화와 더불어 그것이 인문학 연구에 소용되게 하려는 인문정보학적 연구는 더욱 심화되고 전문화되어 갈 것이다.
프랑스『디지털 인문학 선언문』(2010. 5. 21)
- 정보(컴퓨터) 기술의 노하우를 인문 사회과학 분야의 문제에 적용시키는 것
- 단순히 디지털 도구를 학문과 지식의 재구성을 위해 동원하는 것에 그치는 것이 아니라 초(超)학제적으로 경계를 넘나드는 새로운 학문 공동체를 구성하려는 시도.
인문정보학
『인문정보학의모색』 445p
- 인문정보학의 정의
본인은 '인문정보학'을 '문화와 기술을 아우르는 현대 사회의 복합적 지식 수요에 부응하는 지식정보의 계발을 목적으로, 문화, 역사, 철학 등 전통적인 인문과학분야의 지식과 정보통신 기술 사이의 학제적 소통 및 응용 방법에 대해 연구하는 학문' 으로 정의한다.
디지털 큐레이션
- 디지털 큐레이션은 디지털 자산을 선택, 보존, 유지, 수집하고 아카이빙하는 것을 말한다. 원래 ‘큐레이터’는 미술관, 박물관 등에서 어떤 작품들을 전시할 지 정하는 사람을 지칭하는 단어이다. 하지만 다양한 정보가 범람하는 현대사회에서 ‘큐레이션’은 이에 국한되지 않고 ‘선택적으로 골라서 제공하는 행위’를 지칭하는 단어로 통용되고 있다. 디지털 큐레이션은 인터넷에 널린 정보들을 주제별로, 혹은 관련된 연계성, 연관성을 지닌 무엇인가를 모아서 정돈하고 정리해서 스스로에게나 다른 사람에게 알기 쉽게, 또 접근하기 쉽게 내보이는 작업을 말한다.[1]
- 온라인 환경은 오프라인 환경과는 달리 시간적, 공간적, 그리고 물리적 제약으로부터 벗어날 수 있다는 장점이 있다. 이를 통해 오프라인 환경의 수동적 성격의 전시 관람을 넘어서서 관람자 중심의 능동적 전시가 가능해진다. 즉, 능동성, 자율성, 효율성 등 오프라인 환경의 큐레이션이 담아내지 못했던 여러 가치들을 디지털 데이터에 기초하여 새롭게 매개화할 수 있는 것이 디지털 큐레이션이라고 할 수 있다.[2]
Encyves
디지털 환경에서 '보다 전문적인 지식'과 '그 지식의 근거가 되는 원천 자료'로의 연계가 가능해짐에 따라, 대중들의 지적 호기심과 전문연구자들의 학술적 연구 성과 사이에서 서로를 만나게 해줄 지식의 매개자 역할이 중요해졌다. 이에 따라 '무형의 지식'을 다루는 기존의 백과사전 콘텐츠와 '유형의 실물'을 수집하고 보존하는 아카이브도 새로운 모습으로 변화할 것을 요구받고 있다. 백과사전은 디지털 환경의 네트워크를 통해 유관한 영역의 아카이브를 포섭하고 아카이브는 지식과의 연계를 통해 우리의 사회와, 역사, 문화에 어떤 문맥으로 닿아있는지를 보여줄 수 있다. 즉 백과사전과 아카이브는 분리될 영역일 필요가 없다. 이처럼 백과사전의 역할을 하는 지식 정보 네트워크와 아카이브 관리 시스템을 결합하는 데이터 모델에 대한 구상이 백과사전적 아카이브(Encyves)이다.
하이퍼텍스트
문서 안에 다른 문서에 대한 연결고리, 즉 하이퍼링크를 가지고 있는 전자문서.
시각적 인문학(Visual Humanities)
시각적 인문학(Visual Humanities)이란 인문지식을 시각적인 형태로 전환하여 그 활용성을 높이려는 시도이다.
인문지식은 수천 년 동안 ‘글’이라는 이름의 문자 중심 텍스트의 형식으로 기록되고 전승되어 왔다. 그 영향으로 인문지식은 곧 글, 그리고 그 글을 담은 종이 책으로 대변된다. 하지만 오늘날의 독자들이 흡수하는 지식의 텍스트는 반드시 전통적인 책이나 글의 형식을 따르는 것이 아님이 분명하다. TV를 통해 방영되는 다큐멘터리라고 하는 장르의 영상물은 이미 여러 가지 척도에서 책을 능가하는 영향력을 발휘하고 있다. 그리고 인터넷과 같은 정보통신 네트워크가 가장 영향력 있는 지식 유통의 무대가 되면서, 책 속의 글과는 다른 모습의 텍스트가 요구되기 시작했다.
디지털 정보 시대의 인문지식 수요를 겨냥한 시각적 인문학은 전통적인 문자 텍스트와 뉴미디상의 시각적 자료가 적정한 문맥으로 엮어져서 감성적인 멀티미디어(multimedia)1) 텍스트로 재탄생하는 것을 목표로 한다.
※참고자료
- 『디지털인문학 입문』
- 시각적 인문학의 모색, 김현
멀티미디어와 하이퍼미디어
- 멀티미디어 : 여러 형식의 정보 콘텐츠와 정보 처리 (보기: 텍스트, 오디오, 그래픽, 애니메이션, 비디오, 상호 작용)를 사용하여 사용자에게 정보를 제공하고 즐거움을 주는 미디어를 뜻한다. 멀티미디어 매체는 독자가 빨리 읽고 넘길 수 있도록 최적화된 것이므로 사용자가 어떠한 페이지를 볼 때, 페이지가 한눈에 들어와야 한다.[3]
- 하이퍼미디어 : 디지털 환경에서 텍스트와 함께 다양한 미디어의 콘텐츠를 종합적으로 엮어내는 것.의미의 연결고리를 쫓아 무수한 텍스트 조각들이 자유롭게 연결되어 새로운 이야기를 만드는 것을 하이퍼텍스트라고 한다면 하이퍼미디어는 그 연결이 종래의 문자 텍스트에 한정되지 않고 멀티미디어 콘텐츠로까지 확장되는 것을 의미한다.[4]
XML이란
eXtensible Markup Language. 자신이 의미를 정한 태그를 만들어 문서의 구조적 정보(내용의 역할/ 각주, 내용, 제목)를 보여줄 수 있도록 해주는 마크업 언어이다. HTML에서 지원하지 않는 임의의 구조를 제공하고, SGML보다 웹 브라우저에서 구현하기가 용이하다. [5] XML의 구조가 선언되어 있는 스키마문서(DTD, XSD)를 이용해 xml문서의 유효성을 검토할 수 있고, 스타일시트(XSLT)를 이용해 xml문서가 웹브라우저에서 표현되는 형태를 지정할 수 있다.[6]
인문정보데이터베이스
XML Native 데이터베이스와 XML Enabled 데이터베이스
XML은 RDB라는 곳에 이민을 왔다. 먼 길을 와서 피곤한 XML. 하지만 막상 이곳에 처음 도착하니, 아무도 자신을 알아주지 않아 힘들고 외로웠다. 하지만 얼마 지나지 않아 XML enabled DBMS라는 다문화가정에서 XML을 받아주었고, 고맙게도 선물을 두 개나 주었다. 하나는 XML이 이곳에서 잘 적응할 수 있도록 하는 ‘XML 데이터타입’이라는 선물이었고 또 하나는 XML이 자신을 잘 활용할 수 있도록하는 ‘XML메소드’였다.
XMLenabled DBMS는 XML언어로 쓰여진 데이터를 다루는 기능을 지원하는 데이터베이스를 말한다. 반면 XML native DBMS는 처음부터 XML을 처리하기 위해 만든 DBMS이다. Xpath, Xquery, XLST 등 xml에 특화된 쿼리언어를 지원한다.
인문학 연구에 데이터베이스를 사용하는 이유
- 김현규: 인문 지식을 데이터베이스로 구축하는 이유는 지식을 ‘공유’하기 위해서다. 한 연구자 머릿속이나 책상 서랍 속에만 있던 지식을 다른 많은 연구자나 일반인들과 공유하여 지식의 활용도를 높이고 새로운 지식을 창출할 수 있는 매개 역할을 하는 것이 인문 지식 데이터베이스의 본령이라고 할 수 있다. 데이터베이스 기술은 인문 지식의 독점을 배제하도록 할 뿐만 아니라, 실제 인문학 연구에 있어서도 기존의 일면적인(linear) 접근에서 벗어나 지식을 넓은 관계망 속에서 탐구하고 이를 다양한 관점(facet)을 통해 보여줄 수 있다는 장점이 있다.
- 김선미: 하나의 가설을 증명하기 위해서는 그에 상응하는 근거자료가 필요하다. 현재 인문학자들의 연구 분야가 미시화된 것은 거시적으로 통용되는 학설이546 이미 존재하는데다, 학자 개개인이 다룰 수 있는 자료의 양에도 한계가 있기 때문라고 고려된다. 데이터베이스를 이용하면 방대한 양의 정보를 보다 쉽게 조작하여 이용자가 필요로 하는 결과값을 도출할 수 있다. 가령 과거 합격자에 대한 데이터베이스를 살펴보면 우리는 dbms를 통해 어느 왕대 어느 시험에서 어느 지방의 합격자 배출이 두드러졌는가를 알아낼 수 있다. 이러한 결과는 데이터베이스 기술을 사용하지 않고 수동 작업을 통해서도 도출할 수 있지만 몇 만개나 되는 데이터가 사람의 손을 거친다면 자료의 엄밀성이 떨어질 수 있다. 그러나 컴퓨터는 이러한 오류를 방지하여 보다 효율적이며 정확하게 원하는 데이터를 추출할 수 있을 것이다.
- 이혜영: 인문학 연구의 효율성과 지속성을 높일 수 있다. 데이터베이스 기술을 활용하여 기존 지면에 한정 되었던 인문학 연구에서 벗어나 다양한 지식을 추가하여 새로운 방향, 새로운 방식의 인문학 연구의 모색이 가능해진다. 그리고 지식에 대한 접근성을 향상시키고 지식을 다양한 방식으로 전환할 수 있어 지식의 활용성을 증대시킬 수 있다. 특정 개인이나 단체가 가지고 있는 지식을 데이터베이스를 활용하여 관심 있는 사람들 모두가 공유하고 지식을 축적해나가면서 현재까지 단편적으로 이어져온 인문학 연구가 오랜 기간 지속적으로 연구될 수 있다. 즉 데이터베이스 기술을 인문학 연구에 활용함으로써 기존의 한정된 인문학 연구방법론에서 벗어나 다양하고 넓은 범위의 연구와 지식의 확장과 축적을 기대할 수 있다.
- 최한샘: 한국학대학원에 입학하기 전, 저는 한문학을 배웠었습니다. 한문을 공부하면서 필요한 자료들을 열람하는데 불편함이 많았습니다. 디지털이라는 세계는 이미 커질 대로 커진 상태라 우리의 삶과 떨어져 살 수 없는데도 유독 인문학만큼은 예전 방식을 고집하여 아직도 데이터베이스화가 되지 않은 문헌들이 많습니다. 데이터베이스 기술을 활용한다면 공간적인 제약을 벗어난 인문학 연구가 가능하며, 시간적으로 인문학 연구를 하는 데에 있어서 훨씬 절약이 됩니다. 뿐만 아니라 다양한 지식 정보들을 여러 인문학자들이 공동으로 사용하고 공유할 수 있고, 새로운 주장이나 근거들이 나오면 손쉽게 해당 정보를 수정하거나 보안할 수 있습니다.
Foreign Key / Primary Key
- Foreign Key
- 관계를 맺고 있는 릴레이션의 기본 키에 해당하는 애트리뷰트 - 외래 키로 지정된 애트리뷰트는 참조된 릴레이션의 기본 키에 없는 값을 가질 수 없다.
- Primary Key
- 후보 키 중에서 데이터베이스 관리자가 선택한 주 키(Main Key) - Null 값을 가질 수 없음. (Null: 정보 부재를 명시적으로 표시하는 특수한 데이터 값) - 기본 키로 정의된 애트리뷰트에는 동일한 값이 중복 저장될 수 없다.
XML데이터베이스 설계의 3원칙
- 단위 노드의 XML 문서는 더 이상 분해하지 않고, 하나의 XML 컬럼에 적재한다.
단위 노드란 정보의 ‘기본 저장 단위(fundamental storage unit)’를 말한다. 데이터베이스는 기본적으로 정보를 최소한의 단위로 분해해서 입력하는 것이 바람직하지만, 데이터베이스화하고자 하는 대상(원시자료)의 성격과 데이터 활용 목적에 따라 단위 노드의 설정은 달라질 수 있다.
정형화된 구조를 갖는 데이터 중심적인 XML 문서를 데이터베이스에 적재할 때는 XML 문서상의 요소와 속성을 단위노드로 사용할 수 있다. 반면, 비정형적인 구조를 갖는 문서 중심적인 XML 문서라면 하나의 XML 문서 자체를 단위노드로 삼아 데이터의 입력을 평이하게 하고 사용자가 본인의 관점에 따라 데이터를 다양하게 활용할 수 있도록 한다.
- 주요 메타데이터 요소는 별도 테이블의 독립 컬럼 데이터로 관리한다.
XML 문서 자체를 하나의 XML 컬럼에 적재하더라도 자주 사용하는 주요 메타데이터 요소는 별도의 독립적인 테이블로 만들어 관리하는 것이 편리하다.
- XML 본문 컬럼과 메타데이터 컬럼의 데이터는 항상 일치되도록 한다.
XML 문서상의 주요 메타데이터 요소를 별도의 테이블로 만들 때는 View 또는 Trigger를 사용하여 데이터의 무결성을 유지해야 한다.
RDB(관계형데이터베이스) 모델이란
- 테이블과 릴레이션(관계-key)으로 표현하는 형식의 데이터베이스. 데이터의 독립성이 높고 조작언어(SQL)을 이용하여 데이터베이스를 자유롭게 조작할 수 있다.
- 테이블=릴레이션(relation)
- 행(row)=튜플(tuple), record, entity
- 열(column)=애트리뷰트(attribute), field
XML Method
한샘
SQL 정규화
정규화란 데이터를 특성과 관계에 따라 체계적으로 분류하고 구조하는 작업을 말한다. DB의 구성을 간편하게 하여 저장공간을 절약하고, 데이터의 무결성 유지하여 데이터의 이용과 갱신을 용이하도록 하는데 목적이 있다. 정규화의 과정은 다음과 같다. 우선 테이블의 각 셀이 하나의 값만을 갖도록 한다. 두번째는 기본키가 합성키이고, 합성키의 나머지 속성이 부분적으로 주키에 종속되는 경우, 그 나머지 속성을 분리하여 기본키에 완전한 함수적 종속이 이루어지도록 하는 것이다. 세번째는 키에 해당하지 않는 나머지 속성 사이에 함수적 종속이 있는 경우, 그 속성을 분리하는 것이다.
데이터베이스 스키마
데이터베이스의 논리적 정의, 데이터베이스를 구성하는 데이터개체(entity, row, record), 이들의 속성(attribute, colomn), 관계(relation, table), 그리고 데이터 조작 및 데이터값의 제약조건에 대한 정의의 총칭
데이터베이스와 데이터베이스관리시스템
- 데이터베이스
데이터베이스란 다수의 응용시스템이 사용하기 위해 체계적으로 구조화된 데이터들의 집합이다. 다수의 이용자가 다양한 방식으로 데이터에 접근할 수 있도록 함과 동시에 데이터의 중복을 최소화하고 물리적, 논리적 독립성을 유지시킨다. 이로써 데이터의 무결성을 유지하여 데이터 관리의 효율성을 추구하기 위한 데이터의 집합이다.
- 데이터베이스 관리 시스템(DBMS: Database Management System)
DBMS란 모든 응용프로그램들이 데이터베이스에 접근하여 사용할 수 있도록 관리하는 소프트웨어이다. 데이터와 데이터베이스 구조를 정의하는 기능, 검색·갱신·삽입·삭제 및 연산 등 데이터를 조작하고, 데이터베이스의 내용을 유지하고 이용자의 접근 등을 관리하는 제어기능을 지원한다.
기타 키워드
Semantic data model/Semantic Web
시맨틱웹(Semantic Web)은 '의미론적인 웹'이라는 뜻으로, 현재의 인터넷과 같은 분산환경에서 리소스(웹 문서, 각종 화일, 서비스 등)에 대한 정보와 자원 사이의 관계-의미 정보를 기계가 처리할 수 있는 온톨로지 형태로 표현하고, 이를 자동화된 기계각 처리하도록 하는 프레임워크이자 기술이다. 시맨틱웹은 창시자인 팀 버너스 리가 1998년 제안하였고 현재 W3C에 의해 표준화 작업이 진행중이다. 시맨틱웹의 목적은 사람만이 웹에 산재한 정보의 의미를 파악하는 것이 아니라 자동화된 기계가 해석할 수 있는 일종의 표준 의미 정보를 교환하는 수단을 만드는 것에 있다.
현규: 웹상에서 기계가 문자자체가 아닌 A가 A라는 것을 알 수 있게...? 기계가 의미를 파악할 수 있는 웹
선미: 우리가 사용하는 컴퓨터언어들도 시맨틱웹의 일부다.
혜영: 인간친화적인 검색을 할 수 있는 웹의 형태, 정보들의 관계까지 읽을 수 있는....?
시소러스
데이터 검색을 위한 키워드(색인어)간의 관계, 즉 동의어, 하위어(下位語 : 그 색인어에 속하는 용어), 관련어 등의 관계를 나타낸 사전. 검색 분야에서 주로 사용.
혜영: 시소러스도 결국 시맨틱웹의 일부
LOD(Linked Open Data)
- W3C에서 명시한 방법으로 구조화된, 서로 연결된, 웹(Web)상의 데이터로 RDF triple 형식을 이용한다.
- 개체(노드)의 이름으로 HTTP URL를 사용
- 다른 개체(노드)에 대한 링크를 포함하라."
- 클래스 정의용 관계어 : rdf:type / rdfs:subClassOf
RDF TripleStore
RDF triplestore는 W3C에서 정의한 시맨틱 정보를 저장하는 그래프 데이터베이스의 형태 중 하나이다. 온톨로지라는 스키마 모델을 이용하며, 개체와 관계간의 계층 구조를 보여줄 수도 있다. 데이터와 아래와 같이 각 개체와 개체관의 관계를 보여주는, 3형식(Triple, Statement)으로 저장되기 때문에 Triple Store라 불린다.
주어(Subject) --서술어(Predicate/Verb)--> 목적어(Object)
메타데이터
데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터. 속성정보라고도 한다. 대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐츠에 대하여 부여되는 데이터이다. 여기에는 콘텐츠의 위치와 내용, 작성자에 관한 정보, 권리 조건, 이용 조건, 이용 내력 등이 기록되어 있다. 컴퓨터에서는 보통 메타데이터를 데이터를 표현하기 위한 목적과 데이터를 빨리 찾기 위한 목적으로 사용하고 있다.
- 해쉬태그는 메타데이터인가?
DataMining / TextMining
Dataminig
데이터 마이닝은 큰 데이터 집합에서 동작 가능한 정보를 찾는 프로세스이다. 데이터 마이닝에서는 수학적 분석을 사용하여 데이터에 있는 패턴 및 추세를 찾는다. (마이크로소프트 데이터마이닝 페이지)
TextMining
비정형 텍스트 데이터에서 새롭고 유용한 정보를 찾아내는 과정 또는 기술을 말한다.자연어 처리 기반 텍스트 마이닝의 주요 기술로는 자연어 처리(파싱, 형태소 분석, 품사 태깅, 관계 추출, 의미 추출), 언어모델링(언어 감지, 규칙기반 개체명 · 상용어 인식), 기계 학습 알고리즘(반복훈련을 통하여 습득한 정보 사용능력을 개선), 마이닝 기술(각종 통계적 기법을 활용한 정보 분류 및 분석 기술 · 기법) 등이 있다.
ex) 찾기/바꾸기, 꼬꼬마 형태소 분석
- 인공지능과 데이터마이닝은 어떤 관계인가?
Ontolotgy
사람들이 세상에 대해 합의하여 정의한 바를 개념화하여, 컴퓨터가 이해할 수 있는 형태로 표현한 모델. 개념과 개체, 관계, 사용상의 제약조건 등을 명시적으로 정의하는 기술이다. 정보를 의미기반으로 연결하여 시멘틱웹을 구현할 수 있는 도구이고, RDF,OWL,SWRL등의 언어를 이용해 표현된다. 클래스(종류,분류,개념적 정의)와 인스턴스(구체적 개체), 속성(클래스아 인스턴스의 성질), 관계(클래스, 인스턴스, 속성 간의 연결)의 4가지 구성요소로 이루어져 있다.
Object Property / Data Property
Object Property는 관계속성, Datatype Property는 데이터의 속성.
위키를 사용하는 이유
“디지털 인문학 교육은 학생들이 디지털 환경에서 인문지식을 수용할 뿐 아니라, 그 배움에서 얻은 것을 정리하고 새롭게 편성하여 자신의 이야기로 표현할 수 있게 하는 것을 목표로 한다. 월드와이드웹(World Wide Web)과 같은 디지털 환경에서 다른 사람이 만들어놓은 콘텐츠를 탐색하고 읽는 것은 디지털 원어민인 오늘날의 학생들에게는 이미 익숙한 일이다. 디지털 언어로 ‘읽을’ 수 있을 뿐 아니라 ‘쓸’ 수 있는 능력, 즉 디지털 문식(디지털 文識, Digital Literacy)의 증진을 위한 교육을 강구할 때, 위키(Wiki) 소프트웨어를 활용한 인문지식 콘텐츠의 편찬을 우선적으로 고려할 만하다. …… 위키 소프트웨어는 학생들 스스로 자신이 탐구한 인문지식을 체계적인 디지털 콘텐츠로 표현할 수 있게 하는 교육 도구로 활용할 수 있다.”-김현 외 2명, 『디지털 인문학 입문』 63쪽.
유니코드/UTF-8
유니코드
각 나라별 언어를 모두 표현하기 위해 나온 코드 체계가 유니코드(unicode)다. 유니코드는 사용중인 운영체제, 프로그램, 언어에 관계없이 문자마다 고유한 코드 값을 제공하는 새로운 개념의 코드다. 언어와 상관없이 모든 문자를 16비트로 표현하므로 최대 65,536자를 표현할 수 있다.
UTF-8
UTF-8은 유니코드를 위한 가변 길이 문자 인코딩 방식 중 하나로, "Universal Coded Character Set + Transformation Format – 8-bit" 의 약자이다.
UTF-8 인코딩은 유니코드 한 문자를 나타내기 위해 1바이트에서 4바이트까지를 사용한다. 예를 들어서, U+0000부터 U+007F 범위에 있는 ASCII 문자들은 UTF-8에서 1바이트만으로 표시된다. 4바이트로 표현되는 문자는 모두 기본 다국어 평면(BMP) 바깥의 유니코드 문자이며, 거의 사용되지 않는다. UTF-16과 UTF-8 중 어느 인코딩이 더 적은 바이트를 사용하는지는 문자열에서 사용된 코드 포인트에 따라 달라지며, 실제로 DEFLATE와 같은 일반적인 압축 알고리즘을 사용할 경우 이 차이는 무시할 수 있을 정도이다. 이러한 압축 알고리즘을 사용하기 힘들고 크기가 중요할 경우 유니코드 표준 압축 방식(Standard Compression Scheme for Unicode)을 대신 사용할 수 있다.
DOM
문서 객체 모델(The Document Object Model, 이하 DOM) 은 HTML, XML 문서의 프로그래밍 인터페이스(interface) 이다. DOM은 문서의 구조화된 표현(structured representation)을 제공하며 프로그래밍 언어가 DOM 구조에 접근할 수 있는 방법을 제공하여 그들이 문서 구조, 스타일, 내용 등을 변경할 수 있게 돕는다. DOM 은 구조화된 nodes와 property 와 method 를 갖고 있는 objects로 문서를 표현한다. 이들은 웹 페이지를 스크립트 또는 프로그래밍 언어들에서 사용될 수 있게 연결시켜주는 역할을 담당한다.
웹 페이지는 일종의 문서(document)다. 이 문서는 웹 브라우저를 통해 그 내용이 해석되어 웹 브라우저 화면에 나타나거나 HTML 소스 자체로 나타나기도 한다. 동일한 문서를 사용하여 이처럼 다른 형태로 나타날 수 있다는 점에 주목할 필요가 있다. DOM 은 동일한 문서를 표현하고, 저장하고, 조작하는 방법을 제공한다. DOM 은 웹 페이지의 객체 지향 표현이며, 자바스크립트와 같은 스크립팅 언어를 이용해 DOM 을 수정할 수 있다.
SGML
SGML(Standard Generalized Markup Language)은 문서용 마크업 언어를 정의하기 위한 메타 언어(대상을 직접 서술하는 언어 그 자체를 다시 언급하는 언어)이다. IBM에서 1960년대에 개발한 GML(Generalized Markup Language)의 후속이며, ISO 표준이다.
HTML
HTML은 하이퍼텍스트 마크업 언어(HyperText Markup Language, 문화어: 초본문표식달기언어, 하이퍼본문표식달기언어)라는 의미의 웹 페이지를 위한 지배적인 마크업 언어다. HTML은 제목, 단락, 목록 등과 같은 본문을 위한 구조적 의미를 나타내는 것뿐만 아니라 링크, 인용과 그 밖의 항목으로 구조적 문서를 만들 수 있는 방법을 제공한다. 그리고 이미지와 객체를 내장하고 대화형 양식을 생성하는 데 사용될 수 있다. HTML은 웹 페이지 콘텐츠 안의 꺾쇠 괄호에 둘러싸인 "태그"로 되어있는 HTML 요소 형태로 작성한다. HTML은 웹 브라우저와 같은 HTML 처리 장치의 행동에 영향을 주는 자바스크립트와 본문과 그 밖의 항목의 외관과 배치를 정의하는 CSS 같은 스크립트를 포함하거나 불러올 수 있다. (위키백과)