행위

Chinese Text Project

red

Chinese Text Project 웹사이트 가기

Who 누가

창립자: Donald Sturgeon(德龙)

소쇄원 경내 건조물 배치도

  • 국적:영국
  • 취미:디지털인문
  • 현거지:미국
  • 학력
    • 워릭대학교 수학학부 학사
    • 북경언어대학 중국어학과 학사
    • 동오대학 철학과 석사
    • 홍콩대학 철학부 박사
  • 경력
    • 홍콩시티대학 번역어학 박사후 연구원
    • 하버드대 페이정칭 중국연구센터 박사후 연구원 (2015-2017년)
    • 덜렌 대학교 컴퓨터 과학과 조교수
    • 법고 문리학원 교사
  • 합작 기관
    • 미국 연경 도서관
    • 중국 국가 박물관
    • 홍콩 중문대학교
    • 등등

When 언제

시간 내용
2006년 Donald Sturgeon이 미국 브스턴에 창립하여 프로젝트 운영을 시작했다.
2011년 7월 중국 학자 리링(李玲)이 중국 대륙 사이트에 사용 허가서를 등력하여 중국 시장에 들어갔다.
2015년 7월 통일코드 8.0 업그레이드, 새로운 한자자형 증가하기 시작했다.

코드 기준은 최근 수천 자의 새로운 희귀자, 이체자를 추가한 새로운 버전을 내놨다.이 사이트의 사전 기능은 현재 이러한 새로운 글자에 대한 검색이 지원되고, 사용자가 가든 글꼴의 최신 버전을 설치하면 이러한 새로운 글자의 모양을 나타낼 수 있다.또한 많은 신규 증가 자형은"CJK 확장 E 구역"에 속한다.시스템에서이 글자들을 지원하는지 확인하기 위해 글꼴 시험 페이지를 참조할 수 있다.

2016년 10월 하버드 옌징 도서관에 역대 중문 문헌이 이미 수록되었다.하버드 연경 도서관의 지원을 통해, 본 온라인 도서관은 500만 페이지에 달하는 연경 도서관의 역대 중문 문헌의 영인자료를 수록하였는데, 그중에는 중문 선본 특장 프로젝트의 고품질 영인본이 포함되어 있다.본 사이트의 문자 인식 기술은 이미 자료를 문자로 만들었기 때문에, 현재 이미이 사이트의 위키피디아에 들어가, 자료의 완전한 검색을 실현했다.앞으로 중국 고서를 소장 중인 다른 도서관과의 합작으로 더욱 풍부하고 더욱 전면적인 자료를 제공할 수 있기를 희망하다.

Where 어디서

Boston.png

그 프로젝트는 창립자 Donald Sturgeon(덕용)가 미국 하버드 연경 도서관 합작하여 하버드 연경 도서관 주소는 미국 보스턴이기에 편리하기 위하여 프로젝트가 개설된 곳은 보스턴에 선택되었다.

What 무엇을

Text Mining the Chinese Classics | Donald Sturgeon

중국 철학서 전자화 계획이란?

  • 중국 철학서 전자화 계획(Chinese Text Project)은 온라인 상에서 고서적 문헌 검색 시스템으로, 온라인 고전 문헌의 가장 다양하고 믿을 만한 출처 중 하나입니다.가능한 한 정확하고 편리하게 사용할 수 있는 중국고대원전 문헌을 제공하는 것이 목적이며, 특히 선진양한문헌은 이러한 자료를 적절한 구조로, 검색 가능한 모드로 보여주고, 현대기술을 널리 사용함으로써 이러한 문헌을 학습하고 연구하는데 있어서 중국과 외국의 학자들에게 보다 용이하게 하였다.소장된 텍스트는 3만 대가 넘는 저작물과 50억 자나 돼 역대 중국어 문헌자료 라이브러리 중 가장 큰 오픈 전자 도서관이다.
  • 그 프로젝트는 미국 하버드 옌칭 도서관(Harvard–Yenching Library )등 다른 기관하고 함께 협력하여 사용자에게 가장 포괄적이고 광범위한 학습자료를 해준다. 그 사이트에서는 중국 대륙과 대만에 보존되고 있는 문헌일 뿐만 아니라 전세계에 흩어져 있는 중국 문헌을 다 찾을 수 있다.그 사이트에는 수집된 문헌이 3만부의 저서가 넘으며 50억자나 되었는대 력대 중문문헌에서 가장 많은것이다. 수집된 문헌 중에 선진과 양한 (서한(西漢)과 동한(東漢)의 합칭)의 문헌이 가장 많다고 한다.홈페이지에는 넘원전 데이터베이스, 내부자전, 단어 분석, 근절 자료, 원전 영상, 인용, 색인, 번역 (문언문을 구어문으로 번역하는 것) 등의 기능이 있고 사용자는 영어와 중국어 간체나 번체로 훑어볼 수 있다. 그 사이트에는 자료들을 적절한 구조와 검색 가능한 패턴으로 나타내며, 현대 기술을 도구로 사용하여 쉽게 배우고 연구할 수 있게 함으로써, 더 많은 사람들이이 전고 문헌들을 접할 수 있게 하였다.이 도서관은 매일 3만 명이 넘는 개인 이용자가 방문하는 ,중국 대륙 ,대만,홍콩에서 방문자가 많은 4000개 사이트 사이트 중 하나다.

How 어떻게

Chinese Text Project 상용기능


  1. 원전조회


  • 웹사이트의 가장 중요한 부분은 고서적 자료고, 철학역사언어학 등 측면에서 중요한 것으로 간주되는 각종 문헌을 담고 있으며, 집필연대는 선진양한을 위주로 하고 있다.본 사이트의 모든 자료에는 읽기와 검색이 편리하도록 특별히 설계된 데이터베이스가 존재합니다.이 밖에 일부 원전은 영문이나 현대중국어 번역이 붙어 있는데, 이들 번역은 원서와 대조해 붙여진 것이기 때문에 역문에서 대응한 원전을 찾아내거나 원서에서 대응한 번역문을 찾기가 쉽다.

소쇄원 경내 건조물 배치도


  • 원전조회는 철학 역사 언어학 등의 중요 문헌을 망라하고 있으며, 집필연대에는 선진양한을 위주로, 일부 원서는 현대한어 번역까지 망라하고 있다.또한, 언어를 영어로 절환하면 영문판을 볼 수 있다.조회할 책에 따라 맨 왼쪽 텍스트 상자에 대응구분을 찾은 다음 오른쪽에 있는 검색란에 당신이 검색할 책명, 짧은 말, 문장을 입력하면 대응하는 내용을 찾을 수 있다.


소쇄원 경내 건조물 배치도


  • 문자 구름 기능도 있어 글자 구름을 통해 어떤 글자/어가 이 전적에 가장 많이 나타나는지 한눈에 알 수 있다.


소쇄원 경내 건조물 배치도


소쇄원 경내 건조물 배치도


2. 내부사전

  • 내부사전은 세 가지 출처의 정보를 통합합니다: 코드 통합(Uncode Consortium)의 "유니언" 데이터베이스, 상기의 원본 자료 라이브러리, 그리고 본 사이트에서 새롭게 개발된 CTP 사전.그 중 Unihan 데이터베이스는 한자에 관한 기본적인 정보를 제공하며, 부수, 획수, 이체자, 표준 사전에서의 출처, 그리고 영문 번역을 포함한다(단, 이 영문 번역은 현대 중국어 용법을 위주로 한다).CTP 사전은 한자의 어의와 실제 운용에 대해 가능한 한 완전한 분석을 제공하려고 한다.비록 한자의 수로 보면 대다수의 한자는 단의어이지만, 소수가 많이 사용하는 글자는 많은 다른 용법들이 있으며, 이러한 상이한 용법은 보통 다른 어의나 독법이 있다. CTP 자전은 이러한 서로 다른 의미나 읽는 법을 분리하여 처리하고, 각각의 다른 용법의 출처를 사전 데이터베이스를 통해 각각의 다른 용법들에 제공한다.이 기능은 일종의 '어의적 링크'라는 수단을 통해 구현된 것으로, 즉 어떤 단락의 어느 한 문장에서의 어떤 글자로부터 CTP 자전에 있어서의 관련 용법에 대한 링크를 만드는 것이다.


소쇄원 경내 건조물 배치도


  • 조회할 글자를 입력하면 '설문해자', '광운', '강희자전'을 동시에 뒤적이는 셈이며, 이 글자를 표준 사전의 어느 페이지에서 찾을 수 있는지를 구체적으로 표시해 준다.


소쇄원 경내 건조물 배치도


  • 다음으로, 그것은 어떤 고문에 이 글자가 나타났는지를 찾아낼 수 있고, 이 기능은 과외의 문언문 문제를 낸 교수들에게 매우 실용적이며, 어떤 글자를 시험하고자 하는 단어가 다의적인지 여기에 텍스트를 제공할 수 있습니다.


소쇄원 경내 건조물 배치도


  • 또 부수 조회 기능도 한자의 부수에 따라 한자를 체계적으로 조회할 수 있어 학자로서는 자신이 필요한 동부수 한자를 체계적이고 직관적으로 찾을 수 있어 편리하다.

3. 단어분석표


소쇄원 경내 건조물 배치도


  • 내부 자전과 상기의 어의 링크를 통해 본 역은 또한 원본 데이터베이스에 있는 어떤 단락에 대해서도 단어 분석표를 제공할 수 있다.단어 분석표는 단락의 한 글자가 사전의 영문 번역 및 기타 정보를 나타내며, 또한 의미 링크가 있는 단어에 대해서는 단어가 이 맥락에서 의미를 나타낸다.예를 들어 논어의 첫 번째 단락에서는 시스템이 "악"의 정확한 판독을 "yue"가 아닌 "le"로 나타내며, 이 문장에서 "말"의 용법은 "열"의 독법과 같은 의미를 갖는다.
  • 어의 링크를 만들려는 계획이 진행 중이어서 현재 링크가 빠진 글자도 있다.한 글자에 아직 어의 링크가 없을 경우, 시스템은 이 글자의 기본 자료를 표시하고 완전한 사전 항목까지 연결을 제공합니다.


4. 유사 단락 자료


소쇄원 경내 건조물 배치도


  • 여러 가지 이유로, 많은 초기 문헌은 다른 문헌과 비슷한 단편적 또는 긴 단락을 포함하고 있어 두 저작이 완전히 독립되어 만들어진 것이 아님을 증명하기에 충분하다.이 현상은 때로 원작자가 그 당시에 이미 만들어진 다른 저작을 의도적으로 베꼈다는 것을 나타내기도 하고, 어떤 때는 한 속어가 그 당시에 유행했음을 나타내기도 하고, 또 다른 원인에 의해서 발생하기도 한다.많은 경우에, 비록 이 비슷한 단락들이 뚜렷한 유사성을 가지고 있고 이 유사성이 우연의 일치가 아니라는 것을 보장하기에 충분할지라도, 이와 동시에 이 단락들은 때로는 중요하고 흥미로운 차이점을 가지고 있다.
  • 사이트의 유사한 단락 기능은 이러한 유사하거나 동일한 단락을 연결하고 대조할 수 있도록 비슷한 섹션을 표시합니다.유사한 단락 메시지를 가진 어떤 단락이든 아이콘이 표시되고, 이를 클릭하면 이 단락, 모든 유사한 단락 및 그 연결이 표시됩니다.


5. 고급 검색


소쇄원 경내 건조물 배치도


원본 자료 라이브러리의 한 페이지 왼쪽 아래에 있는 간단한 검색 기능 외에도, 시스템은 하나의 "고급 검색" 기능을 제공하며, 이를 통해 이러한 기능과 관련된 다양한 자료를 조회할 수 있습니다.요약 검색 입력 쿼리 아래에 있는 "고급 검색" 연결을 클릭하면 고급 검색 페이지가 열립니다. 고급 검색 기능을 통해 사용자가 원본 자료 라이브러리의 임의 부분을 검색할 수 있는 이하의 임의 결합:

  1. 자사 또는 자구의 출처.
  2. 사전 항목
  3. 거론된 해
  4. 후설자료 : 개인전용과 공유를 포함한 자료

Why

배경

소쇄원 경내 건조물 배치도


  1. 과학 기술은 빠르게 발전하여 특히 온라 과학 기술의 발전이어서 사이트로 디지털 인문학을 보여주는 걸 가능해졌다.디지털 영상에 나오는 텍스트의 전자동 필사 (OCR)는 디지털 시대에 앞선 서면자료의 학문적 연구에 혁명적 기회를 제공한다.
  2. 중국 대륙과 대만은 1949년에 후에 수 십년 동안 서로 대항하여 싸워서 정치적인 불믿임으로 인해 학술 교류에 대해 불필요한 영향을 받았다.그리고 슬픈 근대사에서 수 많은 중국고대문헌이 많은 원인으로 인해 해외에 들어가서 어디에 있는지 못 찾어서 중국 고대 문헌을 연구하려는 사람에게 너무 불편하였다.제3자를 통해 문헌 자료를 통합할 수 있는지 여부라는 목소리는 매우 시장이 있었다.
  3. 미국 하버드 옌칭 도서관은 해외에 소장하는 있는 중국 고대 문헌이 가장 많은 도서관 중에 하나이고 도서관에도 동아시아 도서를 모두에게 나눠 줄 생각이 있었다.
  4. 창립자 덕용은 캠퓨터와 중국 철학 전공 출신 학생이고 취미는 디지털 인문학이고 특히 디지털인문이 전 현대중국언어문학연구에서 응용된것이다.

Comment 논평

  • 장점
  1. 중국 철학서 전자화 계획은 개발하는 근본의 원인이 전자기술의 발달이어서 사람들은 편하게 그러한 서비스를 누릴 수 있어서 너무 좋다.
  2. 웹사이트에는 송본광운강희사전 등 각각의 고자전도 있어 사전에서 글자 및 해석을 검색할 수 있다.또한 하버드 연경도서관을 비롯한 여러 도서관들에서 소장하고 있는 중국 고서적의 영인본도 많이 있는데, 이 귀중한 사료의 전자화는 많은 국내 디지털 도서관의 전자화보다 훨씬 더 잘 되어 있다.
  3. 사이트에는 또한 각 중국 고서의 영문 번역이 있어, 중국 문화의 외부 전파를 촉진하는데 좋은 역할을 할 수 있다.중국 철학서 전자화 계획은 그것의 이름처럼, 중국 철학서를 전자화 시키기에 매우 유용한 웹사이트이다.
  4. 매우 많은 비중요 고서적의 문자 정리를 수행할 수 있다.중점 고적에는 보통 학술단위가 문자를 정리하지만, 비중점 고적의 관련 업무는 사람이 많이 하지 않는다.CTP는 위키 기술을 사용하기 때문에 잠재적 참여자의 수는 무한하다고 할 수 있으며, 모든 사람이 올라가서 한자 자동 인식의 결과를 수정할 수 있다.
  • 단점
  1. 오늘날 남겨놓은 선진학파의 문자가 반드시 그 당시에서의 그것들의 상대적인 중요성을 대표하는것은 아니라는것을 명심해야 한다.전국시기에 맹자는 천하가 묵자, 양자의 말로 충만했다고 원망했다.그러나 양자학설의 잔재는 아주 적으며 ≪ 묵자 ≫의 대부분 내용은 역사의 우연에 의해 남겨진것이다.마찬가지로 혜자도 변론이 많았다. 그의 사상은 당시 변론에 상당히 큰 영향을 미쳤다. (장자와 기타 문헌에 모두 기록되여있다.) 그러나 그의 작품은 지금까지 전해지지 않았다.력사는 유가의 전적이나 학교에서 존숭하는 각종 고대전적, 그리고 아마 각종 법가의 전적들을 보존하는데서 매우 큰 역할을 놀았습니다.
  2. 이밖에 또 교과서를 집필하거나 대대로 전해내려오는 방식에 주의를 돌려야 한다.그 시기의 많은 문자들이 특정 학자나 역사적 인물의 작품이거나 그의 문서 기록이라고 주장한다.그러나 이런 속성들의 진실성을 확정하는것은 아주 어려운바 어떤 경우에는 그 속성들이 전혀 진실하지 않다.많은 경우에 저작물은 주로 어떤 특정된 학파의 추종자들에 의하여 준비되며 어떤 책은 많은 저작자들의 집단적작품일수도 있고 때로는 수십년 지어는 수백년의 시간일수도 있다.물론 이것은 한 책 (일종의 사상학파)에 기록되여있는 사건들과 대화들은 편견에 사로잡히고 긍정적인 방식으로 자기자신을 보여주려는 경향이 있다는것을 의미한다.대립하는 사상가들간의 논쟁은 흔히 어느 한쪽이 할 말이 없는듯한 실패로 끝나지만 기실 그들은 더 할 말이 있다.일부 상황에서 력사인물은 만화나 조소의 형상을 나타낸다.
  3. 서문은 흔히 필사원이 원본을 하나하나 복사하기때문에 서본의 전파에서 우연적인 착오가 생기기 쉽다.어쩌다가 새로운 단락이 삽입되어 원작의 한 부분으로서 나타난다.문장의 구성이 치밀하고 령활하여 사람들은 문법규칙의 제시에 의해 오류가 없이 전체 렬차를 건너뛰거나 반복할수 있다.필사원이 다른 성격의 형태를 의식적으로 또는 무의식적으로 대체할수 있는 경우는 그것이 이미 낡은것이여서 성격이 전혀 다른 비슷한 의미로써 비법적인 문자 (이를테면 황제의 이름으로 쓰는것)를 사용하지 않기 위해서일수도 있다.이런 원인때문에 보통이 시기의 한 작품의 년대를 정확하게 확정할수 없으며 많은 문장에서는 어떤 장이 저자의 전제를 전제로 한 대표자로 되여야 하는가, 그리고 각 장절의 시작년대에 대해 줄곧 론쟁이 있었다.