한국어 뉘앙스 데이터베이스 제작 - 통·번역을 위한 한국학 아카이빙

최원재 (동국대학교 문화학술원)

1. 서론
2. 한국학 속의 아카이빙
3. 한국어 뉘앙스 데이터베이스 제작의 필요성
4. 한국어 뉘앙스 데이터베이스 제작
4. 결론

1. 서론

아카이빙(archiving)은 기록의 모음이다. 특정 주제를 중심으로 분류해서 정리한 기록일 수도 있고, 시대별, 인물 별로 이용자들이 쉽게 찾아갈 수 있도록 장치한 기록저장행위다. 최근 들어 디지털 아카이브를 제작하려는 갤러리, 박물관, 도서관, 종교 기관, 정부 기관 등이 늘어나는 추세다. 서울 역사 아카이브, https://museum.seoul.go.kr/archive/NR_index.do

이러한 디지털 아카이브의 인기는 어디에 기인하는가? 기록물의 훼손 없이 영구적으로 보관할 수 있다는 기본적인 이유도 있겠지만 디지털 연결사회에서 이용의 편의성이 한몫하고 있다는 사실과 함께 산재한 자료를 한데 모으고 표준화한다는 데에 더 큰 의의가 있다고 할 수 있다. 자료 관리자에게는 자료의 보관과 관리에 있어서 효율성을 주고, 이용자에게는 시공간을 넘나들며 쉽게 자료를 사용할 수 있다는 이점을 제공함으로써 관련 자료의 대중성 확보와 이를 통한 자료 연구의 활성화를 꾀할 수 있다.

디지털 아카이빙에 특히 주목하고 있는 기독교계를 보면 이러한 특징을 염두에 두고 있음을 알 수 있다. 기독교계의 문제 제기는 초기 선교사 자료의 역사적인 가치는 인정하면서도 이러한 자료를 수집하고 보존하며 접근을 용이하게 할 수 있는 정책이나 방안에 대한 체계적인 시도는 현재까지 매우 미비하다는 현실에서 시작했다. 보고서, 서적, 정기간행물, 일기, 편지, 사진 등의 다양한 형태를 띠고 있는 초기 선교사 자료는 현재 이들을 파송한 선교회, 신학대학, 정부 기관, 도서관, 박물관, 연구소, 선교사 가족 등에 산재 되어 있다. 장윤금, 「우리나라 초기 외국인 선교사 자료의 디지털 아카이브 구축 필요성 연구(1800-1910)」, 『정보관리학회지』, 30(4), 265-281, 2013.

이러한 문제를 확인한 기독교계는 다양한 루트에서 확보한 기록을 아카이빙하고 있다. 한미경, 『내한 선교사 편지(1884-1942)와 디지털 아카이브』, 보고사, 2020; 평양대부흥, http://www.1907revival.com/news/articleView.html?idxno=10212; 운산 김관석 아카이브, http://jpic.org/archive; 리포르만다, http://www.reformanda.co.kr; 한국기독공보, https://www.archives.or.kr

한 예로 미국 연합감리교회의 사진 아카이브를 보면 100년 전 선교사들이 찍어둔 우리나라의 모습을 사진으로 만날 수 있다. 이 아카이브는 ‘서울거리 풍경’, ‘한양도성과 궁궐’, ‘학교’, ‘병원과 의학교’, ‘교회’, ‘일상생활’ 6개 주제로 사진을 분류해 소개한다. 초기 한국 야구 경기 모습, 전차를 탄 승객과 검표원, 한옥을 짓거나 수리하는 광경 등 일상 사진들이 100여 년 전 서울의 생활상을 생생하게 보여주므로 당시를 이해하는 데 큰 역할을 한다. 100여 년 전 선교사들이 찍은 서울 풍경…학술총서 발간, 연합뉴스, 2022.01.20.

이처럼 한국 기독교 선교 사료들은 종교적인 기록물로서 의미를 넘어 한국 역사의 정치와 경제 그리고 사회적 측면에서 재조명될 수 있는 중요한 가치가 있다.

여기서 아카이브가 갖는 가치를 다시 볼 필요가 있다. 사전도 단어의 뜻풀이를 위한 책이지만 궁극적으로는 지식 데이터베이스다. 단순히 한글어 순서, 알파벳 순서로 정렬한 것이 아니라면 모든 전문 사전은 아카이브다. 그리고 통역과 번역의 기초가 이러한 사전에 있다는 사실은 부정할 수 없다. 어떤 사전류를 참고하느냐에 따라서 통역과 번역의 퀄리티는 큰 차이를 보인다. 참고하는 사람의 인지 능력, 문화적 리터러시, 재해석 능력과 경험 등 여러 요소가 작용하겠지만 결론적으로 통역과 번역은 사전에서 시작한다. 아래 사전에 대한 소개 글을 한번 보면 사전이 왜 지식 아카이브로 인식되어야 하는지 쉽게 알 수 있다.

『이진영의 통역번역 기초사전』은 오랫동안 전문 통역사와 번역자로 활동해온 이진영 전 이화여대 교수가 그간 축적한 정보들을 바탕으로 시사 개념들과 용어들을 정리한 한영 시사 용어 사전이다. 사회 ㆍ 문화 ㆍ 종교 ㆍ 행정 ㆍ 사법 ㆍ 국제 정치 ㆍ 안보 ㆍ 경제 ㆍ 경영 ㆍ 금융 ㆍ 통상 등 총 24개의 주제로 나누어 핵심 어휘를 선정 ㆍ 수록했다. 분야별로 관련 용어들을 표제어와 부제어로 정리하여 능률적으로 영어를 익힐 수 있도록 했으며, 영작뿐 아니라 회화에서도 활용할 수 있는 실용 예문을 많이 넣었다. 시사용어와 더불어 각 분야의 기초 개념까지 따로 설명하여, 더욱 충실한 기초 시사 사전의 기능까지 겸하도록 했다. Yes24 『이진영의 통역번역 기초사전』, http://www.yes24.com/Product/Goods/89431737

2. 한국학 속의 아카이빙: 방법론과 콘텐츠

한국학에서 찾아볼 수 있는 아카이빙의 역사는 백과전서식 유서(類書)에서 찾아볼 수 있다. 유서란 많은 서적으로부터 사항을 뽑아 모아 유별로 분류, 배열하여 참고하는 데 편리하게 만든 서적이다. 『고사촬요』 이외에 『대동운부군옥(大東韻府群玉)』·『지봉유설(芝峰類說)』·『성호사설(星湖僿說)』·『성호사설유선(星湖僿說類選)』·『고사신서(攷事新書)』·『물명고(物名考)』·『오주연문장전산고(五洲衍文長箋散藁)』·『임하필기(林下筆記)』, 『松南雜識(송남잡지)』가 대표적인 우리나라의 유서다. 특히 조선 후기의 학자 송남 조재삼이 저술한 『송남잡지』는 사전적 아카이브의 요소가 짙게 나타난다. 단어의 기원이 어디에서 시작하는지 밝히기 위해서 저자 조재삼은 천문·인사 및 동·식물 등의 다양한 부문을 나누어 그와 관련된 세부 사항을 모아 정리했다. 각종 전적에서 사물을 총망라해 33부문으로 유집(類集)하고, 각 유(類) 아래에 작은 항목을 설정해 상세히 설명하였다. 한민족대백과사전

『송남잡지』는 물명이나 어휘의 典故를 밝히는 데에 집중하고 있어 어휘 사전적인 성격이 강하게 드러나는 유서라 할 수 있다. 특히, 저자인 조재삼의 언어·문자에 대한 관심이 드러나는 「方言類」의 내용을 통해 『송남잡지』의 어휘 사전적 특징을 크게 세 가지로 살펴볼 수 있다. 첫째, 당대 조선에서 사용하고 있는 다양한 어휘들, 특히 우리말의 어원을 밝히고 있다. 둘째, 譜學과 관련된 成語나 한국적 故事를 기록하여 우리 고유의 전고를 생성하는 데 지대한 역할을 하고 있다. 이 어원들은 중국의 문헌에서는 전거를 밝힐 수 없을 뿐만 아니라 당시의 사회상과 문화를 이해할 수 있는 표현들로서 우리의 고유한 언어문화를 확인할 수 있는 방편이 된다. 셋째, 漢譯俗談을 수록하고 그 유래와 뜻을 풀이하고 있다. 풍부한 고사와 용례를 밝혀 속담 사전으로서 역할을 하고 있다. 『송남잡지』는 다양한 분야의 지식을 폭넓게 다루고 있는 백과전서류 서적의 대표적인 저작으로 우리 고유의 어휘와 물명에 대한 해설을 낱낱이 밝혀 오늘날의 전문용어 해설집과 같은 전고사전의 기능까지 갖추고 있는 유서라고 할 수 있다. 양영옥, 「『송남잡지(松南雜識)』의 어휘사전적 특징에 관한 연구」, 『한문학보』, 37(0), 275-300, 2017.

『송남잡지』는 지식 서적을 방불케 하는 많은 내용을 아카이빙하면서 사전의 역할도 했다. 저자가 한국어 단어의 기원을 밝히겠다는 의도를 갖고 저술했기 때문에 독자는 각각의 단어가 지니는 뉘앙스를 인지할 수 있었다. 『송남잡지』는 담고 있는 지식의 양이 상당히 많다. 그런데 이에 비례하여 오류도 많다. 그중 상당수는 서양인과 그들의 무기에 대한 것이다. 이러한 오류는 신뢰할 만한 문헌을 보지 못하고 주로 전문(傳聞)에 의존하였기 때문에 생긴 것이다. 강민구, 「조선 3대 유서의 편찬 의식에 대한 연구」, 『다산과 현대』, 3, 279-114, 2010.
『송남잡지』는 아카이빙을 할 때 전문이나 문서적 지식에만 의존하지 않는 방법이 필요함을 알려준다.

자료를 아카이빙할 때 『송남잡지』의 저술 방식에서 한발 더 나아가 지금의 기술을 추가하는 것도 좋겠다. 초연결주의 시대답게 VR이나 AR로 아카이브를 구현하는 것이다. 그리고 국내 한국학 개설 대학 나무위키 한국학, https://namu.wiki/w/한국학 과 해외 소재 한국학 개설 대학 한국국제교류재단 내 해외 대학 한국학 현황 온라인 데이터베이스, http://www.kf.or.kr 을 연동하는 거대 데이터망을 만들어 주기적으로 업데이트하고 통·번역에 사용할 수 있도록 아카이빙한다면 통·번역뿐만 아니라 한국어 교육에도 큰 도움이 될 것이다. 한영 번역과 관련되어 한국학이 제시할 수 있는 방법론과 콘텐츠의 예를 또 하나 살펴보자. 1890년 출판된 언더우드(H. G. Underwood)의 은 한국어와 영어를 대응시킨 최초의 사전이다.

정확한 대응어가 존재하지 않는 단어의 경우, 소통의 가능성을 최대화하기 위해 언더우드는 여러 가지 전략을 동원해야 했는데 가장 대표적인 것이 영어의 ‘cheese’를 메주에 빗대어 풀이한 사례다. 정확한 대응어가 없는 경우 뉘앙스를 최대한 살려 전달하기 위해서는 다양한 원천 데이터의 제공이 필수적이다. 치즈를 본 적이 없는 한국인들에게 그 뜻을 쉽게 설명하기 위해 언더우드는 ‘소졋메쥬’라는 표현을 고안해보였다. ‘소졋’은 치즈의 주재료인 우유를 나타낸 것이고 ‘메쥬’는 치즈의 모양을 한국의 메주에 빗댄 것이다. 『송남잡지』와 라는 한국학 사례에서 볼 수 있듯이 사전을 제작할 때 저자는 독자가 뉘앙스를 찾을 수 있도록 다양한 원천 데이터를 많이 제공해야 함을 알 수 있다. 또 언더우드는 메주를 ‘소스를 만들기 위한 콩 치즈(Bean cheese for sauce making)’라고 풀이하였고, 두부를 ‘콩 치즈의 일종(A kind of bean cheese)’이라고 풀이하였다. 최초의 국어사전에 담긴 한국어, https://news.korean.go.kr/index.jsp?control=page&part=view&idx=13045

인터넷으로 서로 다른 두 문화 간의 접촉이 전보다 훨씬 활발해진 오늘날 단어와 단어 간의 일대일 대응 번역보다는 번역자가 생각할 수 있는 번역의 원천 데이터 공급이 요구된다. 다른 문화에서 정확히 찾아볼 수 없는 단어를 통·번역 하기 위해서는 문화 간 유사 개념을 떠올릴 수 있도록 해당 단어와 연결되는 최대한 많은 데이터가 필요한 것이다. 언더우드는 ‘꽹과리’를 ‘cymbal’로, ‘엿’을 ‘candy’로, ‘갓’을 ‘hat’으로, ‘툇마루’를 ‘veranda’로 번역했다. 타문화를 깊이 경험해야 할 수 있는 나올 수 있는 결과다.

현대기에 우리나라 시인 백석이 사용한 시어를 엮어 놓은 『백석 시의 물명고』, 『백석 시어의 힘』, 『백석 시를 읽는 시간』를 보면 이러한 한국어 단어의 뉘앙스는 더욱 다양하게 나타남을 알 수 있다. 시라는 장르의 특성상 유려함과 중의성이 동시에 갖춰진 개인적인 어휘를 모아둔 내용이지만 이를 통해 한국의 정서를 읽을 수 있음은 물론이다. 『백석 시의 물명고』에는 방언도 많고 자칫 방언으로 오해할 수도 있음 직한 어휘들도 많이 보인다. 한국적 뉘앙스를 파악할 수 있는 단어들을 상당수 발견할 수 있다. 예를 들어 ‘자즌닭’,‘장고기’, ‘달송편’, ‘섭가락’ 등의 단어를 보면 단순히 외국어로 번역하기 어려운 한국의 뉘앙스가 짙게 배어있다.

3. 한국어 뉘앙스 데이터베이스 제작의 필요성

한 개념에 속하는 사례는 기억에 어떻게 저장될까? 가장 전형적인 사례라 할 수 있는 원형으로 저장되기도 하고, 개별 사례들이 모두 기억에 본조기로 저장되기도 한다. 그런데 사람들이 원형보다는 이전에 경험한 본보기를 더 잘 알아본다. 개념에 대한 원형모형이나 본보기 모형은 기본적으로 사례들의 유사성에 근거한다. 심리학개론, 박주용 외, 서울대학교출판문화원, 2021, 156쪽.

의미 활성화 확산 모형에서 단어의 의미는 하나의 마디(node)로 표상되어 있고, 마디들은 연결고리를 통하여 서로 연결되어 있다고 가정한다. 어휘 간의 간격이 가까울수록 어휘 판단의 시간이 빨라지게 된다. 이렇게 저장된 의미는 인출에도 영향을 미치고 인간의 의미 표상을 만들게 된다. 위의 책, 191쪽.

4. 한국어 뉘앙스 데이터베이스 제작

지금은 굳이 타국에 가서 있지 않더라도 다른 문화를 겪을 수 있는 루트가 많다. 미디어가 발달하면서 어학연수도 온라인으로 할 수 있는 시대가 되었다. 이는 곧 다른 언어가 그 문화 내에서 지니는 뉘앙스를 파악할 방법 역시 다양하게 주어진다는 의미다. 게다가 오늘날의 미디어 유통은 이미지가 대세다. 자료의 사진이나 그림 등의 이미지를 이용한 아카이빙은 문서 아카이빙에 비해 보는 이에게 다가오는 이해의 폭이 넓고 깊다. 빅데이터 시대에 맞게 통·번역할 대상의 단어를 해당 문화의 사진, 그림, 영상, 음악 등의 데이터를 통해 뉘앙스를 확인하고 파악할 수 있는 원천 데이터를 얼마든지 찾아낼 수 있다. 원천 데이터를 공급할 때는 시맨틱 데이터 큐레이션(semantic data curation) 기법을 이용하는 것이 좋다. 무분별한 데이터 공급은 자칫 통·번역에 잡음이 될 수도 있다. 한국학이라는 거대 데이터망에서 디지털로 뉘앙스를 찾을 수 있는 시맨틱 데이터 큐레이션이어야 한다. ‘바구니’식의 데이터 모음이어서는 활용에 한계가 있다.

데이터를 분류 기준별로 재정렬하고 모아서 보여주는 방법이 시맨틱 데이터 큐레이션이다.

이번 논문 내용의 이해를 돕기 위해서 한국어 ‘아저씨’의 한영 번역을 위한 한국학 아카이브를 시맨틱 데이터 큐레이션 기법으로 제작했다. ‘아저씨’를 선정한 이유는 영어에 적당한 단어가 없기 때문인데, 이에 대한 적절한 통·번역을 둘러싼 의견 또한 분분하다. 통·번역에 앞서 한국어 ‘아저씨’는 해석의 층위가 상당히 넓으므로 이에 대한 뉘앙스 파악이 정확히 되지 않는다면 우스꽝스러운 통·번역으로 끝날 소지가 다분하다.

5년 전 CNN은 한국 음식을 소개하면서 발음 그대로 한국어 ‘아저씨(ajussi)’라는 단어를 사용했다. Older ajussis tend to fancy this drink because it comes with the promise that drinking baekseju will help you live to be 100 years old --- thus the name, "100-year liquor." Best Korean drinks -- from banana milk to hangover juice. CNN, 13th July 2017.

원빈 주연의 <아저씨>에서는 ‘아저씨’가 ‘man’으로 번역되었다. 언뜻 CNN이 한국어를 영어로 바꾸는 데 포기한 모양으로 보일 수도 있으나, 실상 우리 한국인들도 단번에 번역하기 어려운 단어라는 점에서 보면 영어 중심으로 이해하려는 CNN의 번역 태도에 변화가 생긴 것으로 이해할 수 있다. ‘아저씨’라는 단어의 뉘앙스를 독자들 스스로가 한국어로 이해하고 더 나아가 한국을 이해하라는 집필 태도를 확인할 수 있는 대목이다. 이는 한국과 한국어의 위상이 높아진 영향도 있겠지만 그만큼 통역과 번역에서 뉘앙스의 중요성이 부각되고 있음을 보여주는 실례라고도 할 수 있다.

‘아저씨’라는 단어와 관련되는 데이터가 시맨틱 데이터 큐레이션으로 펼쳐진다. 데이터 이용자는 이 데이터망 안에서 뉘앙스를 파악할 수 있다. ‘아저씨’라는 단어의 뉘앙스를 만드는 원천 데이터를 한데 모아서 참고하면 통·번역의 깊이를 확보할 수 있게 된다. 이 뉘앙스는 데이터망 안에서 데이터를 보고 비교하는 데에서도 파악할 수 있고, 해당 데이터를 클릭하면 옮겨지는 미디어상의 상황에서도 파악할 수 있다. 한국어에서 ‘아저씨’를 떠올리면 ‘아가씨’도 자연스레 생각나기 마련이다. 한국어 ‘아가씨’를 시맨틱 데이터 큐레이션하여 뉘앙스 데이터베이스를 구성해보면 다음과 같은 결과를 얻을 수 있다. 이번에는 웹사이트 왼쪽 위쪽에 Query를 장치해서 데이터를 쉽게 찾을 수 있도록 했다.

해당 데이터를 클릭했을 때 나타나는 미디어 이미지는 AR/VR로 구성할 수 있다. 이러한 방법으로 이용자들의 몰입도를 높일 뿐만 아니라 더 농도 깊은 데이터를 웹사이트로 호출하여 더욱 선명하게 해당 단어의 뉘앙스를 전달할 수 있다. 한국학에서 발췌된 이미지를 사용하기 때문에 전문적인 한국어 통·번역을 위한 뉘앙스 데이터베이스이면서 동시에 한국어와 한국을 공부하려는 학습자들이 보고 배울 수 있는 교육 데이터베이스로도 충분히 활용할 수 있다.

http://digerati.aks.ac.kr/DhLab/2021/101/WonJe/ajeossi/ajeossi.htm

아저씨 아가씨 QR

4. 결론

한국학은 한국어의 보고(寶庫)다. 단순히 많은 양을 담고 있는 창고가 아니다. 한국어의 뉘앙스를 오롯이 간직하고 있는 지식 데이터베이스다. 따라서 이러한 한국학은 한국어의 느낌을 고스란히 살리는 통·번역의 토대가 될 수 있고 되어야 한다. 그리고 『송남잡지』, 을 기획하고 제작한 저자 조재삼과 언더우드의 지식 데이터베이스 방법론 역시 현대의 데이터베이스 제작에 한국학이 제공하는 인사이트다. 빅데이터 시대에 맞게 통·번역할 단어를 해당 문화의 사진, 그림, 영상, 음악 등의 데이터를 통해 뉘앙스를 확인하고 파악할 수 있도록 원천 데이터를 제공할 수 있어야 하는데 이 역할을 한국학이 해야 하는 것이다. 그리고 원천 데이터는 시맨틱 데이터 큐레이션(semantic data curation) 기법으로 제공되는 것이 좋다. 이번 논문에서는 한국어 ‘아저씨’와 ‘아가씨’의 뉘앙스를 파악할 수 있는 원천 데이터를 시맨틱 데이터 큐레이션하여 AR/VR 기술에 접목하여 선보였다. 그 결과 이 단어들이 성(性), 위상, 커뮤니케이션이라는 세 가지 통·번역 분류 체계를 형성하고 있음을 확인하였다. 이렇게 한 단어의 뉘앙스 데이터베이스를 제작하는 일은 대단히 수고스러운 일이다. 한국학처럼 초광범위의 학문 영역에서는 더욱 그렇다. 그러나 살아있는 한국어 통·번역을 위해서는 반드시 해야 하는 일임은 틀림없다. 한국학계와 한국통·번역학회가 공통의 데이터베이스를 긴밀하게 구축해야 할 막중한 책임을 안게 되었다.

디지털 데이터 내러티브: 번역, '아저씨, 아가씨'

목차

한국어 뉘앙스 데이터베이스 제작 - 통·번역을 위한 한국학 아카이빙

최원재 (동국대학교 문화학술원)

1. 서론

2. 한국학 속의 아카이빙: 방법론과 콘텐츠

3. 한국어 뉘앙스 데이터베이스 제작의 필요성

4. 한국어 뉘앙스 데이터베이스 제작

4. 결론

둘러보기 메뉴

개인 도구

이름공간

변수

보기

더 보기

검색

둘러보기

도구