행위

Data Art of Book of Songs

red

Data Art of Book of Songs 웹사이트 가기

Who 누가

홍콩과학기술대학 (香港科技大學, HKUST)

Hdc who hkust.jpg


Yang Wang

소속: 홍콩과기대 시설발전부 부부장 , 홍콩과기대 수학과 석좌교수, 수학과 학과장, 과학대학 학장

Huamin Qu (屈华民, 屈華民) 소속: 홍콩과기대 컴퓨터과학공학부 석좌교수, 학제간프로그램사무실 실장, 신흥학제간연구부 부장 등 다수

관심분야: 빅데이터분석, 데이터시각화, 시각화를 위한 인공지능, AR, 스마트시티, 핀테크 등...
HKUST VisLab (홍콩과기대 시각화연구실)

Hdc who vislab.JPG


VR(가상현실) , AR(증강현실) , 인공지능, 스마트시티, 핀테크 등등을 연구하는 홍콩과기대의 컴퓨터 연구실입니다.

Yifang Wang (王懿芳) [1]

소속: 홍콩과기대 컴퓨터과학공학부, 홍콩과기대 시각화연구실 박사과정 4학년

전문분야: 몰입적 시각화 분석 (Immersive visual analytics)


HKUST CMA (홍콩과기대 컴퓨터미디어예술부)

Hdc who cma.JPG


예술, 디자인, 과학, 공학을 첨단 신기술과 융합하여 혁신을 이루고자 하는 홍콩과기대의 연구단체입니다. 여러 학문 분야를 아우르는 연구에 중점을 맞춰, 증강현실 예술, 인공지능 예술, 데이터 예술, 로봇 예술, 데이터 시각화에 초점을 맞추고 연구하고 있습니다.

CAO Yifan (박사과정 학생)

IDG (Interactive Data Group)

Hdc who idg.JPG


중국 저장대학교의 시각화그룹에서 만들어진 그룹입니다. 정보의 시각화, 정보분석, 가상현실, 증강현실 등을 연구합니다.

Yingcai Wu

소속: IDG 그룹 장, 저장대학교 교수, 컴퓨터과학공학 부학장 관심분야: 시각분석, 정보시각화 등

Junxiu Tang(唐俊修)

소속: 저장대학교 컴퓨터과학부 3학년 박사 학위 지원자, IDG 멤버, 징동과학기술(사기업) 소프트웨어 엔지니어


프로젝트에 참여하신 모든 분들께서, 이공계 전공자들이라는 것을 볼 수 있다.

When 언제

Data Art of Books of Songs
When Who What
기원전 11~6 세기 중국사람들 다양한 목적으로 노래나 시를 창작하고 이를 기록함
약 기원전 500년 공자[2] 중국의 시를 모으고 추려내 교육 목적으로 시경을 편집, 편찬
2021년 DABS[3] 시경을 데이터 분석하고 분류하여 시각화하고, 21년 VISAP[4] 에 발표 및 웹사이트 서비스 시작

Where 어디서

(포인트가 보이지 않는다면, 포인트 3 곳이 모두 보일 때까지 줌아웃 해 주시기 바랍니다.)

지도를 불러오는 중...

이 연구의 주제와 원 텍스트부터 시작해서 제작에 이르기까지, 모든 과정이 중화권 (中華圈)에서 이루어졌음을 알 수 있다.

What 무엇을

텍스트

Hdc shijing.JPG

이 프로젝트는 중국 최초의 시가집인 시경 (Book of Songs) 를 텍스트로 하여, 시경에 실린 305편의 시를 데이터 분석하여 데이터 예술로 나타낸 프로젝트이다.


Hdc what texts.jpg

이 프로젝트는 시경의 중국어 버전과 영어 번역본을 동시에 텍스트로 활용하였다.


이미지

Hdc what image.jpg


데이터를 더 아름답고 생동감 있게 표현하기 위해, 청나라 시기 화가인 호소이 준 (Hosoi Jun) 의 그림을 활용하였다.

How 어떻게

Hdc how workflow.jpg


시 작품 라벨링(Poem Labelling)

A Data Art Based on the Book of Songs 팀은 먼저 시경의 작품들을 다양한 주제로 분류하였다. 팀이 사용한 분류 기준은 다음과 같다. [5] [6]


  • 장르 (내용별 분류 체계) : 평민들의 노래를 담은 풍 (Songs 风), 연회나 전쟁과 같은 귀족과 관리의 조정 생활을 담은 아 (Odes and Epics 雅), 제례 등의 종교적 활동을 담은 송 (Hymns 颂)
  • 기능 : 상상력, 열망, 반성과 흥미를 불러일으키는 흥 ( 兴) , 자연, 사회, 삶과 정치를 보게 하는 관 (观), 여러 사람들과 사귀게 하는 군 (群), 내면의 감정과, 국정에 대해 비판적으로 자신을 표현하게 하는 원 (怨) [7]
  • 수사법: 상세하게 직접 서술하는 부 (Narrative 赋), 사물로써 다른 사물을 비유하는 비 (Analogy 比), 먼저 다른 것을 말함으로써 말하고자 하는 바를 끌어내는 흥 (Association 兴)
  • 감정 (칠정, 七情): 애 (Love 爱), 희 (Happy 喜), 욕 (Desire 欲) , 중성 (Neutrality 中性), 구 (두려움 Fear 惧) , 애 (슬픔 Depression 哀) , 노 (Anger 怒), 악 (Hate 恶)
  • 주제: 전쟁 (War 战争), 잔치 (향유 Feast 宴享) , 제사 (Fete 祭祀), 풍자 (Sarcasm 讽谏) , 사랑을 노래하는 연곡 (Love-Song 恋曲) 등...
  • 심상과 이미지: 초 (Herbage 草), 목 (Tree 木), 조 (Bird 鸟), 수 (Livestock 兽) , 충 (Insects 虫) , 어 (Fish 鱼)

통계와 관계 추출 (Statistics & Relation Extraction)

작품 라벨링으로 분류된 시에 대한 통계와 관계를 추출하였다. 예를 들자면, 각각의 장르에 속하는 시가 총 몇 편 있는지, 각각의 수사법을 사용하는 시가 총 몇 편 있는지 통계적으로 분석하였다. 또 관계 추출 단게에서는, 예를 들자면 장르 중 하나인 풍 (Songs 风)에 속하는 시들 중에서, 기능 중 하나인 흥(Stimulation 兴) 에도 동시에 속하는 시가 있는지 분석해서, 각 시들 사이의 관계를 엑셀 파일로 추출하였다.

Hdc how poemlabel.JPG Hdc how stat.JPG



시각화 디자인 (Visual Design)

이 웹사이트의 디자인은 생키 다이어그램(Sankey Diagram)이 메인으로서, 다양한 다른 시각화 디자인 기법들을 결합하였다. 생키 다이어그램이란 흐름 다이어그램의 한 종류인데, 요소들을 연결하는 화살표의 크기와 너비로 숫자와 양을 보여준다. (이 웹사이트의 경우에는, 두 요소를 연결하는 화살표의 크기가 크고 너비가 두껍거나 색깔이 짙을수록, 해당하는 시 작품의 숫자가 많다는 뜻이 된다 )

아래는, 우리 교실의 학생들을 라벨링하여 생키 다이어그램으로 만든 것이다.


Hdc sanky.jpg


또, 웹사이트의 시각화 디자인을 전체적으로 보면 마치 중국 전통 아치형 다리를 연상시키는 아름다운 디자인을 하고 있다.


Hdc how overview.JPG Hdc how arcbridge.JPG


1. 웹사이트에 들어가면 먼저 장르 구분인 인 풍, 아 송으로 시들이 분류되어 있는 것을 볼 수 있다. 오른쪽의 풍, 아, 송에 해당하는 원의 가장자리 부분에 도넛 조각 모양의 버튼들이 있는데, 안쪽에 있는 도넛은 해당 장르에 속하는 section을 뜻하고, 바깥에 있는 도넛은 해당 section에 속한 subsection을 뜻한다. 캡처 사진에는 시경의 소아 (小雅) 버튼을 선택하였으며, 해당 소아 버튼 바깥쪽에 붙어 있는 다른 7개의 작은 도넛 모양 버튼들은 소아 section 에 들어 있는 魚藻之什(어조지십) ,甫田之什 (보전지십) 등의 7개의 subsection 에 각각 해당된다. 이 도넛 모양 버튼을 클릭하면, 왼쪽에는 해당 section 이나 subsection 에 속하는 시경 원문을 읽을 수 있게 제공한다.

또한, 이 section 과 subsection을 나타내는 도넛 모양 버튼의 크기가 클수록, 또 색이 진할수록 더 많은 시가 해당되어 있다는 것을 알려준다.


Hdc genre.JPG


2. 오른쪽으로 옮겨가면, 앞에서 살펴본 생키 다이어그램으로 시들이 장르 (왼쪽, 풍아송) 와 기능(오른쪽, 흥관군원)으로 분류되어 연결된 것을 볼 수 있다. 이 화면에서는 특정한 장르에 얼마나 많은 시가 존재하고, 그 장르의 시 중 특정한 기능이 있는 시가 얼마나 많은지 볼 수 있다. 선의 굵기를 보면 해당 장르와 기능에 속하는 시의 숫자를 가늠할 수 있다.

예를 들면, 오른쪽 기능 분류의 세 번째 항목인 군 (Communication 群)의 경우, 항목의 크기가 작으므로 해당 기능을 가진 시의 숫자가 적음을 알 수 있고, 그 작은 곳에서부터 왼쪽으로 뻗어 나가는 화살표 중 제일 크고 두꺼운 화살표가 풍(风) 장르로 연결되는 것으로 보아, 시경의 시 중 여러 사람들과 사귀게 하는 군 (Communication 群)의 기능을 가진 시의 대부분은 주제 분류상 평민들의 노래를 담은 풍 (Songs 风)에 속한다는 사실을 알 수 있다.


Hdc genrefunc.JPG


3. 그 다음에도 생키 다이어그램이 나온다. 앞에서 살펴보았던 기능 (흥관군원)이 왼쪽에 위치하고, 주제 (풍자, 전쟁, 잔치 등)이 오른쪽에 위치한다. 특정한 기능을 가진 시 중, 얼마나 많은 시가 특정한 주제를 다루었는지 볼 수 있다. 여기서는 생키 다이어그램의 선을 클릭하면, 주변에 해당 조건에 맞는 시의 원문을 볼 수 있게 뜬다. 캡처 사진에서는 비판적인 표현을 하는 원(Complaint 怨) 주제의 시를 나타내는 개체에서 화살표가 뻗어나가는데, 화살표의 굵기 중 거의 절반이 풍자 쪽으로 가고 있다. 이는, 원 기능을 가진 시 중, 풍자 (Sarcasm 讽谏)의 주제를 가지고 쓰여진 시가 거의 절반이나 될 정도로 많다는 것을 알 수 있으며, 전쟁이나 연회의 주제를 가지고 쓰여진 수는 소수이거나 없다는 사실을 알 수 있다.


Hdc functopic.JPG


4. 다음은 원형의 글리프 플롯 (Glyph plot) 형태의 시각화로 처리된, 시경에서 나오는 심상, 이미지와 형상을 볼 수 있다. 위쪽에 적힌 것들은 식물 {초 (Herbage 草), 목 (Tree 木)}, 아랫쪽에 적힌 것들은 동물{조 (Bird 鸟), 수 (Livestock 兽) , 충 (Insects 虫) , 어 (Fish 鱼)}들이다. 가운데의 도넛 모양의 버튼은 각각 초, 목, 조, 수, 충, 어의 이미지를 담은 버튼인데, 버튼의 크기가 길수록 더 시경에 많이 등장하는 이미지이다. 바깥에 쓰인 한자 글씨는 구체적으로 어떠한 이미지가 등장하는지 보여주는데, 더 큰 글씨로 쓰여질수록, 시경에 더 많이 등장하는 이미지라는 뜻이 된다. 이는 당시 시대상을 엿볼 수 있게 해 준다.


바깥에 쓰인 한자 글씨 중 하나를 클릭하면, 중앙에 원형 그래프가 나온다. 이 그래프의 색상을 보면, 클릭한 한자 이미지가 나오는 시들이, 어떠한 장르나 감정 등을 주로 이야기했는지를 볼 수 있다. (색상에 따른 참고는 세 번째 사진을 참고. 칠정 부분에서, 긍정적인 감정은 붉은 색에 가깝고, 부정적인 감정은 푸른 색에 가까우며, 중성적인 무감정은 아이보리 색인 것을 확인할 수 있다) 첫 번째 사진은 뽕나무 상 (桑) 을 클릭했는데, 전반적으로 골고루 다양한 장르나 감정에 대해 이야기했다는 것을 볼 수 있다. 반대로, 두 번째 캡처본에는 기장 서(黍 )를 클릭했는데, 골고루 분포되었던 첫번째 그래프보다는 중성 (Neutrality 中性)에 속하는 아이보리색이 많이 보인다. 이는 기장의 이미지를 포함한 시는, 정서에 있어서 중성에 해당하는 시가 다른 정서를 표현하는 시보다 많았다는 것이다.

그 주변에도 원형 그래프가 있다. 벌레를 뜻하는 충(虫)에 해당하는 그래프를 보면, 부정적인 감정을 뜻하는 푸른색이 가득하다. 붉은색은 거의 보이지 않는다. 이는 당시 사람들의 벌레에 대해 느끼는 감정을 잘 보여준다.

또, 중앙에는 청나라 시대 화가 호소이 준의 그림을 넣어 데이터를 더 생동감 있고 흥미롭게 볼 수 있도록 하였다.


Hdc image.JPG Hdc imagea.JPG Hdc imagelegend.JPG


5 .마지막으로, 감정과 수사법이 연결된 생키 다이어그램이 나온다. 왼쪽에는 애, 희 등 다양한 감정이 나오고, 오른쪽에는 부, 비, 흥 등 다양한 수사법들이 나오는데, 여기서는 시경의 시에서 특정 감정을 표현할 때 주로 어떠한 수사법을 사용하였는지를 엿볼 수 있다. 왼쪽의 감정 부분을 클릭하면, 생키 다이어그램의 화살표가 강조되면서 오른쪽의 수사법과 연결된다. 캡처본에서는 희 (喜) 를 클릭하여 보았는데, 오른쪽의 부 (赋), 비 (比), 흥 (兴)의 세 가지 수사법으로 이어지는 화살표의 크기가 비슷비슷한 것으로 보이지만, 다만, 화살표의 크기가 부 와 흥 으로 향하는 크기가 좀 더 큰 것으로 보아, 시경에서 희 라는 감정을 표현할 때 전반적으로 다양한 수사법들을 비슷한 비율로 사용하였으나, 그 중에서는 서술하는 부, 이끌어내는 흥 의 사용 빈도가 비유하는 비 의 사용 빈도보다 높았다는 것을 알 수 있다.


Hdc emorhet.JPG

Why

왜 시경인가?

이 프로젝트는 시경을 텍스트 자료로서 하고 있다. 시경은 고전 중화 문화의 기원이라고도 할 수 있는 텍스트로서, 연구 가치가 매우 풍부하다. 305 수의 시로 이루어져 있고 크게 3개 주제 (풍, 아, 송)으로 구분되는 시경은, 주로 후기 주나라 시대 (周, 기원전 1046년 ~ 기원전 256년) 의 시대상을 비롯한 수많은 귀중한 정보를 담고 있다. 평민들이 불렀던 대중가요부터, 귀족 등 상류층이 향유했던 연회, 당시의 전쟁, 관리들의 조정 생활, 제례 등의 종교적 활동까지 두루 담고 있는 텍스트이기 때문이다.

왜 이 프로젝트를 만들었는가? (이 프로젝트로서 사람들에게 제공하고자 하는 경험은 무엇인가?

이 프로젝트의 풀 네임은 Explore Mindfulness without Deflection[8] : A Data Based on the Book of Songs (치우침 없는 마음 챙김 : 시경에 기반한 데이터) 이다. Mindfulness 는 다양한 번역이 존재하는데, 정신 수양 / 마음 챙김 정도의 의미이다. 즉, 제목으로만 보았을 때 이 프로젝트의 결과물이 사용자에게 제공하고자 하는 경험은 정신 수양이나 마음 챙김이 주가 된다는 뜻이다. 다만, 문학적으로도 큰 가치가 있을 뿐더러 시대상을 이해하는 데에도 대단히 도움이 많이 되는 훌륭한 프로젝트이다. (논평 란에서 자세히 설명함)

Comment 논평

좋았어요

Hdc googletrends.JPG


위 캡처본은, Google Trends 의 검색어 빈도 데이터 시각화를 이용하여, 각각 flower, swimming, harvest, snow 네 개 단어의 전 세계인의 최근 5년간 구글 검색 빈도를 분류하고 그래프로 시각화한 것이다.


우리는 외계인이다. 우리 우주인(외계인)은 지구와 지구인들의 생활 양상에 대해 흥미가 있다. 지구와 지구인의 생활 양상을 알아보는 좋은 방법 중 하나는, 지구인들이 어떤 물건을 자주 언급하고, 어떤 단어를 자주 사용하고, 어떤 물건에 관심을 가지는 지 보는 것이다.

지구인들은 보통 봄에 꽃(flower) 이라는 키워드에 관심을 많이 가진다. 지구인들은 여름쯤 되면 수영(swimming)이라는 운동에 대한 관심이 증가한다. 지구인들은 가을쯤 되면 추수 (harvest)라는 단어를 많이 검색하고 사용하며, 겨울쯤 되면 snow(눈) 이라는 기상 현상에 대한 말을 많이 한다.

그러므로 지구의 식물들은 봄에 꽃을 많이 피우며, 지구인들은 보통 여름에 수영이라는 스포츠를 많이 즐기고, 지구인들이 심은 작물의 대부분은 가을 쯤에 추수를 하며, 지구는 겨울에 눈이라는 게 하늘에서 떨어지는 기상 환경의 행성일 것이다.


이 예시는, 옛날의 시대상을 분석하고 이해하는 데 데이터의 사용이 얼마나 큰 도움을 줄 수 있는지 보여준다.

이제 지구로 돌아와서, 시경이 쓰였을 당시 옛 중국의 시대상을, 이 프로젝트를 이용해서 분석하자.

아까 동그란 그래프 (글리프플롯)이 있던 시경의 데이터 분석을 보자.

글리프플롯을 보면 동물에서는 말(马)글자가 제일 크다. 이는 말이 당시 중국에서 중요한 가축이었다는 것을 보여준다. 사냥이나 교통 등, 다양한 목적으로 쓰였기 때문이다. 식물에서는 뽕나무 상 (桑 )이 제일 크다. 이는 후기 주 왕조(周)때 뽕나무가 얼마나 많았으며, 사람들에게 큰 의미를 가졌는지 알려준다. 열매는 먹고, 잎으로는 양잠하고, 나무는 가구나 건축에 유용하게 쓰였다. 이 정도로 친근한 작물이니, 은유법을 쓸 때도 많이 가져다 사용할 정도였다.

이렇게, 고전의 데이터 분석은 당시 시대상과 문화를 이해하는 데 큰 도움을 준다. 시경이라는 텍스트를 데이터 분석하였다는 것 자체로 매우 큰 의미를 가지며, 아름답고 예술적인 디자인과 접근성으로 고전에 대한 일반인의 접근성을 높였다는 것 역시 매우 큰 의의가 있다.


보완할 점

다만, 글리프 플롯의 경우 칠정 (Emotions)에 해당하는 7개의 색깔이 너무 비슷해서, 구체적으로 알아보기 어려운 점이 있다. 또한, 자주 등장하는 8개의 심상에 대한 플롯은 크게 볼 수 있으나, 그 외의 플롯은 매우 작아서 쉽게 보기 어려워, IEEE VISAP 발표자료에서나 잘 보인다는 점이 조금 아쉽다. 또한, 5번째 주석에서 지적했듯이 시의 분류 기준에 대한 영어 번역이 프로젝트 소개 PPT 슬라이드, VISAP 프로젝트 발표영상/자료나 Data Dimention List, 홈페이지에 따라 다르다는 점이 조금 아쉽다. 풍아송의 아 와 송의 영어 번역부터가 2가지 번역이 자료들마다 달리 들어가 있어 혼돈을 일으킨다. 일원화 작업을 하면 참 좋겠다.

전반적으로 매우 큰 의의를 가지고 있는 작품이다.


저는 이게 꿈이에요

원래부터 맹자나 논어 등의 고전을 이렇게 데이터 분석해서 대중에게 제공하는 서비스를 만드는 것이 꿈이었고, 이번 한문학데이터큐레이션 수업을 통해 이런 서비스를 만들고자 하였다. 주제가 성북동이니, 그 안에서 이렇게 분석할 수 있는 걸 찾은 후 잘 분석하여 이런 서비스를 만들어 보고 싶다. 프로젝트가 정말 기대된다.




주석
  1. IEEE VISAP 2021 학술교류대회 발표도 이 분이 하신 걸로 보아, 프로젝트의 주축이 되신 분 같다.
  2. 실제로 공자가 편집하고 편찬하였는지는 토론의 여지가 있으나, 대부분 그렇다고 믿어지고 있음
  3. Data Art of Books of Songs
  4. IEEE VIS Arts Program, 시각화 예술가, 과학자 디자이너, 연구자 등이 발표 및 토론하는 발표 및 학술 교류회
  5. 이 분류 체계의 기준은 중국어인 것으로 보인다. 영어 사용자들을 배려해 영어로도 분류 기준을 홈페이지에 같이 소개하였으나, 프로젝트 소개 PPT 슬라이드, VISAP 프로젝트 발표영상이나 Data Dimention List 에서의 영어 번역과, 홈페이지의 영어 번역이 서로 다르다. 이 점을 참고하여, 영어 번역보다는 한자 분류기준을 우선하여 보기를 권한다.
  6. 예를 들자면, 수사법 분류의 흥 (兴)은 홈페이지, 발표 영상 전반과 프로젝트 소개 pdf , Data Dimention Set에서는 Borrowed Analogy 라고 번역되었으나, 소개 PPT의 Data Dimention 과 유튜브 영상 후반에서는 Association 이라고 번역되어 혼란을 일으킨다.
  7. 子曰小子 何莫學夫詩 詩 可以興 可以觀 可以羣 可以怨 (논어 양화편)
  8. VISAP에 제출된 프로젝트 소개 PDF에서 보면, 이 번역은 사무사 (思无邪)의 번역으로 보인다. 다만 보통 훨씬 간단하게 without depraved thoughts 등으로 번역되는 문구를 굳이 이렇게 번역한 데에는, 번역을 함에 있어서 이 프로젝트의 의의 또한 같이 담고자 하였음이 보인다. 그러므로 이 프로젝트의 의의를 보는 데 있어 참고할 만 하다.