행위

HumanitiesAndArtificialIntelligence

red

아슈토시 (토론 | 기여) 사용자의 2020년 6월 26일 (금) 20:27 판 (신경망 기술과 텍스트 분류 실습)

Information

  • 개설기관 : 경희대학교 대학원
  • 강좌명 : 인문학과 인공지능(Humanities and Artificial Intelligence)
  • 학수번호-분반 : KL7295-00
  • 이수구분 : 공통과목
  • 개설학과(학점) : 국어국문학과(3)
  • 강의시간 : 수요일 10:30-13:15
  • 강의실 : 문과대 201A
  • 강사 : 류인태

Overview

Summary

본 강의는 인공지능(AI) 기술로 인해 전통적인 인문학적 가치와 소양 그리고 연구방법론에 대한 근본적 질문이 대두하고 있는 상황에서, 인공지능(AI)을 어떻게 바라보아야 할 것인지에 대해 이야기해보고자 합니다. 인공지능(AI) 기술이 등장한 배경과 그 이면의 여러 지점들을 포착해 비판적으로 살펴보고, 더 나아가 기계학습(Machine Learning), 심층학습(Deep Learning) 등의 영역을 포괄하는 인공지능(AI) 기술이 인문학 연구에서 구체적으로 어떻게 활용될 수 있는 지에 대해서 살펴보고자 합니다. 인문학적 관점에서 비판적으로 바라보아야 할 인공지능(AI)의 일면과, 한편으로 인문학 연구에 능동적으로 활용 가능한 연구방법론으로서의 인공지능(AI)의 일면을 함께 짚어보고자 하는 것이 본 강의의 가장 큰 목적이라 할 수 있습니다.

Objectives

  • 비판적 대상으로서 인공지능 기술에 대해 이해한다.
    • 과학기술로서 인공지능 발달의 역사를 파악한다.
    • 과학기술로서 인공지능 기술의 원리를 이해한다.
    • 인공지능의 발달이 초래할 사회문화적 변화와 그에 대한 비판적 이해를 시도한다.
  • 인문학 연구 방법론의 일환으로서 인공지능 기술의 가능성을 검토한다.
    • 활용 가능한 인공지능 기술에 대한 기초 맥락을 이해한다.
    • 인공지능을 활용한 인문학 연구 사례에 대해 살펴본다.
    • 인공지능 기술 활용에 필요한 기초 기술(데이터 파싱, 크롤링, 스크래핑 등)을 익힌다.
    • 이미지와 텍스트를 대상으로 한 인공지능 기술 활용 방법론을 이해하고 적용해본다.

Teaching Method

  • 이론 강의 : 2주차, 3주차, 8주차, 9주차.
  • 실습 : 10주차, 11주차, 12주차.
  • 발표와 토론 : 4주차, 5주차, 6주차, 13주차, 14주차.

Reference Materials

Evaluation Standard

  • 총점 : 100%
  • 출석 : 10% (특별한 이유없이 결석하지 않을 경우 감점 없음)
  • 참여 : 10% (토론에 능동적으로 참여하는 학생에게 10점 가산)
  • 발표 : 30% (중간 발표와 기말 발표로 나누어 평가, 발표는 팀 기준으로 이루어짐)
    • 중간발표 : 15% (A : 15, B : 13, C : 11, D : 9)
    • 기말발표 : 15% (A : 15, B : 13, C : 11, D : 9)
  • 과제 : 50% (중간 과제와 기말 과제로 나누어 평가, 과제는 개인 기준으로 이루어짐)
    • 중간과제 : 25% (A : 25, B : 23, C : 21, D :19)
    • 기말과제 : 25% (A : 25, B : 23, C : 21, D :19)

Assignment

  • 중간고사 이전 1회, 중간고사 이후 1회의 발표를 한다.
    • 중간고사 이전에는 인공지능 관련 주제(문헌) 가운데 하나를 선택하고 그에 대한 리뷰 내용을 발표한다.
    • 중간고사 이후에는 단일 연구 주제를 선택해 딥러닝 기술을 적용한 인문학 연구를 기획하고 실제 진행한 내용을 발표한다.
  • 중간고사 평가는 상황에 따라 시험 or 과제를 유동적으로 실시한다.
  • 기말고사 평가는 기말발표 내용에 대한 리뷰에 근거해 그에 대한 내용을 보완한 결과물 평가로 대신한다.

Other Things

  • 본 강의는 웹 환경에서의 컴퓨터 기술이 기본적으로 활용되기에 수강생 개개인의 노트북 지참을 필수적으로 요구한다.

Students

길혜빈 김웅기 김태형 아슈토시 윤석만 이만호 임연 임예찬 장민주



Plan

본래주차 변경주차 날짜 강의 내용 강의 형식
01주차 - 03/04 코로나 바이러스로 인한 개강연기 -
02주차 - 03/11 코로나 바이러스로 인한 개강연기 -
03주차 01주차 03/18 오리엔테이션[1] 강의 소개(영상)
04주차 02주차 03/25 "인공지능(AI) 기술의 역사와 원리" (PPT) 이론 강의(영상)
05주차 03주차 04/01 미디어위키(Mediawiki) 전자문서 작성 실습 실습
06주차 04주차 04/08 인공지능 분야의 고전에 담긴 사유 검토 발표와 토론
07주차 05주차 04/15 실제 인공지능 사례 분석 및 정리[2] 발표와 토론
08주차 06주차 04/22 문예작품 속 인공지능에 대한 비판적 이해 발표와 토론
09주차 07주차 04/29 중간고사 평가
10주차 08주차 05/06 "기호적 접근, 규칙기반 인공지능 이해: 온톨로지(Ontology)" (PPT) 이론 강의
11주차 09주차 05/13 온톨로지(Ontology) 설계와 인문 데이터 편찬1 이론과 실습
12주차 10주차 05/20 온톨로지(Ontology) 설계와 인문 데이터 편찬2 이론과 실습
13주차 11주차 05/27 데이터 수집: 웹 크룰링과 웹 스크래핑 이론과 실습
14주차 12주차 06/03 "비기호적 접근, 학습기반 인공지능 이해: 신경망(Neural Network)" (PPT) 이론 강의
15주차 13주차 06/10 신경망(Neural Network) 기술과 이미지 분류 이론과 실습
16주차 14주차 06/17 신경망(Neural Network) 기술과 자연어 처리 이론과 실습
17주차 15주차 06/24 기말고사 평가

Report

Research Topics

중간고사 이전

온톨로지 설계 실습

신경망 기술과 이미지 분류 실습

①문제의식

- 백인, 흑인 등 동아시아로부터 멀리 떨어져 사는 나라의 사람들은 한국과 중국, 일본 사람들의 얼굴을 쉽게 구분하지 못한다. 그러나 한국인은 직관적으로 중국인과 일본인을 구별해 낸다. 피부색이나 눈, 코, 입 등 생김새의 차이점을 구체적으로 집어내긴 어렵지만 분명한 차이점을 느끼고 있다.

- 그렇다면 인공지능도 한국과 중국, 일본 사람들의 얼굴을 구분할 수 있을까. 흑인과 백인, 황인을 구별하는 것은 그 차이점이 뚜렷하기 때문에 어렵지 않다. 같은 아시아에서도 동북아시아와 동남아시아를 구분하는 것은 쉽다. 그러나 한중일은 유사점이 매우 많아 쉽지 않다. 인공지능은 과연 이들을 구별할 수 있을까.

②학습설계

- 한중일의 표본 얼굴이 될 만한 자료를 모으는 것이 본 실험에서 가장 중요하다. 왜냐하면 인공지능이 무엇을 학습하느냐에 따라 결과값이 다르게 나오기 때문이다. 예를 들어 중국 샘플은 남자 아이돌을, 한국은 50대 등산 동호회 여성의 얼굴을 학습시킨다면 올바른 설계라고 보기 어렵다.

- 그러므로 본 실험에서는 국적만 다르되 동일한 기준으로 수집된 얼굴 데이터를 학습에 사용키로 했다. 1)자료 획득이 용이하며, 2)한중일 모두 공통된 기준이 적용되고, 3)모집단에 가장 가까울 만한 표본이어야 했다. 그래서 구글에서 상위 검색되는 순으로 한중일 정치인의 얼굴을 쓰기로 했다.

- 이 때 여성은 제외하고 남성의 얼굴만 사용했다. 상대적으로 여성 정치인의 숫자가 적을 뿐 아니라 남녀의 얼굴이 섞일 경우 오히려 학습을 통해 일관된 패턴을 익히는데 방해가 될 수 있기 때문이다. 흑백이나 얼굴이 작게 나온 사진, 지나치게 얼굴이 가려진 사진 등은 제외했다.

③1차 결과

- 학습 때 사용된 것과 전혀 다른 한중일 지도자의 얼굴을 모델에 투입했더니 <문재인 한국 100%>, <시진핑 중국 76% 한국 24%>, <아베 일본 48% 중국 41% 한국 11%>의 결과가 나왔다. 대체적으로 인공지능의 학습은 잘 된 것으로 평가된다. 다만 아베의 경우 중국이 2순위 높은 수치로 나온 것은 헤어스타일과 의상 등이 영향을 미쳤던 것이라 사료된다.

④2차 결과

- 이번에는 한중일을 대표하는 3명의 미남 배우 얼굴 사진을 투입했다. 각각 1)이마를 가린 헤어스타일 2)머리를 넘긴 헤어스타일 두 종류의 사진을 썼다. 먼저 정우성은 1차에서 <한국 70% 일본 30%>의 결과가 나왔다. 2차에서는 <한국 95% 일본 5%>의 값이 나왔다. 이마를 가린 경우에는 얼굴 윤곽이 뚜렷하지 않아 일본이 섞인 것으로 분석된다.

- 다음에는 일본의 대표 미남배우 기무라 타쿠야의 얼굴을 썼다. 1차에서는 <일본 88% 한국 12%>가 나왔고, 2차에서는 <일본 65% 중국 31% 한국 4%>의 값이 나왔다. 머리를 뒤로 넘긴 2차 실험의 경우 아베처럼 중국의 비율이 높게 나왔다.

- 끝으로 중국의 미남배우 우효광의 얼굴 사진을 투입했다. 1차에서는 <중국 83% 일본 14% 한국 3%>, 2차에서는 중국 90% 일본 6% 한국 4%>가 나왔다. 우효광은 기무라 타쿠야와 달리 자국 비율이 1, 2차 모두 높게 나왔다.

⑤3차 결과

- 3차 실험에서는 인공지능을 속여보기로 했다. 즉, 중국인처럼 보이는 정우성 사진과 한국인처럼 보이는 우효광 사진을 썼다. 먼저 정우성의 경우 영화 ‘검우강호’에 출연 당시 스틸컷을 썼다. 중국식 복장을 하고 있어 이 사진을 선택했다. 결과는 <한국인 100%>였다.

- 그 다음은 한국식 머리 스타일과 메이크업 등을 하고 있는 우효광 사진을 썼는데 <한국 99% 일본 1%>가 나왔다. 즉, 화장과 사진의 밝기 등에 따라 얼굴형이 매우 달라질 수 있다는 뜻이다. 정우성은 의상만 무협 세계에 나오는 중국옷을 걸쳤을 뿐 얼굴은 그대로였다.


1) 처음 Raw data는 preview image에 있는 다양한 글자를 인식할 수 있도록 다양한 색깔과 모양의 한글 자모, 영어 알파벳, 한자 각 100장씩으로 설정하였다. Epochs 50, Batch Size 128로 설정한 뒤에Training 결과는 정확도가 한글(0.5), 영어(0.75), 한자(0.87)로 낮게 나왔다. 따라서 다시 Raw data를 수집하게 되었다.


2) 2번째로 학습시킨 Raw data는 배경은 흰색, 글자는 검정으로 통일한 한글 자모, 영어 알파벳, 한자 부수 각 100장씩이였다. 한자는 영어 알파벳과 한글 자모같은 것은 없지만, 한자 부수가 있기 때문에 한자 부수를 택하여 수집하였다. Epochs 46, Batch Size 128로 설정한 후 Training 결과는 정확도가 한글(0.94), 영어(0.94), 한자(0.94)로 1차 Raw data에 비해 높게 나왔다. 따라서 이 결과로 학습을 시키기로 결정했다.


    • 학습결과 :


문제의식대로 결과값을 얻기 위해서 먼저 이 설정이 간단한 글귀를 해석할 수 있는지의 여부부터 알아보기로 했다. 이에 일상생활에서 볼 수 있는 간단한 한글, 영어, 한자 글귀 이미지를 찾아서 테스트해 보았다. 그러나 결과는 한자 글귀를 제외하고는 간단한 한글, 영어 글귀도 제대로 인식하지 못하였다. 이 연구에서는 서울 번화가 거리의 '간판' 사진을 넣은 후 나오는 결과값(수치)을 통해서 서울 번화가 거리에서 한글, 영어, 한자가 어느 정도의 수치로 혼용되어 사용되고 있는지 간단히 알고자 했지만, 간단한 글귀도 제대로 인식하지 못하는 결과로 인해 위의 문제의식에 따라서 진행하려고 했던 검사는 할 수 없게 되었다. 간단한 글귀를 인식한 결과값은 다음과 같다.


    • 학습 결과 이미지 :

결과1 결과2 결과3 결과4 결과5 결과6 결과7

  • 이만호
  • 김웅기
    • 실습URL: https://teachablemachine.withgoogle.com/models/NDGz_rD6E/
    • 문제의식
      • 서론 : 시문학을 범박하게 정의하자면, 심상과 리듬의 두 축으로 주조된 언어예술이라 할 수 있다. 이때 문학의 차원에서 심상과 리듬은 각각 내용과 형식이라는 범주에 포섭된다. 한국문학사에 기술된 다양한 문학지형을 살펴보면, 항상 내용과 형식 사이의 대립 구도를 심심찮게 발견할 수 있다. 가령 1920~30년대 사회주의 이념을 부각하고자 한 프로문예 시인들의 작품은 내용 측면에 중점을 둔 반면, 순수문학파 시인들은 시 자체가 가지고 있는 예술성을 부각하기 위해 언어 형식에 상당한 신경을 썼던 것처럼 말이다. 그런데 식민지기를 거치고 나서 한국의 근대시는 형식의 차원보다는 내용의 차원에 중점을 두게 된다. 그것은 해방 직후부터 시작된 이념 간의 대립, 자유와 민주주의에 대한 구가, 시민으로서의 언명 등의 가치가 한국 사회에 당위적으로 요청되고, 이에 따라 필요한 목소리를 내는 도구로써 시가 동원된 바가 없지 않기 때문이다. 따라서 리듬은 어느 순간 내면으로 침잠해버리고 규칙적 외형률의 운문형식은 한국 시문학에서 과감하게 말하자면, 전통으로 사라져버린다.
      • 연구사 : 한국사회의 정치적 지형과 습합하는 근대시사의 사정은 현대까지도 지속되다가, 1980년대 정점을 찍는다. 하지만 1980년대 문학이 정치적으로만 경도된 것은 아니었다. 1980년대는 정치적 혼란과 동시에 인간 실존에 대한 고민이라는 당위적 과제가 산재해 있었고, 문학이 추동하는 예술적 욕망을 실현하려는 움직임도 많았다. 이러한 와중에 1980년대 현대시사에 조금씩 정체를 드러낸 것이 바로 포스트모더니즘이다. 포스트모더니즘의 포스트는 후기/해체라는 두 가지 양상으로 나아갔다. 그 과정에서 조금씩 피어오르고 있던 포스트모던 시류(類)는 1990년대 이후 문학의 풍향계가 되어주기도 했다. 포스트모더니즘이 공유하고 있는 후기철학은 라캉의 주체이론에서 대타자로서 등장하는 ‘언어’개념에 주목하며, 그것을 해체(데리다) 하는 작업이 곳곳에서 일어났는데, 이는 한국 현대시를 창작해야 하는 시인들에게도 다시금 언어 자체에 대한 문학적 고민이라는 과제를 부여한다. 이를 통한 다양한 형식적 해체가 일어나는데, 이것이 의미하는 바는 현대시의 ‘새로운 형식’이라는 단순한 의미를 넘어서, 그 형식이 당시 파편화되어 있는 세계를 시인들이 주체화하고 있는지를 보여준다는 차원에서 깊이가 있는 시도였다고 평가된다.
      • 연구목적 : 본 실험은 이러한 1980년대 시사(詩史)가 가지는 문학지형 안에서의 포스트모더니즘 경향의 문제적 시인들 중 황지우의 언어 해체 형식을 탐구하는 것에 목적이 있다. 이 연구를 다채롭게 하기 위해서는 더 다양한 시형 기준(Class)과 해체시인의 수 또한 보충할 필요가 있다. 1980년대~1990년대 시인들의 형식 해체 작업은 상당히 다양하게 이뤄지기 때문이다. 심한 경우에는 도형이 나오기도 하고, 그림을 그리기도 한다. 그러나 이는 추후 과제로 두고, 우선 형식 측면에서 언어해체가 가장 도드라지는 시인이 황지우이기 때문에, 가장 기본이 되는 세 가지 기준을 설정해 그의 언어가 시형식의 기본구도를 얼마나 벗어나고 있는지를 파악하는 것에 초점을 둔다. 시형식의 기본구도를 세 가지로만 한정하는 이유는 이 실험의 기계가 시의 형식을 이미지로 받아들인다는 점 때문이다. 따라서 정확한 결과도출을 위해서는 입체적인 언어 구조를 최대한 2차원의 형태로 형식화하는 것이 중요했다. 따라서 기준은 다음과 같다.
        • 산문형 구조: 현대시(1960년대~1990년대)의 작품을 기준으로 일명 ‘통글’에 해당하는 형식. 직사각형으로 구조화.
        • 운문형 구조: 전근대(성)문학(전통 시가의 형식, 김소월 등 민요시인의 경우)의 작품을 기준으로 ‘도형의 규칙적 반복’이 드러나는 형식. 작은 직사각형의 집합으로 구조화.
        • 혼재형 구조: 2010년대 이후의 시작품을 기준으로 산문형과 운문형이 섞여 있는 형식. 대형 직사각형과 작은 직사각형의 혼용으로 구조화.
      • 연구 대상 : 해체시인 : 황지우
      • 실험 결과
        • Epochs :100, Batch size: 512, Learning Rate: 0.001
        • 총 7 작품을 검토하였으며, 산문형 100% 결과 4개 작품, 산문형(56%) 운문형(43%) 혼재형(1%) 결과 1개 작품, 산문형(58%), 운문형(35%), 혼재형(7%) 결과 1개 작품, 산문형(99%), 혼재형(1%) 결과 1개 작품으로 산출됐다.
      • 결과 해석
        • 황지우의 해체시 대표 7작품을 검토한 결과 모든 작품이 완전 산문형이거나 산문형에 치우쳐 있었다. 이는 성과와 한계를 동시에 지니는 결과라 할 수 있다. 우선 성과는 황지우의 해체시가 확실히 종래의 전통적인 시형식을 탈피하고 있다는 점을 파악할 수 있다는 것이다. 더불어 의미 없는 기호의 나열이나 그림 삽입을 통해 보여주는 콜라주 기법의 해체시 역시 산문형으로 파악함으로써, 황지우의 시적 (무)형식이 보여주는 기표의 이미지를 해석할 수 있게끔 만든다. 다만 한 가지 의심이 드는 것은, 산문형=무형식이라는 도식을 전제하는 데 있어 간과하고 있는 부분은 없는가 하는 것이다. 가령 그의 시<한국생명보험회사~>의 경우 산문형 100%로 나왔지만, 의도적으로 행을 나눈 것을 발견할 수 있다. 따라서 이 시의 특징은 신문 말미에 나오는 광고 내용을 떼내서 갖다 붙인 형태의 콜라주 기법의 해체시라는 것인데, 이런 기법을 산문형이라는 기준은 완벽히 충족하지 못한다는 점에서 한계가 있는 것이다.
        • 한편 운문형과 혼재형이 적거나 매우 극소한 비율로 섞여 나온 3개 작품의 경우는 황지우가 의도적으로 행을 비정상적으로 배치하거나, 기본적인 시형식은 갖추고 있으나 내용 측면에서 해체를 가져간 작품들이라 할 수 있다. 그런데 악보그림과 "짜자잔"이라는 가사, 그 밑에 "GAME OVER", "한다면."이라는 맥락 없는 문장들이 삽입되어 있는 경우에는 혼재형 1%를 가져갔다. 이 경우는 의도적 행배치나 기본적인 시형식 모두를 빗겨가는 방식임에도 불구하고 산문형 100%가 아니라 혼재형이 파악됐다는 점에서 의미심장하다. 최근 시인들 가운데 도형을 삽입하거나 각주 형태로 시를 짓는 등 다양한 기법을 가져가는 작품들이 있는데, 그 작품들을 기계가 어떻게 해석할지 궁금해지는 대목이었다.
        • 이 모델은 아직 부족한 점이 굉장히 많다. 특히 산문형과 운문형은 뚜렷한 형식상 차이가 나지만, 혼재형은 위치가 애매하다. 혼재형을 산문형의 하위분류로 두어야 할지, 혼재형 자체를 더욱 세분화해야 할지는 여전히 고민이 된다. 그리고 황지우처럼 해체시의 극단에 있는 위치가 아니라, 해체 경향은 보이지만 특별한 형식적 구상을 하지 않는 작가들의 특징을 파악하기에 이 모델은 성긴 부분이 많다. 추후에 더 생각을 해볼 문제인 듯하다.
      • 참고 결과 이미지

결과 1 결과 2 결과 3 결과 4 결과 5 결과 6 결과 7

    • 연구목적: 구름의 종류와 형태는 다양하다. 그런 구름들의 이름을 알려주는 기술이 있으면 좋겠다고 생각해 본 적이 있다.

몇 년 전 야생화를 구별해주는 어플이 생겼다는 소식을 들은 적 있다. 어플의 사진기에 야생화를 인식시키면 굉장히 높은 정확도로 야생화의 이름을 알려준다고 한다. 한 번도 사용해보지는 않았지만, 아마 이 ‘티쳐블 머신러닝’의 이미지 러닝 기능과 유사한 인공지능 기술을 사용하지 않았을까 생각한다. 그 야생화 어플처럼 구름의 이름을 알려주는 기술이 있으면 좋겠다는 생각에 구름 사진으로 과제를 수행하게 되었다. 구름의 이름을 알아야 구름을 제대로 감상할 수 있는 것은 아니지만, 구름의 이름을 척척 알려주는 어플같은 게 있다면 일상 속 소소한 호기심을 해결하고 넘어갈 수 있지 않을까.

    • 연구대상 : 다양한 구름들(고적운, 고층운, 권운, 권적운, 권층운, 난층운, 적란운, 적운, 층운, 층적운, 비행운)
    • 실험 결과: 학습에 사용된 구름의 이미지는 총 481개로, 고적운 59개, 고층운 37개, 권운 61개, 권적운 67개, 권층운 53개, 난층운26개, 적란운 70개, 적운 24개, 층운 19개, 층적운 50개, 비행운 15개이다.

각각 학습시킨 구름의 이미지 수가 균일하지 않은 것은 인터넷에서 찾을 수 있는 구름의 이미지 데이터가 균일하지 않은 탓인데, 이는 사람들의 선호에 따른 문제라고 예상된다. 적란운이나 적운과 같은 사람들이 좋아하는 맑은 날씨의, 흔히 뭉게구름이라고 불리는 구름은 자료가 많았던 반면에, 사람들이 선호하지 않는 흐리거나 비 오는 날씨의 먹구름(난층운)의 경우 상대적으로 인터넷에 자료가 많지 않았다. (양떼구름이나 새털구름이라고 불리는 권층운, 권적운, 고적운도 이미지 수가 많았다.) 그러나 학습 이미지의 수는 최소 50장으로 맞추려고 했고 그 결과 50장을 겨우 채우거나 50장을 가분히 넘어가거나 혹은 50장에 못 미치는 자료의 숫자를 보이고 있다.

    • 결과 해석:

결과적으로 고민해 볼 수 있는 문제는, 찾은 자료가 정확한지? 구름 사진의 경우, 애니메이션 캐릭터나 동물, 사람, 문자 이미지와는 다르게 학습시키는 사용자조차도 결과값의 정확성을 확신하기가 어려웠다. 재미있는 점은 자료를 찾는 과정에서 많은 구름사진을 접했고 그것을 각각의 폴더에 정리하는 과정에서 나 또한 티쳐블 머신과 비슷한 학습을 경험했다는 것이다. 그 결과 티쳐블 머신이 계산한 값과, 내가 추측?한 결과 값이 유사함을 알 수 있었다. 구름만 있는 사진이 아닌 ‘구름과 건물’, ‘구름과 태양’, ‘구름과 바다’, ‘구름과 사람’ 등의 자료가 정확도를 떨어트리는 것 같음. 그러나 정확도가 떨어진 다는 예상과 다르게 학습시키는 과정에서도 학습결과를 확인하는 과정에서도 비슷한 수준으로 방해되는 이미지가 섞여들어 갔고 그 결과 정확도를 떨어트리는 요소들이 정확도에 크게 영향을 주지는 못 한 것 같다고 판단된다.

      • 결과이미지: 구름결과1 구름결과2 구름결과3 구름결과4 구름결과5 구름결과6 구름결과7
  • 김태형
    • 실습URL:
    • 문제의식: 한국 근대문학사에서, 1920년대 문예 동인지와 1930년대의 문예 동인지는 시발이 되는 문제의식과 목적의식이 상이한 것으로 받아들여진다. 1920년대의 문예 동인지가 1910년대 <소년>지 등에 영향을 받아 현대적 문예 활동을 개화시키는 본격적인 활동이었다면, 1930년대의 문예 동인지는 저마다의 문학적 자장을 확립하고 자신들의 "에꼴"적 시선에 입각한 문예 창작 활동이었음을 알 수 있다. 1930년대 후반의 '기교주의논쟁'은 이러한 "에꼴"적 자장 확립을 총체적으로 보여주는 사건이었다고 할 수 있다. 이들이 문예 동인지를 발행한 이유와 그 속에서 활동한 이유가 다른 만큼, 1920년대의 동인지와 1930년대의 동인지에 영향을 준 외부 요인 역시 다를 것이라 생각해 볼 수 있다.


    • 요인분석: 1920년대 동인지에서 주축이 된 문인들은 1910년대 일본 유학생, 그리고 그들과 교류가 깊었던 국내 문인들이었다. 반면 1930년대 동인지 주축 문인들은 유학파, 사회주의자, 학생 등 다양한 계층과 다양한 활동요인을 가지고 있었다. 이러한 사실을 바탕으로 이들의 표지 디자인은 그들에게 영향을 준 외국 문예잡지 혹은 단행본 등과 크게 유사하였을 것이라는 가설을 세워볼 수 있다. 즉, 1920년대 문예 동인지 디자인과 1930년대 문예 동인지 디자인을 각각 교육한 후 당시 해외 문예지 및 단행본 표지와의 유사도를 검사한다면 위의 가설에 대한 증명이 될 수 있을 것이다.


    • 연구대상: 무작위로 선별한 1920년대 동인지 표지, 1930년대 동인지 표지로 교육 / 무작위로 선별한 1910년대, 1920년대, 1930년대의 일본 문예잡지와 비교


    • 실험결과: 결과적으로 실패했으며, 과정 역시 너무 안이한 방식으로 진행되었다. 본 분석이 성공하기 위해서는 각각의 문인들이 어떤 인물, 국가, 사상의 영향을 받았는지 개별적인 이해가 필요할 것으로 보인다. 분석 결과 1910년대, 1920년대, 1930년대의 일본 문예 동인지 표지는 각각 1930년대 한국 문예 동인지 표지와 95%, 100%, 100%의 유사도를 보여 분석의 의미가 없었음을 알게 했다. 단순 표지 교육만으로는 잡지의 성향, 내용, 영향받은 대상 등의 결과를 알아내기 어려울 것으로 보인다.


    • 결과이미지: 1910년대 1920년대 1930년대

중간고사 이전

온톨로지 설계 실습

신경망 기술과 이미지 분류 실습

①문제의식

- 백인, 흑인 등 동아시아로부터 멀리 떨어져 사는 나라의 사람들은 한국과 중국, 일본 사람들의 얼굴을 쉽게 구분하지 못한다. 그러나 한국인은 직관적으로 중국인과 일본인을 구별해 낸다. 피부색이나 눈, 코, 입 등 생김새의 차이점을 구체적으로 집어내긴 어렵지만 분명한 차이점을 느끼고 있다.

- 그렇다면 인공지능도 한국과 중국, 일본 사람들의 얼굴을 구분할 수 있을까. 흑인과 백인, 황인을 구별하는 것은 그 차이점이 뚜렷하기 때문에 어렵지 않다. 같은 아시아에서도 동북아시아와 동남아시아를 구분하는 것은 쉽다. 그러나 한중일은 유사점이 매우 많아 쉽지 않다. 인공지능은 과연 이들을 구별할 수 있을까.

②학습설계

- 한중일의 표본 얼굴이 될 만한 자료를 모으는 것이 본 실험에서 가장 중요하다. 왜냐하면 인공지능이 무엇을 학습하느냐에 따라 결과값이 다르게 나오기 때문이다. 예를 들어 중국 샘플은 남자 아이돌을, 한국은 50대 등산 동호회 여성의 얼굴을 학습시킨다면 올바른 설계라고 보기 어렵다.

- 그러므로 본 실험에서는 국적만 다르되 동일한 기준으로 수집된 얼굴 데이터를 학습에 사용키로 했다. 1)자료 획득이 용이하며, 2)한중일 모두 공통된 기준이 적용되고, 3)모집단에 가장 가까울 만한 표본이어야 했다. 그래서 구글에서 상위 검색되는 순으로 한중일 정치인의 얼굴을 쓰기로 했다.

- 이 때 여성은 제외하고 남성의 얼굴만 사용했다. 상대적으로 여성 정치인의 숫자가 적을 뿐 아니라 남녀의 얼굴이 섞일 경우 오히려 학습을 통해 일관된 패턴을 익히는데 방해가 될 수 있기 때문이다. 흑백이나 얼굴이 작게 나온 사진, 지나치게 얼굴이 가려진 사진 등은 제외했다.

③1차 결과

- 학습 때 사용된 것과 전혀 다른 한중일 지도자의 얼굴을 모델에 투입했더니 <문재인 한국 100%>, <시진핑 중국 76% 한국 24%>, <아베 일본 48% 중국 41% 한국 11%>의 결과가 나왔다. 대체적으로 인공지능의 학습은 잘 된 것으로 평가된다. 다만 아베의 경우 중국이 2순위 높은 수치로 나온 것은 헤어스타일과 의상 등이 영향을 미쳤던 것이라 사료된다.

④2차 결과

- 이번에는 한중일을 대표하는 3명의 미남 배우 얼굴 사진을 투입했다. 각각 1)이마를 가린 헤어스타일 2)머리를 넘긴 헤어스타일 두 종류의 사진을 썼다. 먼저 정우성은 1차에서 <한국 70% 일본 30%>의 결과가 나왔다. 2차에서는 <한국 95% 일본 5%>의 값이 나왔다. 이마를 가린 경우에는 얼굴 윤곽이 뚜렷하지 않아 일본이 섞인 것으로 분석된다.

- 다음에는 일본의 대표 미남배우 기무라 타쿠야의 얼굴을 썼다. 1차에서는 <일본 88% 한국 12%>가 나왔고, 2차에서는 <일본 65% 중국 31% 한국 4%>의 값이 나왔다. 머리를 뒤로 넘긴 2차 실험의 경우 아베처럼 중국의 비율이 높게 나왔다.

- 끝으로 중국의 미남배우 우효광의 얼굴 사진을 투입했다. 1차에서는 <중국 83% 일본 14% 한국 3%>, 2차에서는 중국 90% 일본 6% 한국 4%>가 나왔다. 우효광은 기무라 타쿠야와 달리 자국 비율이 1, 2차 모두 높게 나왔다.

⑤3차 결과

- 3차 실험에서는 인공지능을 속여보기로 했다. 즉, 중국인처럼 보이는 정우성 사진과 한국인처럼 보이는 우효광 사진을 썼다. 먼저 정우성의 경우 영화 ‘검우강호’에 출연 당시 스틸컷을 썼다. 중국식 복장을 하고 있어 이 사진을 선택했다. 결과는 <한국인 100%>였다.

- 그 다음은 한국식 머리 스타일과 메이크업 등을 하고 있는 우효광 사진을 썼는데 <한국 99% 일본 1%>가 나왔다. 즉, 화장과 사진의 밝기 등에 따라 얼굴형이 매우 달라질 수 있다는 뜻이다. 정우성은 의상만 무협 세계에 나오는 중국옷을 걸쳤을 뿐 얼굴은 그대로였다.


1) 처음 Raw data는 preview image에 있는 다양한 글자를 인식할 수 있도록 다양한 색깔과 모양의 한글 자모, 영어 알파벳, 한자 각 100장씩으로 설정하였다. Epochs 50, Batch Size 128로 설정한 뒤에Training 결과는 정확도가 한글(0.5), 영어(0.75), 한자(0.87)로 낮게 나왔다. 따라서 다시 Raw data를 수집하게 되었다.


2) 2번째로 학습시킨 Raw data는 배경은 흰색, 글자는 검정으로 통일한 한글 자모, 영어 알파벳, 한자 부수 각 100장씩이였다. 한자는 영어 알파벳과 한글 자모같은 것은 없지만, 한자 부수가 있기 때문에 한자 부수를 택하여 수집하였다. Epochs 46, Batch Size 128로 설정한 후 Training 결과는 정확도가 한글(0.94), 영어(0.94), 한자(0.94)로 1차 Raw data에 비해 높게 나왔다. 따라서 이 결과로 학습을 시키기로 결정했다.


    • 학습결과 :


문제의식대로 결과값을 얻기 위해서 먼저 이 설정이 간단한 글귀를 해석할 수 있는지의 여부부터 알아보기로 했다. 이에 일상생활에서 볼 수 있는 간단한 한글, 영어, 한자 글귀 이미지를 찾아서 테스트해 보았다. 그러나 결과는 한자 글귀를 제외하고는 간단한 한글, 영어 글귀도 제대로 인식하지 못하였다. 이 연구에서는 서울 번화가 거리의 '간판' 사진을 넣은 후 나오는 결과값(수치)을 통해서 서울 번화가 거리에서 한글, 영어, 한자가 어느 정도의 수치로 혼용되어 사용되고 있는지 간단히 알고자 했지만, 간단한 글귀도 제대로 인식하지 못하는 결과로 인해 위의 문제의식에 따라서 진행하려고 했던 검사는 할 수 없게 되었다. 간단한 글귀를 인식한 결과값은 다음과 같다.


    • 학습 결과 이미지 :

결과1 결과2 결과3 결과4 결과5 결과6 결과7

  • 이만호
  • 김웅기
    • 실습URL: https://teachablemachine.withgoogle.com/models/NDGz_rD6E/
    • 문제의식
      • 서론 : 시문학을 범박하게 정의하자면, 심상과 리듬의 두 축으로 주조된 언어예술이라 할 수 있다. 이때 문학의 차원에서 심상과 리듬은 각각 내용과 형식이라는 범주에 포섭된다. 한국문학사에 기술된 다양한 문학지형을 살펴보면, 항상 내용과 형식 사이의 대립 구도를 심심찮게 발견할 수 있다. 가령 1920~30년대 사회주의 이념을 부각하고자 한 프로문예 시인들의 작품은 내용 측면에 중점을 둔 반면, 순수문학파 시인들은 시 자체가 가지고 있는 예술성을 부각하기 위해 언어 형식에 상당한 신경을 썼던 것처럼 말이다. 그런데 식민지기를 거치고 나서 한국의 근대시는 형식의 차원보다는 내용의 차원에 중점을 두게 된다. 그것은 해방 직후부터 시작된 이념 간의 대립, 자유와 민주주의에 대한 구가, 시민으로서의 언명 등의 가치가 한국 사회에 당위적으로 요청되고, 이에 따라 필요한 목소리를 내는 도구로써 시가 동원된 바가 없지 않기 때문이다. 따라서 리듬은 어느 순간 내면으로 침잠해버리고 규칙적 외형률의 운문형식은 한국 시문학에서 과감하게 말하자면, 전통으로 사라져버린다.
      • 연구사 : 한국사회의 정치적 지형과 습합하는 근대시사의 사정은 현대까지도 지속되다가, 1980년대 정점을 찍는다. 하지만 1980년대 문학이 정치적으로만 경도된 것은 아니었다. 1980년대는 정치적 혼란과 동시에 인간 실존에 대한 고민이라는 당위적 과제가 산재해 있었고, 문학이 추동하는 예술적 욕망을 실현하려는 움직임도 많았다. 이러한 와중에 1980년대 현대시사에 조금씩 정체를 드러낸 것이 바로 포스트모더니즘이다. 포스트모더니즘의 포스트는 후기/해체라는 두 가지 양상으로 나아갔다. 그 과정에서 조금씩 피어오르고 있던 포스트모던 시류(類)는 1990년대 이후 문학의 풍향계가 되어주기도 했다. 포스트모더니즘이 공유하고 있는 후기철학은 라캉의 주체이론에서 대타자로서 등장하는 ‘언어’개념에 주목하며, 그것을 해체(데리다) 하는 작업이 곳곳에서 일어났는데, 이는 한국 현대시를 창작해야 하는 시인들에게도 다시금 언어 자체에 대한 문학적 고민이라는 과제를 부여한다. 이를 통한 다양한 형식적 해체가 일어나는데, 이것이 의미하는 바는 현대시의 ‘새로운 형식’이라는 단순한 의미를 넘어서, 그 형식이 당시 파편화되어 있는 세계를 시인들이 주체화하고 있는지를 보여준다는 차원에서 깊이가 있는 시도였다고 평가된다.
      • 연구목적 : 본 실험은 이러한 1980년대 시사(詩史)가 가지는 문학지형 안에서의 포스트모더니즘 경향의 문제적 시인들 중 황지우의 언어 해체 형식을 탐구하는 것에 목적이 있다. 이 연구를 다채롭게 하기 위해서는 더 다양한 시형 기준(Class)과 해체시인의 수 또한 보충할 필요가 있다. 1980년대~1990년대 시인들의 형식 해체 작업은 상당히 다양하게 이뤄지기 때문이다. 심한 경우에는 도형이 나오기도 하고, 그림을 그리기도 한다. 그러나 이는 추후 과제로 두고, 우선 형식 측면에서 언어해체가 가장 도드라지는 시인이 황지우이기 때문에, 가장 기본이 되는 세 가지 기준을 설정해 그의 언어가 시형식의 기본구도를 얼마나 벗어나고 있는지를 파악하는 것에 초점을 둔다. 시형식의 기본구도를 세 가지로만 한정하는 이유는 이 실험의 기계가 시의 형식을 이미지로 받아들인다는 점 때문이다. 따라서 정확한 결과도출을 위해서는 입체적인 언어 구조를 최대한 2차원의 형태로 형식화하는 것이 중요했다. 따라서 기준은 다음과 같다.
        • 산문형 구조: 현대시(1960년대~1990년대)의 작품을 기준으로 일명 ‘통글’에 해당하는 형식. 직사각형으로 구조화.
        • 운문형 구조: 전근대(성)문학(전통 시가의 형식, 김소월 등 민요시인의 경우)의 작품을 기준으로 ‘도형의 규칙적 반복’이 드러나는 형식. 작은 직사각형의 집합으로 구조화.
        • 혼재형 구조: 2010년대 이후의 시작품을 기준으로 산문형과 운문형이 섞여 있는 형식. 대형 직사각형과 작은 직사각형의 혼용으로 구조화.
      • 연구 대상 : 해체시인 : 황지우
      • 실험 결과
        • Epochs :100, Batch size: 512, Learning Rate: 0.001
        • 총 7 작품을 검토하였으며, 산문형 100% 결과 4개 작품, 산문형(56%) 운문형(43%) 혼재형(1%) 결과 1개 작품, 산문형(58%), 운문형(35%), 혼재형(7%) 결과 1개 작품, 산문형(99%), 혼재형(1%) 결과 1개 작품으로 산출됐다.
      • 결과 해석
        • 황지우의 해체시 대표 7작품을 검토한 결과 모든 작품이 완전 산문형이거나 산문형에 치우쳐 있었다. 이는 성과와 한계를 동시에 지니는 결과라 할 수 있다. 우선 성과는 황지우의 해체시가 확실히 종래의 전통적인 시형식을 탈피하고 있다는 점을 파악할 수 있다는 것이다. 더불어 의미 없는 기호의 나열이나 그림 삽입을 통해 보여주는 콜라주 기법의 해체시 역시 산문형으로 파악함으로써, 황지우의 시적 (무)형식이 보여주는 기표의 이미지를 해석할 수 있게끔 만든다. 다만 한 가지 의심이 드는 것은, 산문형=무형식이라는 도식을 전제하는 데 있어 간과하고 있는 부분은 없는가 하는 것이다. 가령 그의 시<한국생명보험회사~>의 경우 산문형 100%로 나왔지만, 의도적으로 행을 나눈 것을 발견할 수 있다. 따라서 이 시의 특징은 신문 말미에 나오는 광고 내용을 떼내서 갖다 붙인 형태의 콜라주 기법의 해체시라는 것인데, 이런 기법을 산문형이라는 기준은 완벽히 충족하지 못한다는 점에서 한계가 있는 것이다.
        • 한편 운문형과 혼재형이 적거나 매우 극소한 비율로 섞여 나온 3개 작품의 경우는 황지우가 의도적으로 행을 비정상적으로 배치하거나, 기본적인 시형식은 갖추고 있으나 내용 측면에서 해체를 가져간 작품들이라 할 수 있다. 그런데 악보그림과 "짜자잔"이라는 가사, 그 밑에 "GAME OVER", "한다면."이라는 맥락 없는 문장들이 삽입되어 있는 경우에는 혼재형 1%를 가져갔다. 이 경우는 의도적 행배치나 기본적인 시형식 모두를 빗겨가는 방식임에도 불구하고 산문형 100%가 아니라 혼재형이 파악됐다는 점에서 의미심장하다. 최근 시인들 가운데 도형을 삽입하거나 각주 형태로 시를 짓는 등 다양한 기법을 가져가는 작품들이 있는데, 그 작품들을 기계가 어떻게 해석할지 궁금해지는 대목이었다.
        • 이 모델은 아직 부족한 점이 굉장히 많다. 특히 산문형과 운문형은 뚜렷한 형식상 차이가 나지만, 혼재형은 위치가 애매하다. 혼재형을 산문형의 하위분류로 두어야 할지, 혼재형 자체를 더욱 세분화해야 할지는 여전히 고민이 된다. 그리고 황지우처럼 해체시의 극단에 있는 위치가 아니라, 해체 경향은 보이지만 특별한 형식적 구상을 하지 않는 작가들의 특징을 파악하기에 이 모델은 성긴 부분이 많다. 추후에 더 생각을 해볼 문제인 듯하다.
      • 참고 결과 이미지

결과 1 결과 2 결과 3 결과 4 결과 5 결과 6 결과 7

    • 연구목적: 구름의 종류와 형태는 다양하다. 그런 구름들의 이름을 알려주는 기술이 있으면 좋겠다고 생각해 본 적이 있다.

몇 년 전 야생화를 구별해주는 어플이 생겼다는 소식을 들은 적 있다. 어플의 사진기에 야생화를 인식시키면 굉장히 높은 정확도로 야생화의 이름을 알려준다고 한다. 한 번도 사용해보지는 않았지만, 아마 이 ‘티쳐블 머신러닝’의 이미지 러닝 기능과 유사한 인공지능 기술을 사용하지 않았을까 생각한다. 그 야생화 어플처럼 구름의 이름을 알려주는 기술이 있으면 좋겠다는 생각에 구름 사진으로 과제를 수행하게 되었다. 구름의 이름을 알아야 구름을 제대로 감상할 수 있는 것은 아니지만, 구름의 이름을 척척 알려주는 어플같은 게 있다면 일상 속 소소한 호기심을 해결하고 넘어갈 수 있지 않을까.

    • 연구대상 : 다양한 구름들(고적운, 고층운, 권운, 권적운, 권층운, 난층운, 적란운, 적운, 층운, 층적운, 비행운)
    • 실험 결과: 학습에 사용된 구름의 이미지는 총 481개로, 고적운 59개, 고층운 37개, 권운 61개, 권적운 67개, 권층운 53개, 난층운26개, 적란운 70개, 적운 24개, 층운 19개, 층적운 50개, 비행운 15개이다.

각각 학습시킨 구름의 이미지 수가 균일하지 않은 것은 인터넷에서 찾을 수 있는 구름의 이미지 데이터가 균일하지 않은 탓인데, 이는 사람들의 선호에 따른 문제라고 예상된다. 적란운이나 적운과 같은 사람들이 좋아하는 맑은 날씨의, 흔히 뭉게구름이라고 불리는 구름은 자료가 많았던 반면에, 사람들이 선호하지 않는 흐리거나 비 오는 날씨의 먹구름(난층운)의 경우 상대적으로 인터넷에 자료가 많지 않았다. (양떼구름이나 새털구름이라고 불리는 권층운, 권적운, 고적운도 이미지 수가 많았다.) 그러나 학습 이미지의 수는 최소 50장으로 맞추려고 했고 그 결과 50장을 겨우 채우거나 50장을 가분히 넘어가거나 혹은 50장에 못 미치는 자료의 숫자를 보이고 있다.

    • 결과 해석:

결과적으로 고민해 볼 수 있는 문제는, 찾은 자료가 정확한지? 구름 사진의 경우, 애니메이션 캐릭터나 동물, 사람, 문자 이미지와는 다르게 학습시키는 사용자조차도 결과값의 정확성을 확신하기가 어려웠다. 재미있는 점은 자료를 찾는 과정에서 많은 구름사진을 접했고 그것을 각각의 폴더에 정리하는 과정에서 나 또한 티쳐블 머신과 비슷한 학습을 경험했다는 것이다. 그 결과 티쳐블 머신이 계산한 값과, 내가 추측?한 결과 값이 유사함을 알 수 있었다. 구름만 있는 사진이 아닌 ‘구름과 건물’, ‘구름과 태양’, ‘구름과 바다’, ‘구름과 사람’ 등의 자료가 정확도를 떨어트리는 것 같음. 그러나 정확도가 떨어진 다는 예상과 다르게 학습시키는 과정에서도 학습결과를 확인하는 과정에서도 비슷한 수준으로 방해되는 이미지가 섞여들어 갔고 그 결과 정확도를 떨어트리는 요소들이 정확도에 크게 영향을 주지는 못 한 것 같다고 판단된다.

      • 결과이미지: 구름결과1 구름결과2 구름결과3 구름결과4 구름결과5 구름결과6 구름결과7


    • 문제의식: 한국 현대복식사에서 1970년대, 1980년대, 1990년대 유행에는 큰 차이가 존재한다. 특히 유행에 민감한 광고 콘텐츠 분야에서는 패션의 변화에 빠르게 대처하고, 나아가 유행을 선도하는 모습을 보인 바 있다. 그러나 광고매체가 반영하는 패션이 과연 시대 자체의 유행을 받아들인 것인지, 아니면 일부의 유행만을 따르는 것인지에 대한 의문이 존재했다.


    • 연구대상: 무작위로 선별한 1970, 1980, 1990년대 광고 모델 복식(흑백사진 제외)을 머신러닝하고, 뉴스에서 무작위로 선별한 1970, 1980, 1990년대 일반인 복식과의 유사도를 측정한다. 1970, 1980년대 자료에 비해 1990년대 자료가 적은 것은 TV광고의 화질이 떨어져 훈련에 적합한 이미지를 찾기 어려웠기 때문이다.


    • 실험결과: 1970년대와 1980년대는 광고 매체와 일반인의 복식이 높은 유사도를 보였으나, 1990년대 일반인의 복식은 오히려 1970, 1980년대 광고 매체의 복식과 더 높은 유사도를 보였다. 이는 TV 등 대중 매체 내에서는 테크노, 세기말 감각이 유행한 반면 일반인들은 이러한 복식을 선호하지 않았기 때문으로 보인다.


    • 결과이미지: 1970 유사도 1 1970 유사도 2 1970 유사도 3 1980 유사도 1 1980 유사도 2 1980 유사도 3 1990 유사도 1 1990 유사도 2 1990 유사도 3


    • 배경소개
      • 중국 한자의 기원 갑골문

중국 문자는 한자이다. 그리고 한자의 기원은 은에서 사용된 갑골 문자에서 찾고 있다. 따라서, 한자의 기원은 대부분 갑골 문자라고 한다. 갑골문은 거북 배딱지와 소의 어깻죽지 뼈에 새긴 글자이다. 그래서 거북 배딱지를 나타내는 갑(甲)과 소뼈의 골(骨)을 합쳐 갑골문이라 한다. 갑골문의 존재가 알려진 것은 뜻밖에도 20세기에 들어와서의 일이다. 갑골문을 처음 발견한 사람은 유악(劉鶚, 1857~1909)이라는 학자이다.


가장 오래된 갑골문은 은나라의 남은 터에서 발견되었다고 해서 은허(殷墟) 문자라고도 말한다. 여기에 새긴 글은 복사(卜辭), 즉 점을 친 후 그 결과를 적은 것이었다. 고대에는 점을 칠 때 신에게 묻는 내용을 큰 소리로 말하면서 거북의 배딱지나 소의 어깻죽지 뼈에 인두로 지져 구멍을 뚫었다. 그러면 갑골이 열을 못 이겨 쩍쩍 갈라지면서 소리를 냈다. 점치는 사람은 갈라진 금을 보고 하늘의 응답을 읽었다.


그러고 나서는 갑골 위에 점칠 때 하늘에 물은 내용과 응답을 칼로 새겨 보관하였다. 갑골문의 내용은 제사와 농사, 전쟁과 수렵에 관한 것이 가장 많고, 그 밖에 왕의 통치나 질병, 재앙에 관한 질문도 있다. 이후 20만 개에 가까운 갑골이 더 발견되어 무려 4천 자에 해당하는 글자를 확인할 수 있게 되었다.


대체로 갑골 문자의 구성은 한자의 상형(象形), 지사(指事), 가차(假借), 형성(形聲), 회의(會意), 전주(轉注) 등 육서(六書)의 규칙을 갖추고 있다.

갑골문1.jpg 사람인.png


      • 중국의 간체자와 번체자


한자는 사물의 형상을 그림으로 나타낸 고대 문자로써 모든 글자마다 각각의 의미가 있는 독특한 "뜻 글자"입니다. 총 5만 6천개의 한자가 존재하지만 현대출판물에 사용되는 한자에 대한 통계에 따르면 약 3,000개의 한자가 전체 문자의 99%정도 사용되고 있습니다.


중국 교육부는 1956년이후 중국어의 발음부호인 "한어병음"을 만들었으며 또한 높은 문맹의 중국인들을 위해 복잡하고 배우기 어려운 번체자 (繁体字)의 한자를 배우기가 쉽고 간단하게 쓸 수 있도록 새롭게 만들었는데 이를 간체자 "(简体字)"라고 부릅니다.

번체자와간체자.png


      • 데이터 준비


class1: 갑골문 100개 글자의 이미지 준비


class2: 간체자 100개 글자의 이미지 준비


class3: 번체자 100개 글자의 이미지 준비


갑골문, 간체자, 번체자의 100개 한자는 전부 1:1로 대응되는 한자로 선택했음.


      • 연구 1


목적1 : 간체자와 번체자 중 어느 것이 갑골문의 문자와 더 가까운 지를 측정하려고 함.


Export Model : 100개 글자가 담겨진 1장의 간체자 이미지 및 번체자 이미지로 측정했음.


결과: 100% 갑골문과 같음.

테스트.png



      • 연구2

목적 2 : 상형문자인 중국의 한자 중에서 간체자, 번체자, 갑골문 중에서 어느 것의 상형 의미가 더 높은 가를 측정하려고 함.

Expot Model 1: '물고기' 삽화


결과 1: 갑골문과 비슷함.

물고기.png


간체자 3.png L3.jpg


Expot Model 2: '산' 삽화


결과 2: 갑골문과 비슷함. 산2.png

산간체자.png 산갑골문.png


Expot Model 3: '비' 삽화


결과 3: 번체자와 비슷함. 비2.png


비번체자.png 비갑골문.png

신경망 기술과 텍스트 분류 실습

Useful Information

How to use Mediawiki

How to create Network Graph

External Website

Footnote

  1. 03.16부터 03.20까지 수강정정기간
  2. 04.15은 제21대 국회의원 선거일(공휴일)이며, 이로 인해 보강계획 필요