행위

"HumanitiesAndArtificialIntelligence"의 두 판 사이의 차이

red

259번째 줄: 259번째 줄:
  
 
**<font color=blue>'''학습 결과 이미지'''</font> :  
 
**<font color=blue>'''학습 결과 이미지'''</font> :  
[[파일:chinese_1.jpg|600px|결과 1]]
+
[[파일:Chinese 1.JPG|400px|결과1]]
 
*[[이만호]]
 
*[[이만호]]
 
**실습URL:
 
**실습URL:

2020년 6월 17일 (수) 21:35 판

Information

  • 개설기관 : 경희대학교 대학원
  • 강좌명 : 인문학과 인공지능(Humanities and Artificial Intelligence)
  • 학수번호-분반 : KL7295-00
  • 이수구분 : 공통과목
  • 개설학과(학점) : 국어국문학과(3)
  • 강의시간 : 수요일 10:30-13:15
  • 강의실 : 문과대 201A
  • 강사 : 류인태

Overview

Summary

본 강의는 인공지능(AI) 기술로 인해 전통적인 인문학적 가치와 소양 그리고 연구방법론에 대한 근본적 질문이 대두하고 있는 상황에서, 인공지능(AI)을 어떻게 바라보아야 할 것인지에 대해 이야기해보고자 합니다. 인공지능(AI) 기술이 등장한 배경과 그 이면의 여러 지점들을 포착해 비판적으로 살펴보고, 더 나아가 기계학습(Machine Learning), 심층학습(Deep Learning) 등의 영역을 포괄하는 인공지능(AI) 기술이 인문학 연구에서 구체적으로 어떻게 활용될 수 있는 지에 대해서 살펴보고자 합니다. 인문학적 관점에서 비판적으로 바라보아야 할 인공지능(AI)의 일면과, 한편으로 인문학 연구에 능동적으로 활용 가능한 연구방법론으로서의 인공지능(AI)의 일면을 함께 짚어보고자 하는 것이 본 강의의 가장 큰 목적이라 할 수 있습니다.

Objectives

  • 비판적 대상으로서 인공지능 기술에 대해 이해한다.
    • 과학기술로서 인공지능 발달의 역사를 파악한다.
    • 과학기술로서 인공지능 기술의 원리를 이해한다.
    • 인공지능의 발달이 초래할 사회문화적 변화와 그에 대한 비판적 이해를 시도한다.
  • 인문학 연구 방법론의 일환으로서 인공지능 기술의 가능성을 검토한다.
    • 활용 가능한 인공지능 기술에 대한 기초 맥락을 이해한다.
    • 인공지능을 활용한 인문학 연구 사례에 대해 살펴본다.
    • 인공지능 기술 활용에 필요한 기초 기술(데이터 파싱, 크롤링, 스크래핑 등)을 익힌다.
    • 이미지와 텍스트를 대상으로 한 인공지능 기술 활용 방법론을 이해하고 적용해본다.

Teaching Method

  • 이론 강의 : 2주차, 3주차, 8주차, 9주차.
  • 실습 : 10주차, 11주차, 12주차.
  • 발표와 토론 : 4주차, 5주차, 6주차, 13주차, 14주차.

Reference Materials

Evaluation Standard

  • 총점 : 100%
  • 출석 : 10% (특별한 이유없이 결석하지 않을 경우 감점 없음)
  • 참여 : 10% (토론에 능동적으로 참여하는 학생에게 10점 가산)
  • 발표 : 30% (중간 발표와 기말 발표로 나누어 평가, 발표는 팀 기준으로 이루어짐)
    • 중간발표 : 15% (A : 15, B : 13, C : 11, D : 9)
    • 기말발표 : 15% (A : 15, B : 13, C : 11, D : 9)
  • 과제 : 50% (중간 과제와 기말 과제로 나누어 평가, 과제는 개인 기준으로 이루어짐)
    • 중간과제 : 25% (A : 25, B : 23, C : 21, D :19)
    • 기말과제 : 25% (A : 25, B : 23, C : 21, D :19)

Assignment

  • 중간고사 이전 1회, 중간고사 이후 1회의 발표를 한다.
    • 중간고사 이전에는 인공지능 관련 주제(문헌) 가운데 하나를 선택하고 그에 대한 리뷰 내용을 발표한다.
    • 중간고사 이후에는 단일 연구 주제를 선택해 딥러닝 기술을 적용한 인문학 연구를 기획하고 실제 진행한 내용을 발표한다.
  • 중간고사 평가는 상황에 따라 시험 or 과제를 유동적으로 실시한다.
  • 기말고사 평가는 기말발표 내용에 대한 리뷰에 근거해 그에 대한 내용을 보완한 결과물 평가로 대신한다.

Other Things

  • 본 강의는 웹 환경에서의 컴퓨터 기술이 기본적으로 활용되기에 수강생 개개인의 노트북 지참을 필수적으로 요구한다.

Students

길혜빈 김웅기 김태형 아슈토시 윤석만 이만호 임연 임예찬 장민주



Plan

본래주차 변경주차 날짜 강의 내용 강의 형식
01주차 - 03/04 코로나 바이러스로 인한 개강연기 -
02주차 - 03/11 코로나 바이러스로 인한 개강연기 -
03주차 01주차 03/18 오리엔테이션[1] 강의 소개(영상)
04주차 02주차 03/25 "인공지능(AI) 기술의 역사와 원리" (PPT) 이론 강의(영상)
05주차 03주차 04/01 미디어위키(Mediawiki) 전자문서 작성 실습 실습
06주차 04주차 04/08 인공지능 분야의 고전에 담긴 사유 검토 발표와 토론
07주차 05주차 04/15 실제 인공지능 사례 분석 및 정리[2] 발표와 토론
08주차 06주차 04/22 문예작품 속 인공지능에 대한 비판적 이해 발표와 토론
09주차 07주차 04/29 중간고사 평가
10주차 08주차 05/06 "기호적 접근, 규칙기반 인공지능 이해: 온톨로지(Ontology)" (PPT) 이론 강의
11주차 09주차 05/13 온톨로지(Ontology) 설계와 인문 데이터 편찬1 이론과 실습
12주차 10주차 05/20 온톨로지(Ontology) 설계와 인문 데이터 편찬2 이론과 실습
13주차 11주차 05/27 데이터 수집: 웹 크룰링과 웹 스크래핑 이론과 실습
14주차 12주차 06/03 "비기호적 접근, 학습기반 인공지능 이해: 신경망(Neural Network)" (PPT) 이론 강의
15주차 13주차 06/10 신경망(Neural Network) 기술과 이미지 분류 이론과 실습
16주차 14주차 06/17 신경망(Neural Network) 기술과 자연어 처리 이론과 실습
17주차 15주차 06/24 기말고사 평가

Report

Research Topics

중간고사 이전

온톨로지 설계 실습

신경망 기술과 이미지 분류 실습

①문제의식

- 백인, 흑인 등 동아시아로부터 멀리 떨어져 사는 나라의 사람들은 한국과 중국, 일본 사람들의 얼굴을 쉽게 구분하지 못한다. 그러나 한국인은 직관적으로 중국인과 일본인을 구별해 낸다. 피부색이나 눈, 코, 입 등 생김새의 차이점을 구체적으로 집어내긴 어렵지만 분명한 차이점을 느끼고 있다.

- 그렇다면 인공지능도 한국과 중국, 일본 사람들의 얼굴을 구분할 수 있을까. 흑인과 백인, 황인을 구별하는 것은 그 차이점이 뚜렷하기 때문에 어렵지 않다. 같은 아시아에서도 동북아시아와 동남아시아를 구분하는 것은 쉽다. 그러나 한중일은 유사점이 매우 많아 쉽지 않다. 인공지능은 과연 이들을 구별할 수 있을까.

②학습설계

- 한중일의 표본 얼굴이 될 만한 자료를 모으는 것이 본 실험에서 가장 중요하다. 왜냐하면 인공지능이 무엇을 학습하느냐에 따라 결과값이 다르게 나오기 때문이다. 예를 들어 중국 샘플은 남자 아이돌을, 한국은 50대 등산 동호회 여성의 얼굴을 학습시킨다면 올바른 설계라고 보기 어렵다.

- 그러므로 본 실험에서는 국적만 다르되 동일한 기준으로 수집된 얼굴 데이터를 학습에 사용키로 했다. 1)자료 획득이 용이하며, 2)한중일 모두 공통된 기준이 적용되고, 3)모집단에 가장 가까울 만한 표본이어야 했다. 그래서 구글에서 상위 검색되는 순으로 한중일 정치인의 얼굴을 쓰기로 했다.

- 이 때 여성은 제외하고 남성의 얼굴만 사용했다. 상대적으로 여성 정치인의 숫자가 적을 뿐 아니라 남녀의 얼굴이 섞일 경우 오히려 학습을 통해 일관된 패턴을 익히는데 방해가 될 수 있기 때문이다. 흑백이나 얼굴이 작게 나온 사진, 지나치게 얼굴이 가려진 사진 등은 제외했다.

③1차 결과

- 학습 때 사용된 것과 전혀 다른 한중일 지도자의 얼굴을 모델에 투입했더니 <문재인 한국 100%>, <시진핑 중국 76% 한국 24%>, <아베 일본 48% 중국 41% 한국 11%>의 결과가 나왔다. 대체적으로 인공지능의 학습은 잘 된 것으로 평가된다. 다만 아베의 경우 중국이 2순위 높은 수치로 나온 것은 헤어스타일과 의상 등이 영향을 미쳤던 것이라 사료된다.

④2차 결과

- 이번에는 한중일을 대표하는 3명의 미남 배우 얼굴 사진을 투입했다. 각각 1)이마를 가린 헤어스타일 2)머리를 넘긴 헤어스타일 두 종류의 사진을 썼다. 먼저 정우성은 1차에서 <한국 70% 일본 30%>의 결과가 나왔다. 2차에서는 <한국 95% 일본 5%>의 값이 나왔다. 이마를 가린 경우에는 얼굴 윤곽이 뚜렷하지 않아 일본이 섞인 것으로 분석된다.

- 다음에는 일본의 대표 미남배우 기무라 타쿠야의 얼굴을 썼다. 1차에서는 <일본 88% 한국 12%>가 나왔고, 2차에서는 <일본 65% 중국 31% 한국 4%>의 값이 나왔다. 머리를 뒤로 넘긴 2차 실험의 경우 아베처럼 중국의 비율이 높게 나왔다.

- 끝으로 중국의 미남배우 우효광의 얼굴 사진을 투입했다. 1차에서는 <중국 83% 일본 14% 한국 3%>, 2차에서는 중국 90% 일본 6% 한국 4%>가 나왔다. 우효광은 기무라 타쿠야와 달리 자국 비율이 1, 2차 모두 높게 나왔다.

⑤3차 결과

- 3차 실험에서는 인공지능을 속여보기로 했다. 즉, 중국인처럼 보이는 정우성 사진과 한국인처럼 보이는 우효광 사진을 썼다. 먼저 정우성의 경우 영화 ‘검우강호’에 출연 당시 스틸컷을 썼다. 중국식 복장을 하고 있어 이 사진을 선택했다. 결과는 <한국인 100%>였다.

- 그 다음은 한국식 머리 스타일과 메이크업 등을 하고 있는 우효광 사진을 썼는데 <한국 99% 일본 1%>가 나왔다. 즉, 화장과 사진의 밝기 등에 따라 얼굴형이 매우 달라질 수 있다는 뜻이다. 정우성은 의상만 무협 세계에 나오는 중국옷을 걸쳤을 뿐 얼굴은 그대로였다.

1) 처음 Raw data는 preview image에 있는 다양한 글자를 인식할 수 있도록 다양한 색깔과 모양의 한글 자모, 영어 알파벳, 한자 각 100장씩으로 설정하였다. Epochs 50, Batch Size 128로 설정한 뒤에Training 결과는 정확도가 한글(0.5), 영어(0.75), 한자(0.87)로 낮게 나왔다. 따라서 다시 Raw data를 수집하게 되었다.


2) 2번째로 학습시킨 Raw data는 배경은 흰색, 글자는 검정으로 통일한 한글 자모, 영어 알파벳, 한자 부수 각 100장씩이였다. 한자는 영어 알파벳과 한글 자모같은 것은 없지만, 한자 부수가 있기 때문에 한자 부수를 택하여 수집하였다. Epochs 46, Batch Size 128로 설정한 후 Training 결과는 정확도가 한글(0.94), 영어(0.94), 한자(0.94)로 1차 Raw data에 비해 높게 나왔다. 따라서 이 결과로 학습을 시키기로 결정했다.


    • 학습결과 :


문제의식대로 결과값을 얻기 위해서 먼저 이 설정이 간단한 글귀를 해석할 수 있는지의 여부부터 알아보기로 했다. 이에 일상생활에서 볼 수 있는 간단한 한글, 영어, 한자 글귀 이미지를 찾아서 테스트해 보았다. 그러나 결과는 한자 글귀를 제외하고는 간단한 한글, 영어 글귀도 제대로 인식하지 못하였다. 이 연구에서는 서울 번화가 거리의 '간판' 사진을 넣은 후 나오는 결과값(수치)을 통해서 서울 번화가 거리에서 한글, 영어, 한자가 어느 정도의 수치로 혼용되어 사용되고 있는지 간단히 알고자 했지만, 간단한 글귀도 제대로 인식하지 못하는 결과로 인해 위의 문제의식에 따라서 진행하려고 했던 검사는 할 수 없게 되었다. 간단한 글귀를 인식한 결과값은 다음과 같다.


    • 학습 결과 이미지 :

결과1

  • 이만호
    • 실습URL:
    • 문제의식:
  • 김웅기
    • 실습URL: https://teachablemachine.withgoogle.com/models/NDGz_rD6E/
    • 문제의식
      • 서론 : 시문학을 범박하게 정의하자면, 심상과 리듬의 두 축으로 주조된 언어예술이라 할 수 있다. 이때 문학의 차원에서 심상과 리듬은 각각 내용과 형식이라는 범주에 포섭된다. 한국문학사에 기술된 다양한 문학지형을 살펴보면, 항상 내용과 형식 사이의 대립 구도를 심심찮게 발견할 수 있다. 가령 1920~30년대 사회주의 이념을 부각하고자 한 프로문예 시인들의 작품은 내용 측면에 중점을 둔 반면, 순수문학파 시인들은 시 자체가 가지고 있는 예술성을 부각하기 위해 언어 형식에 상당한 신경을 썼던 것처럼 말이다. 그런데 식민지기를 거치고 나서 한국의 근대시는 형식의 차원보다는 내용의 차원에 중점을 두게 된다. 그것은 해방 직후부터 시작된 이념 간의 대립, 자유와 민주주의에 대한 구가, 시민으로서의 언명 등의 가치가 한국 사회에 당위적으로 요청되고, 이에 따라 필요한 목소리를 내는 도구로써 시가 동원된 바가 없지 않기 때문이다. 따라서 리듬은 어느 순간 내면으로 침잠해버리고 규칙적 외형률의 운문형식은 한국 시문학에서 과감하게 말하자면, 전통으로 사라져버린다.
      • 연구사 : 한국사회의 정치적 지형과 습합하는 근대시사의 사정은 현대까지도 지속되다가, 1980년대 정점을 찍는다. 하지만 1980년대 문학이 정치적으로만 경도된 것은 아니었다. 1980년대는 정치적 혼란과 동시에 인간 실존에 대한 고민이라는 당위적 과제가 산재해 있었고, 문학이 추동하는 예술적 욕망을 실현하려는 움직임도 많았다. 이러한 와중에 1980년대 현대시사에 조금씩 정체를 드러낸 것이 바로 포스트모더니즘이다. 포스트모더니즘의 포스트는 후기/해체라는 두 가지 양상으로 나아갔다. 그 과정에서 조금씩 피어오르고 있던 포스트모던 시류(類)는 1990년대 이후 문학의 풍향계가 되어주기도 했다. 포스트모더니즘이 공유하고 있는 후기철학은 라캉의 주체이론에서 대타자로서 등장하는 ‘언어’개념에 주목하며, 그것을 해체(데리다) 하는 작업이 곳곳에서 일어났는데, 이는 한국 현대시를 창작해야 하는 시인들에게도 다시금 언어 자체에 대한 문학적 고민이라는 과제를 부여한다. 이를 통한 다양한 형식적 해체가 일어나는데, 이것이 의미하는 바는 현대시의 ‘새로운 형식’이라는 단순한 의미를 넘어서, 그 형식이 당시 파편화되어 있는 세계를 시인들이 주체화하고 있는지를 보여준다는 차원에서 깊이가 있는 시도였다고 평가된다.
      • 연구목적 : 본 실험은 이러한 1980년대 시사(詩史)가 가지는 문학지형 안에서의 포스트모더니즘 경향의 문제적 시인들 중 황지우의 언어 해체 형식을 탐구하는 것에 목적이 있다. 이 연구를 다채롭게 하기 위해서는 더 다양한 시형 기준(Class)과 해체시인의 수 또한 보충할 필요가 있다. 1980년대~1990년대 시인들의 형식 해체 작업은 상당히 다양하게 이뤄지기 때문이다. 심한 경우에는 도형이 나오기도 하고, 그림을 그리기도 한다. 그러나 이는 추후 과제로 두고, 우선 형식 측면에서 언어해체가 가장 도드라지는 시인이 황지우이기 때문에, 가장 기본이 되는 세 가지 기준을 설정해 그의 언어가 시형식의 기본구도를 얼마나 벗어나고 있는지를 파악하는 것에 초점을 둔다. 시형식의 기본구도를 세 가지로만 한정하는 이유는 이 실험의 기계가 시의 형식을 이미지로 받아들인다는 점 때문이다. 따라서 정확한 결과도출을 위해서는 입체적인 언어 구조를 최대한 2차원의 형태로 형식화하는 것이 중요했다. 따라서 기준은 다음과 같다.
        • 산문형 구조: 현대시(1960년대~1990년대)의 작품을 기준으로 일명 ‘통글’에 해당하는 형식. 직사각형으로 구조화.
        • 운문형 구조: 전근대(성)문학(전통 시가의 형식, 김소월 등 민요시인의 경우)의 작품을 기준으로 ‘도형의 규칙적 반복’이 드러나는 형식. 작은 직사각형의 집합으로 구조화.
        • 혼재형 구조: 2010년대 이후의 시작품을 기준으로 산문형과 운문형이 섞여 있는 형식. 대형 직사각형과 작은 직사각형의 혼용으로 구조화.
      • 연구 대상 : 해체시인 : 황지우
      • 실험 결과
        • Epochs :100, Batch size: 512, Learning Rate: 0.001
        • 총 7 작품을 검토하였으며, 산문형 100% 결과 4개 작품, 산문형(56%) 운문형(43%) 혼재형(1%) 결과 1개 작품, 산문형(58%), 운문형(35%), 혼재형(7%) 결과 1개 작품, 산문형(99%), 혼재형(1%) 결과 1개 작품으로 산출됐다.
      • 결과 해석
        • 황지우의 해체시 대표 7작품을 검토한 결과 모든 작품이 완전 산문형이거나 산문형에 치우쳐 있었다. 이는 성과와 한계를 동시에 지니는 결과라 할 수 있다. 우선 성과는 황지우의 해체시가 확실히 종래의 전통적인 시형식을 탈피하고 있다는 점을 파악할 수 있다는 것이다. 더불어 의미 없는 기호의 나열이나 그림 삽입을 통해 보여주는 콜라주 기법의 해체시 역시 산문형으로 파악함으로써, 황지우의 시적 (무)형식이 보여주는 기표의 이미지를 해석할 수 있게끔 만든다. 다만 한 가지 의심이 드는 것은, 산문형=무형식이라는 도식을 전제하는 데 있어 간과하고 있는 부분은 없는가 하는 것이다. 가령 그의 시<한국생명보험회사~>의 경우 산문형 100%로 나왔지만, 의도적으로 행을 나눈 것을 발견할 수 있다. 따라서 이 시의 특징은 신문 말미에 나오는 광고 내용을 떼내서 갖다 붙인 형태의 콜라주 기법의 해체시라는 것인데, 이런 기법을 산문형이라는 기준은 완벽히 충족하지 못한다는 점에서 한계가 있는 것이다.
        • 한편 운문형과 혼재형이 적거나 매우 극소한 비율로 섞여 나온 3개 작품의 경우는 황지우가 의도적으로 행을 비정상적으로 배치하거나, 기본적인 시형식은 갖추고 있으나 내용 측면에서 해체를 가져간 작품들이라 할 수 있다. 그런데 악보그림과 "짜자잔"이라는 가사, 그 밑에 "GAME OVER", "한다면."이라는 맥락 없는 문장들이 삽입되어 있는 경우에는 혼재형 1%를 가져갔다. 이 경우는 의도적 행배치나 기본적인 시형식 모두를 빗겨가는 방식임에도 불구하고 산문형 100%가 아니라 혼재형이 파악됐다는 점에서 의미심장하다. 최근 시인들 가운데 도형을 삽입하거나 각주 형태로 시를 짓는 등 다양한 기법을 가져가는 작품들이 있는데, 그 작품들을 기계가 어떻게 해석할지 궁금해지는 대목이었다.
        • 이 모델은 아직 부족한 점이 굉장히 많다. 특히 산문형과 운문형은 뚜렷한 형식상 차이가 나지만, 혼재형은 위치가 애매하다. 혼재형을 산문형의 하위분류로 두어야 할지, 혼재형 자체를 더욱 세분화해야 할지는 여전히 고민이 된다. 그리고 황지우처럼 해체시의 극단에 있는 위치가 아니라, 해체 경향은 보이지만 특별한 형식적 구상을 하지 않는 작가들의 특징을 파악하기에 이 모델은 성긴 부분이 많다. 추후에 더 생각을 해볼 문제인 듯하다.
      • 참고 결과 이미지

결과 1 결과 2 결과 3 결과 4 결과 5 결과 6 결과 7

신경망 기술과 텍스트 분류 실습

Useful Information

How to use Mediawiki

How to create Network Graph

External Website

Footnote

  1. 03.16부터 03.20까지 수강정정기간
  2. 04.15은 제21대 국회의원 선거일(공휴일)이며, 이로 인해 보강계획 필요