"대표적인 인공지능 사례 살펴보기"의 두 판 사이의 차이

2020년 4월 13일 (월) 07:05 판

1 Netflix의 Cinematch
- 1.1 요구사항
- 1.2 과제원고 : 김웅기, 김태형, 장민주
2 IBM의 Watson
- 2.1 요구사항
- 2.2 과제원고 : 아슈토시, 이만호, 임연
3 DeepMind의 AlphaGo
- 3.1 요구사항
- 3.2 과제원고 : 길혜빈, 윤석만, 임예찬

Netflix의 Cinematch

요구사항

Netflix의 Cinematch에 대한 내용 및 그와 관련해 다루어진 인공지능 기술의 맥락이 무엇인지에 대해 서술할 것. 〔숀 게리시 지음/이수겸 옮김, 『기계는 어떻게 생각하는가』, 이지스퍼블리싱, 2019, 103-152쪽.〕을 기본 원고로 하여 기초 정보를 정리하되, 웹에서 추가적인 정보(텍스트, 이미지, 동영상 등)를 찾아서 보완할 것.

과제원고 : 김웅기, 김태형, 장민주

넷플릭스란 무엇인가?

넷플릭스

1997년 설립, 비디오와 DVD 대여 사업으로 시작해 현재는 온라인 스트리밍 서비스를 제공하고 있다. 2019년 기준 전 세계 동영상 스트리밍 시장 점유율 30%의 대형 미디어 회사이다.
고객의 이용 패턴 등 빅데이터를 적극 활용한다. 영화 감상 패턴을 분석하여 영화를 추천하는 등의 서비스가 빅데이터 활용의 대표적인 예시이다.

넷플릭스 프라이즈는 무엇인가?

넷플릭스 프라이즈는 넷플릭스에서 2006년부터 3년간 주최한 시네매치의 성능 개선 대회이다. 시네매치는 넷플릭스에서 자체 개발한 영화 추천 알고리즘으로, 더이상 성능을 개선하기 힘들 것으로 판단되자 100만 달러를 걸고 넷플릭스 프라이즈를 개최했다. 해당 대회의 우승 조건은 시네매치의 성능을 10% 이상 향상시키는 것이었다.
100만 달러에 달하는 상금에 대해 우려의 목소리가 있었으나, 넷플릭스 CEO 리드 헤이스팅스는 영화 추천 알고리즘이 10% 이상 개선되었을 때 얻을 이익이 상금을 상회할 것이므로 문제가 되지 않을 것이라 답변했다.

넷플릭스 프라이즈는 "왜" 필요했는가?

2020년 현재 넷플릭스가 비디오 스트리밍 서비스를 주력으로 하는 것과는 달리, 2000년대 중반 당시 넷플릭스는 주로 우편을 통한 미국 내 DVD 대여 서비스를 제공했다. 우편 대여 서비스의 가장 큰 단점은 고객까지의 배송 기간이 길다는 것이었다. 더욱이 고객 변심으로 영화를 변경하거나, 도착한 후에 고객의 취향에 맞지 않을 경우 교환에 드는 시간만큼 기간이 연장되었다. 일반적인 비디오 대여점의 경우에는 신작이나 유명 영화를 추천 매대에 진열하는 식으로 영화 변경이나 취향에 맞지 않을 경우를 방지하였으나, 보유 영화의 70%가 독립 영화 내지 고전 영화로 이루어진 넷플릭스에서는 이러한 전략을 사용하기 어려웠다.
영화 추천 알고리즘인 시네매치는 수많은 비인기 타이틀, 긴 대기 시간이라는 악조건을 극복하기 위한 넷플릭스의 전략이었다. 추천한 영화를 본 고객이 만족하지 못한다면 그대로 서비스를 해지할 확률이 상승할 것이었다. 때문에 시네매치의 성능을 개선하는 것은 곧 넷플릭스의 향후 수익을 결정하는 주요한 과업이었다. 다행히 넷플릭스에게는 1998년 창업 이후부터 2005년 당시까지 고객 별점 데이터가 누적되어 있었다. 이는 시네매치의 개선을 위한 최고의 재료였다. 넷플릭스 프라이즈는 이 데이터를 "어떻게" 사용해야 할 지 알아내기 위한 시도였다.

넷플릭스 프라이즈가 제시한 과제

상술하였듯, 넷플릭스 프라이즈의 목표는 시네매치의 성능을 10% 이상 개선하는 것이었다. 이를 달성하는 팀에게는 100만 달러의 상금이 지급될 것이었으며, 이를 달성하지 못하더라도 매년 중간 목표치에 도달하는 팀 중 1위에게는 5만 달러의 '프로그레스 프라이즈' 상금이 약속되었다. 넷플릭스 프라이즈가 개최된 첫 해, 20,000여개의 팀이 등록되었으며 2,000여개의 팀이 알고리즘을 제출하였다.
대회에서 참가자들에게 제시된 과제는 명확했다. 참가자들은 1998년부터 2005년까지의 데이터를 바탕으로 특정 고객이 특정한 날, 특정 영화에 매긴 평점을 예측해야 했다. 넷플릭스는 예측 값과 실제 값의 평균 제곱 오차를 계산하여 각 팀이 개발한 알고리즘의 성능을 평가하고 그 순위를 발표했다.

넷플릭스 프라이즈의 진행(1년차)

넷플릭스 프라이즈에서 초기에 두각을 나타낸 팀들은 대부분 데이터 분석에 전문성을 지닌 참가자들로 구성되어 있었다. AT&T 연구소 소속 연구원들로 구성된 '벨코' 팀은 두 가지 원리를 결합해 기본적인 추천 엔진을 설계했다. 이들이 초기 엔진 설계에 활용한 원리는 다음과 같다.

E.T. 효과 : 영화 자체가 얼마나 인기 있는지만 계산에 반영한다. 만일 천만 관객을 기록한 <해운대>와 천 명도 보지 않은 독립 영화를 비교한다면 <해운대>가 무조건 더 높은 점수를 받게 되는 것이다.
스크루지 효과 : 이용자들이 영화 평점을 매길 때 보이는 개인적 경향을 분석하여 반영한다. 만일 점수를 전체적으로 후하게 주는 사람이라면 다음에 평가할 때도 후하게 줄 확률이 높고, 박하게 주는 사람이라면 다시 박하게 줄 확률이 높다고 예상하는 것이다.

상술한 두 효과를 활용한 추천 엔진은 효과적이었으나 큰 문제를 가지고 있었다. 바로 고객의 개별성을 따지지 않고 무조건 유명하고 인기 있는 영화를 추천한다는 것이었다. 해당 엔진으로는 개인화된 추천 결과를 도출할 수 없었다. 만일 이용자가 B급 영화, 컬트 영화, 고전 영화, 어린이 영화 등을 좋아한다고 해도 무조건 유명하고 평점이 높은 영화를 추천했던 것이다. 즉, A 장르를 좋아하는 그룹, B 장르를 좋아하는 그룹, A와 B 모두를 좋아하는 그룹, 둘 다 좋아하지 않는 그룹 등 이용자들의 개인적 취향을 고려하는 터미네이터 효과를 만족시킬 필요가 있었다.

행렬 인수 분해(matrix factorization) : 참가자들은 넷플릭스 측에서 제공한 데이터가 사실상 중복된 정보를 다수 가지고 있는 거대한 행렬임에 주목했다. 중복된 정보는 개인화된 추천 기능을 제공하기 위한 기반이었다. 단순히 생각하자면, 공포 장르를 선호하는 이용자에게는 공포 장르를 추천했을 때 선호도가 높을 것이고, 코미디를 즐겨 보는 이용자는 코미디 장르를 선호할 것이라는 판단에서 비롯한 것이라 할 수 있다. 그러나 이러한 분석이 완전할 수는 없다. 같은 장르도 여러 분야로 구분될 수 있다는 점, 선호하는 장르에도 우선순위가 있다는 점, 장르가 복합된 영화가 존재한다는 점 등이 해당 분석 방식의 신뢰도를 낮춘다.

이러한 문제점을 해결하며 행렬 인수 분해를 적용하기 위해 두 가지의 기반 데이터가 필요하다. 1)영화가 속하는 장르^[1]와 2)넷플릭스 이용자의 장르 선호도가 바로 그것이다.

스필버그의 <쥬라기 공원> 선호도 계산

행렬 인수 분해는 두 가지의 데이터에 기반하여 작동한다. 우선 <쥬라기 공원>이 속한 장르(SF, 모험)에 1이라는 값을, 속하지 않은 장르에 0이라는 값을 부여한다.< 그리고 스필버그 감독의 대략적인 선호도를 분석해 장르마다 각각의 가중치를 준다. 장르별로 부여된 값과 선호도 가중치를 곱한 후, 그 결과를 합산하면 스필버그 감독이 <쥬라기 공원>에 가질 선호도를 계산할 수 있다.

IBM의 Watson

요구사항

IBM의 Watson에 대한 내용 및 그와 관련해 다루어진 인공지능 기술의 맥락이 무엇인지에 대해 서술할 것. 〔숀 게리시 지음/이수겸 옮김, 『기계는 어떻게 생각하는가』, 이지스퍼블리싱, 2019, 268-322쪽.〕을 기본 원고로 하여 기초 정보를 정리하되, 웹에서 추가적인 정보(텍스트, 이미지, 동영상 등)를 찾아서 보완할 것.

과제원고 : 아슈토시, 이만호, 임연

(내용 작성)

DeepMind의 AlphaGo

요구사항

DeepMind의 AlphaGo에 대한 내용 및 그와 관련해 다루어진 인공지능 기술의 맥락이 무엇인지에 대해 서술할 것. 〔숀 게리시 지음/이수겸 옮김, 『기계는 어떻게 생각하는가』, 이지스퍼블리싱, 2019, 323-384쪽.〕을 기본 원고로 하여 기초 정보를 정리하되, 웹에서 추가적인 정보(텍스트, 이미지, 동영상 등)를 찾아서 보완할 것.

과제원고 : 길혜빈, 윤석만, 임예찬

(내용 작성)

↑ IDBM의 장르 구분에 기초한다.

[1] IDBM의 장르 구분에 기초한다.

[1]

@@ 50번째 줄: / 50번째 줄: @@
 상술한 두 효과를 활용한 추천 엔진은 효과적이었으나 큰 문제를 가지고 있었다. 바로 고객의 개별성을 따지지 않고 무조건 유명하고 인기 있는 영화를 추천한다는 것이었다. 해당 엔진으로는 개인화된 추천 결과를 도출할 수 없었다. 만일 이용자가 B급 영화, 컬트 영화, 고전 영화, 어린이 영화 등을 좋아한다고 해도 무조건 유명하고 평점이 높은 영화를 추천했던 것이다. 즉, A 장르를 좋아하는 그룹, B 장르를 좋아하는 그룹, A와 B 모두를 좋아하는 그룹, 둘 다 좋아하지 않는 그룹 등 이용자들의 개인적 취향을 고려하는 '''터미네이터 효과'''를 만족시킬 필요가 있었다.<br/>
 *행렬 인수 분해(matrix factorization) : 참가자들은 넷플릭스 측에서 제공한 데이터가 사실상 '''중복된 정보를 다수 가지고 있는 거대한 행렬'''임에 주목했다. 중복된 정보는 개인화된 추천 기능을 제공하기 위한 기반이었다. 단순히 생각하자면, 공포 장르를 선호하는 이용자에게는 공포 장르를 추천했을 때 선호도가 높을 것이고, 코미디를 즐겨 보는 이용자는 코미디 장르를 선호할 것이라는 판단에서 비롯한 것이라 할 수 있다. 그러나 이러한 분석이 완전할 수는 없다. 같은 장르도 여러 분야로 구분될 수 있다는 점, 선호하는 장르에도 우선순위가 있다는 점, 장르가 복합된 영화가 존재한다는 점 등이 해당 분석 방식의 신뢰도를 낮춘다.<br/>
-이러한 문제점을 해결하며 행렬 인수 분해를 적용하기 위해 두 가지의 기반 데이터가 필요하다. 1)영화가 속하는 장르<ref>IDBM의 장르 구분에 기초한다.</ref>와 2)넷플릭스 이용자의 장르 선호도가 바로 그것이다.
+::이러한 문제점을 해결하며 행렬 인수 분해를 적용하기 위해 두 가지의 기반 데이터가 필요하다. 1)영화가 속하는 장르<ref>IDBM의 장르 구분에 기초한다.</ref>와 2)넷플릭스 이용자의 장르 선호도가 바로 그것이다.
 [[파일:행렬 인수.png|400px|섬네일|가운데|스필버그의 <쥬라기 공원> 선호도 계산]]
-행렬 인수 분해는 두 가지의 데이터에 기반하여 작동한다. 우선 <쥬라기 공원>이 속한 장르(SF, 모험)에 1이라는 값을, 속하지 않은 장르에 0이라는 값을 부여한다.< 그리고 스필버그 감독의 대략적인 선호도를 분석해 장르마다 각각의 가중치를 준다. 장르별로 부여된 값과 선호도 가중치를 곱한 후, 그 결과를 합산하면 스필버그 감독이 <쥬라기 공원>에 가질 선호도를 계산할 수 있다.<br/>
+::행렬 인수 분해는 두 가지의 데이터에 기반하여 작동한다. 우선 <쥬라기 공원>이 속한 장르(SF, 모험)에 1이라는 값을, 속하지 않은 장르에 0이라는 값을 부여한다.< 그리고 스필버그 감독의 대략적인 선호도를 분석해 장르마다 각각의 가중치를 준다. 장르별로 부여된 값과 선호도 가중치를 곱한 후, 그 결과를 합산하면 스필버그 감독이 <쥬라기 공원>에 가질 선호도를 계산할 수 있다.<br/>
 ----

"대표적인 인공지능 사례 살펴보기"의 두 판 사이의 차이

red

2020년 4월 13일 (월) 07:05 판

목차

Netflix의 Cinematch

요구사항

과제원고 : 김웅기, 김태형, 장민주

넷플릭스란 무엇인가?

넷플릭스 프라이즈는 무엇인가?

넷플릭스 프라이즈는 "왜" 필요했는가?

넷플릭스 프라이즈가 제시한 과제

넷플릭스 프라이즈의 진행(1년차)

IBM의 Watson

요구사항

과제원고 : 아슈토시, 이만호, 임연

DeepMind의 AlphaGo

요구사항

과제원고 : 길혜빈, 윤석만, 임예찬