오늘은 seq2seq을 간단히 리뷰해보고자 한다. seq2seq 모델은 LSTM을 기본단위로 한다. 기계번역에서 LSTM이 RNN보다 성능이 좋았던 이유를 돌아보면, LSTM은 두개의 정보 흐름을 사용한다는 것에 차이가 있었음을 알 수 있다. 하나는 셀 상태($C_t$)라고 불리는 장기기억 정보이고 다른 하나는 히든 상태($H_t$)라고 불리는 단기기억 정보이다. LSTM은 이 두가지 정보를 사용하여 문장의 장기의존성 문제를 해결한다. 그러나 기계번역의 문제점은 장기의존성 문제 뿐만이 아니다.기계번역의 가장 큰 문제점은 문장의 어순과 단어의 갯수가 불일치 한다는 것이다. 보는 바와 같이 해석되는 단어의 갯수와 해석하는 단어의 갯수가 일대일 대응하지 않기 때문에 번역에 있어서 어려움이 존재한다. seq2s..
최근 Recsys 분야의 추천은 전통적인 CF(협업 필터링), MF(행렬 분해) 알고리즘을 넘어 딥러닝으로 확장되고 있는 추세이다. 최근 많은 기업에서 GNN(Graph Neural Network) 알고리즘을 사용하고 있으며, 사용자의 선호도를 그래프 구조로 파악하고자 하는 연구의 흐름을 보이고 있다. 본인도 RecSys 관련 프로젝트를 하나 기획하고 있는데, 관계나 상호작용과 같은 추상적인 개념을 다루기에 적합한 GNN 알고리즘을 사용해볼 계획이기에 정리해보고자 한다. GNN(Graph Neural Network) 정리에 앞서 해당 알고리즘은 이름에서 볼 수 있듯 Graph 자료구조를 활용하는데, 우선적으로 Graph에 대한 정리를 한번 제대로 하고 가는 것이 이해에 도움이 될 듯하여 Graph 자료구..
최근 SHAP 논문을 리뷰해보았는데, 읽었음에도 불구하고 이해가 잘 되지 않는 부분이 많아서 강의를 통해 다시 한번 정리하고자 한다. Introduction 최근 딥러닝 모델이 복잡해짐에 따라 예측성능이 향상되고 있는데, 예측 성능이 높아지는 것은 고무적인 현상이지만 네트워크가 너무 복잡해지기 때문에 그 과정(Process)이 설명이 되지 않는 현상들이 발생한다.예측 결과도 좋으면서 그 과정을 설명까지 할 수 있다면, 굉장히 좋은 모델링이 될 수 있을 것이다. 최근에 설명가능한 인공지능 XAI에 대한 방법론들이 많이 등장하고 있는데, 그 중 대표적인 것이 바로 SHAP 방법론이다. Shapley addictive explanation (SHAP) 개념 소개 (SHAP은 게임 이론에 기반을 두는데 게임이론..
오늘은 설명가능한 AI에 대표적인 방법론인 SHAP 논문을 리뷰하려고 한다. Abstract 인공지능에서 모델이 예측한 결과를 이해하는 것은 중요하다. 그러나, 앙상블과 딥러닝 같은 복잡한 모델을 사용함으로써 large modern dataset에서 높은 정확도를 보이는 경우에는 정확도와 해석력 사이에 tention이 발생한다. 많은 방법론들은 복잡한 모델의 예측을 설명하기 위해 제안되고 있지만, 이러한 방법론들이 어떻게 연관되어 있고 한 방법론이 다른 방법론에 대해 언제 더 선호되는지에 대해 아직 명확하지 않는다. 때문에 해당 논몬에서는 SHAP 방법론을 제안한다. SHAP은 각각의 Feature에 특정한 예측에 대한 중요도(기여도)를 부여한 값이다. SHAP의 새로운 구성요소는 아래와 같다.The i..
오늘은 Facebook에서 만든 시계열 예측 라이브러리인 Prophet을 리뷰해보려고 한다. Introduction 논문에서 제시하는 실무에서의 비즈니스 예측 문제는 크게 아래 2가지이다.완전히 자동화되는 시계열 예측 테크닉은 tuning하기 어렵고 유용한 가정이나 경험적인 사실들을 반영하기가 어렵다.분석자는 도메인 지식은 풍부하지만, 시계열 예측에 대해서는 잘 알지 못한다. 위의 2가지 이유로 해당 논문에서는 아래 3가지 사항을 만족하는 시계열 모델을 만드는 것을 목표로 한다.첫 번째, 시계열 방법에 대한 교육을 받지 않은 비전문가도 사용할 수 있어야 함.두 번째, 잠재적 특징들을 시계열 모델에 반영할 수 있어야함.세 번째, 예측을 평가하고 다양하게 비교되도록 자동화 되어야 함. 많은 자동화 된 패..
지난 시간에 RNN에 대해 간단히 리뷰해보았는데, 오늘은 LSTM에 대해 리뷰하고자 한다.LSTM은 RNN처럼 시계열 데이터를 처리할 때 사용하는 신경망으로 RNN의 단점을 극복하기 위해 등장한 신경망이다. RNN의 약점 RNN은 시계열 데이터를 처리함에 있어서 '장기 의존성'에 대한 약점이 존재했다. 예를 들어 아래와 같은 RNN이 존재한다고 가정하자. 아래와 같이 Sequence가 짧은 경우에는 이전 정보들이 잘 업데이트가 되어갈 수 있다. 그러나, 만약 Sequence가 점점 길어지게 된다면, 초기정보들은 반복적인 곱하기 연산(Chain-Rule)으로 인해 기울기가 0으로 소실되어 간다. 이를 Vanishing Gradient 현상이라고 하는데, 이러한 현상은 시간적으로 먼 입력값일수록 학습에 미치..