이전 글과 이어지는 내용입니다.https://baram1ng.tistory.com/44 [Causal Inference] 인과추론 기초 & 무작위 실험KHUDA 활동을 통해서 이번에 인과추론 스터디를 진행하게 되었는데, 앞으로 해당 블로그에 정리 내용을 업로드 해보고자 한다. 아래 글은 해당 도서 내용을 나만의 방식으로 정리한 글이다.https:/baram1ng.tistory.com 선형회귀의 필요성 선형 회귀는 인과추론의 강력한 모델이며, 이에 대해 알아보기로 한다. 모델이 필요한 이유 대출 금액이나 신용카드 한도가 채무불이행률에 미치는 영향에 대한 예시를 통해 회귀분석의 필요성을 알아보자. 보통, 신용카드 한도를 늘리면 신용카드 대급미납률이 높아질 것이라고 생각한다. 그러나, 실제 은행 데이터에는 신..
KHUDA 활동을 통해서 이번에 인과추론 스터디를 진행하게 되었는데, 앞으로 해당 블로그에 정리 내용을 업로드 해보고자 한다. 아래 글은 해당 도서 내용을 나만의 방식으로 정리한 글이다.https://product.kyobobook.co.kr/detail/S000212577153 실무로 통하는 인과추론 with 파이썬 | 마테우스 파쿠레 - 교보문고실무로 통하는 인과추론 with 파이썬 | 데이터 기반의 통찰력 있는 의사결정을 위한 인과추론, 효율적인 영향력 분석을 통한 성공적인 비즈니스 정책 결정온라인 마케팅 예산을 1달러 높이면 구product.kyobobook.co.kr인과추론 Intro 인과관계 != 연관관계 "연관관계는 인과관계가 아니다." 인과관계는 파악하기 까다롭고 때문에 사람들은 연관관계를..
오늘은 Seq2Seq에 이어 Attention 개념을 설명해보고자 한다. seq2seq 모델에는 치명적인 단점이 존재한다. 만약, 입력 Sequence의 길이가 많이 길어지게 되면 한정된 길이의 Context Vector에 모든 입력 시퀸스의 정보를 담기가 상당히 어려워진다. 이러한 문제를 해결하기 위해 Attention 매커니즘이 활용된다. Attention 매커니즘은 디코더가 출력 시퀸스의 단어들을 생성할 때, 입력 시퀸스의 어떤 부분이 중요한지를 주목(attention)하게 만드는 알고리즘이다. Attention 매커니즘은 모델이 훨씬 더 긴 시퀸스를 처리할 수 있게하고 번역 품질을 개선하는 등 여러 이점을 제공하며, 특히 복잡한 문장 구조나 먼 거리의 의존성을 가진 언어 작업에서 효과가 눈에 띄..
오늘은 seq2seq을 간단히 리뷰해보고자 한다. seq2seq 모델은 LSTM을 기본단위로 한다. 기계번역에서 LSTM이 RNN보다 성능이 좋았던 이유를 돌아보면, LSTM은 두개의 정보 흐름을 사용한다는 것에 차이가 있었음을 알 수 있다. 하나는 셀 상태($C_t$)라고 불리는 장기기억 정보이고 다른 하나는 히든 상태($H_t$)라고 불리는 단기기억 정보이다. LSTM은 이 두가지 정보를 사용하여 문장의 장기의존성 문제를 해결한다. 그러나 기계번역의 문제점은 장기의존성 문제 뿐만이 아니다.기계번역의 가장 큰 문제점은 문장의 어순과 단어의 갯수가 불일치 한다는 것이다. 보는 바와 같이 해석되는 단어의 갯수와 해석하는 단어의 갯수가 일대일 대응하지 않기 때문에 번역에 있어서 어려움이 존재한다. seq2s..
최근 Recsys 분야의 추천은 전통적인 CF(협업 필터링), MF(행렬 분해) 알고리즘을 넘어 딥러닝으로 확장되고 있는 추세이다. 최근 많은 기업에서 GNN(Graph Neural Network) 알고리즘을 사용하고 있으며, 사용자의 선호도를 그래프 구조로 파악하고자 하는 연구의 흐름을 보이고 있다. 본인도 RecSys 관련 프로젝트를 하나 기획하고 있는데, 관계나 상호작용과 같은 추상적인 개념을 다루기에 적합한 GNN 알고리즘을 사용해볼 계획이기에 정리해보고자 한다. GNN(Graph Neural Network) 정리에 앞서 해당 알고리즘은 이름에서 볼 수 있듯 Graph 자료구조를 활용하는데, 우선적으로 Graph에 대한 정리를 한번 제대로 하고 가는 것이 이해에 도움이 될 듯하여 Graph 자료구..
최근 SHAP 논문을 리뷰해보았는데, 읽었음에도 불구하고 이해가 잘 되지 않는 부분이 많아서 강의를 통해 다시 한번 정리하고자 한다. Introduction 최근 딥러닝 모델이 복잡해짐에 따라 예측성능이 향상되고 있는데, 예측 성능이 높아지는 것은 고무적인 현상이지만 네트워크가 너무 복잡해지기 때문에 그 과정(Process)이 설명이 되지 않는 현상들이 발생한다.예측 결과도 좋으면서 그 과정을 설명까지 할 수 있다면, 굉장히 좋은 모델링이 될 수 있을 것이다. 최근에 설명가능한 인공지능 XAI에 대한 방법론들이 많이 등장하고 있는데, 그 중 대표적인 것이 바로 SHAP 방법론이다. Shapley addictive explanation (SHAP) 개념 소개 (SHAP은 게임 이론에 기반을 두는데 게임이론..