최근 인과추론(Causal Inference)이라는 분야에 대해 관심을 가지게 되서 인과추론에 대해 자세히 설명해놓은 자료인 을 정리하고자 한다. 앞서 통계적인 언어가 많이 나와서 한번에 정리하고 글을 시작한다.ITE: 개별 처치 효과실험 대상 i에 처치가 결과에 미치는 영향을 의미$ITE = Y_i(1) - Y_i(0)$ATE, (Average Treatment Effect): 평균 처치 효과개별 처치 효과에 대한 평균$ATE = E[Y_1 - Y_0]$ATET/ATT(Average Treatment Effect on the treated): 처치받은 그룹에 대한 평균 처치 효과$ATT = E[Y_1 - Y_0|T = 1]$ex) T = 1인 그룹에 대한 ITE 평균 Machine Learning(상관..
RNN 구조Recurrent Neural Network(RNN)은 시계열 데이터와 같은 연속적인 정보를 처리할 때 많이 사용되는 신경망이다. RNN은 기본적으로 과거의 정보를 기억하면서 새로운 정보를 처리하는 방식으로 작동한다(CNN이 공간적 특징을 추출하여 학습한다면, RNN은 시계열 데이터의 시간적 특징을 추출하여 학습한다고 보면 된다!)특히 RNN은 LSTM과 Transformer의 발전에 굉장히 중요한 역할을 하기 때문에, 정확하게 알아둘 필요가 있다. RNN은 입력 벡터 X를 받아 내부적 연산을 통해서 출력 벡터 y_hat을 출력하는 순전파(feedforward)과정을 가진다. RNN에서 시계열 데이터를 처리하는 것은 뇌의 기억(Memory)을 모방하는 것과 유사하다. 특정 단어를 번역할 때, ..
태블로는 다양한 필터를 가지고 있다. 필터를 통해 다양한 인사이트 추출이 가능하며, 동적으로 바로바로 확인할 수도 있다. 그만큼 태블로에 있어서 필터는 중요하기 때문에, 한번 정리해보고자 한다. 아래 예시는 모두 Sample SuperStore를 사용하였다. 필터의 종류 태블로에서는 추출 필터, 데이터 원본 필터, 차원 필터, 측정값 필터, 컨텍스트 필터, 테이블 계산 필터의 총 6가지 필터를 이용할 수 있다. 필터의 작동 순서는 아래와 같으며, 추출 필터가 가장 우선적으로 작동하고 테이블 계산 필터가 가장 나중에 사용됨을 확인할 수 있다. 눈치가 빠른 사람은 알 수 있겠지만, 결국 필터의 사용 순서에 따라 결과도 달라진다는 것을 확인할 수 있다. 추출 필터 추출 필터는 데이터의 원본 소스에서 데이터의 ..
태블로의 날짜 데이터는 연속형 & 불연속형으로 구분이 된다. 어떤 기준으로 연속형, 불연속형으로 각각 분리가 되는 것일까? 한번 같이 알아보자.! 날짜 형식의 연속형과 불연속형 태블로에서는 연속형(Continuous)과 불연속형(Discrete)의 날짜 형식을 모두 표현할 수 있다. 태블로의 날짜 데이터는 년 > 분기 > 월 > 일 > 시 > 분 > 초 순으로 계층적인 구조를 가지고 있다.결론부터 말하자면 불연속형 날짜 데이터에서 날짜 계층들은 서로 독립적이고 연속형 날짜 데이터는 다른 계층들에 귀속된다. 태블로 추가 메뉴의 초록색 박스에 해당하는 년, 분기, 월, 일은 불연속 형에 해당하는 옵션이고 아래 노란색 박스에 해당하는 년, 분기, 월, 일은 연속형에 해당하는 옵션이다. 해당 옵션을 살펴보면 불..
생각보다 데이터를 보면서 사람들 앞에서 발표해야 할 경험들이 많았고 시각화가 발표에 있어서 전달력을 높여줄 수 있는 도구라고 생각해왔다. 그래서 계속 공부할 생각만 하고 있었는데, 이번에 마침 BOAZ에 합격하여 태블로 시각화 툴을 다루게 되어 앞으로 태블로와 시각화에 대해서 정리해보고자 한다. 좋은 시각화 항상 시각화라고 다 좋은 시각화는 아니며, 비전공자도 살펴보면 한번에 이해할 수 있는 시각화를 어떻게 하면 만들어낼 수 있을까에 대한 고민이 있었다. BOAZ 시각화 세션을 통해 좋은 시각화에 대한 정의를 3가지로 정의할 수 있었다. 수치, 통계적 결과만으로는 보이지 않는 패턴 파악이 가능한 시각화.전문적인 지식 없이도 쉽게 이해할 수 있는 시각화강력한 프레젠테이션을 통해 해당 정보의 영향력을 강화할..