[Causal Inference] 유용한 선형회귀

이전 글과 이어지는 내용입니다.

https://baram1ng.tistory.com/44

 

[Causal Inference] 인과추론 기초 & 무작위 실험

KHUDA 활동을 통해서 이번에 인과추론 스터디를 진행하게 되었는데, 앞으로 해당 블로그에 정리 내용을 업로드 해보고자 한다. 아래 글은 해당 도서 내용을 나만의 방식으로 정리한 글이다.https:/

baram1ng.tistory.com


 

선형회귀의 필요성

 

선형 회귀는 인과추론의 강력한 모델이며, 이에 대해 알아보기로 한다.

 

모델이 필요한 이유

 

대출 금액이나 신용카드 한도가 채무불이행률에 미치는 영향에 대한 예시를 통해 회귀분석의 필요성을 알아보자.

 

보통, 신용카드 한도를 늘리면 신용카드 대급미납률이 높아질 것이라고 생각한다. 그러나, 실제 은행 데이터에는 신용 한도와 채무불이행률 사이의 비정상적인 음의 상관관계가 존재한다. 이러한 음의 상관관계는 교란편향의 영향 때문이다. (보통 채무불이행 가능성이 낮다고 판단되는 사람에게 더 높은 신용 한도를 설정하기 때문)

 

은행은 채무불이행의 고유 위험은 알 수 없지만, 소득이나 신용점수 같은 대리변수 $X$를 사용하여 채무불이행에 대한 고유 위험을 파악할 수 있다.

보정 공식을 활용하여 처치가 무작위 배정된 것처럼 변수를 보정할 수 있지만, 이런 보정 공식을 그대로 적용하면 상황이 나빠질 수 있다. 때문에 데이터를 특성 $X$에 따라 여러 그룹으로 나눠야 한다. (같은 속성을 갖는 X에 따라 그룹을 나누면 어느정도 보정효과가 나타남)

 

그러나 이는 특성이 매우 적을 때는 문제가 되지 않지만, 특성이 많고 연속형 특성이라면 이는 차원의 저주로 이어질 수 있다. 차원의 저주 때문에 공변량이 많을 때 그대로 보정 공식을 사용하게 되면 데이터 희소성 문제를 겪을 수 있는 가능성이 생기게 된다.

 

차원의 저주에서 벗어나는 방법은 잠재적 결과를 선형회귀 같은 방법으로 모델링 가능한다고 가정하고 X로 정의된 각각의 셀을 내삽(보간)하고 외삽(보외)하는 것이다. 이러한 개념에서 선형회귀분석은 차원 축소 알고리즘으로 생각할 수 있다.

 

A/B 테스트와 회귀분석

 

A/B 테스트와 회귀분석간의 관계를 예시를 통해 알아보자.

 

온라인 스트리밍 회사에서 추천 시스템을 개선하는 상황에서 새로운 추천 시스템이 스트리밍 서비스의 시청 시간을 늘릴 수 있는지 확인해보자.

 

일부 고객 표본을 추출하고 표본에서 무작위로 1/3을 골라 새 추천 시스템을 적용하고 나머지는 기존 추천 시스템을 사용하게 해보고 한 달 후 하루 평균 시청 시간 결과를 수집한다고 하자.

 

아래는 무작위로 배정되었기에 버전 간의 평균 시청 시간의 비교만으로 ATE를 알 수 있다. 이전에는 통계적 유의성을 확인하기 위해 표준오차를 계산하고 신뢰구간을 구해야 했지만 이를 회귀분석으로 해석하면 필요한 모든 추론 통계량을 바로 얻을 수 있다.

 

우리는 아래 모델을 추정한다. challenger는 새로운 추천 시스템이 적용되면 1, 아니면 0이다. 이 모델을 추정할 때 새로운 버전의 효과는 $B_1$의 추정값인 B_hat이 된다.

$$WatchTime_i = B_0 + B_1 challenger_i + e_i$$

 

회귀모델을 돌려보면 아래와 같은 값이 나온다. (Python statsmodels API 사용)

 

절편은 $B_0$ 매개변수에 대한 추정값으로 이전 버전의 추천 시스템을 사용한 고객들의 예상 시청 시간이고 매개변수 추정값 $B_1$_hat은 새로운 추천 시스템과 관련된 매개변수로 새로운 버전 사용에 따른 시청 시간 증가(ATE)를 의미한다. $B_0$_hat + $B_1%은 새로운 버전을 이용한 고객 시청 시간의 추정값이다. 아직 결과가 통계적으로 유의하다고 보기는 어렵지만, 회귀분석을 통해 ATE, 신뢰구간, p-value를 얻을 수 있음을 확인할 수 있다.

 

회귀분석을 통한 보정

 

이전 예시로 돌아가서 신용한도가 채무불이행률에 미치는 영향을 추정하는 상황을 보자.

 

여기서 처치($T$)인 credit_limit은 너무 많은 범주를 포함하기에 연속형 변수로 처리하는 것이 좋다. 이 때 ATE를 여러 처치 수준 간의 차이로 표현하는 대신 기대 결과에 대한 도함수로 표현할 수 있다. (처치 t에 대해 미분하면 결국 $B_1$만 남기 때문)

 

이런 추정량을 추정하기 위해 회귀분석이 사용될 수 있다. 우리는 아래와 같은 모델을 추정하고자 한다.

$$Default_i = B_0 + B_1 line_i + e_i$$

여기서 추정된 $B_1$ hat은 신용 한도가 1달러 증가할 때 채무불이행률이 얼마나 변할지에 대한 기댓값이다. 신용한도가 무작위로 배정되었다면 유효한 인과해석이 가능했겠지만, 은행은 위험이 적은 고객에게 더 높은 한도를 주는 경향이 있기에 음의 추정값이 나오게 된다.

 

이 편향을 보정하기 위해 이론적으로 모든 교란 요인에 따라 아래 단계를 따른다.

  1. 데이터를 나누고
  2. 나눈 각 그룹 내에서 채무불이행률을 신용 한도에 회귀하고
  3. 기울기 매개변수 추출을 통해 결과의 평균을 구한다.

 

그러나 차원의 저주로 인해 해당 표본으로는 회귀할 수 없다. 때문에 교란 요인을 직접 보정하는 대신, 회귀분석으로 추정할 모델에 대해 단순히 교란 요인을 추가한다.

$$Default_i = B_0 + B_1 line_i + θ X_i + e_i$$

  • X: 교란 요인의 벡터
  • θ: 교란 요인과 관련된 매개변수의 벡터

여기서 θ 매개변수는 단순히 편향되지 않는 $B_1$의 추정값을 얻는 데 도움이되는 매개변수로 장애모수라고 부른다. (신경쓰지 않아도 되는 변수로, 교란 요인을 추가하여 편향을 감소시키기 위해 사용)

 

신용 한도 예제에서 아래와 같이 교란 요인을 회귀분석 모델에 추가할 수 있다.

(여기서 line은 아마 교란 요인 추가 전 기존 회귀모형을 의미한 것이라고 생각, 우리가 구하고자 하는 것은 $B_1$)

 

우리는 이 모델을 처치인 신용 한도(T, 처치)에 대해 미분하게 되면 $B_1$의 미분 결과를 얻을 수 있으며 이 $B_1$은 모델의 다른 모든 변수가 고정된 상태에서 신용 한도를 조금 늘렸을 때 채무불이행률이 얼마나 변할지에 대한 기댓값으로 알 수 있다. 교란 요인을 통제함으로써 결과가 우리의 직관과 더 맞게 변화했음을 확인할 수 있다. (credit_limit이 양수로 변화)

 

프리슈-워-로벨(FWL) 정리와 직교화

 

FWL 참고 링크

https://minman2115.github.io/ML5/

 

부분회귀 기초개념

.

minman2115.github.io

 

프리슈-워-로벨(FWL) 정리는 편향을 훌륭하게 제거하는 또 다른 방법이다. 이는 편향 제거의 전처리 단계에서 사용할 수 있기 때문에 더 유용하다. FWL 정리를 사용하면 편향 제거 단계영향 추정 단계를 분리할 수 있다. 

 

FWL 스타일의 직교화는 가장 먼저 사용할 수 있는 편향 제거 기법이다. FWL 정리에 따르면, 다중선형회귀분석은 한 번에 추정하거나 세 단계로 나누어 추정할 수 있다.

 

먼저, 한번에 채무불이행률 Default를 credit_limit, wage, credit_score1, credit_score2에 대해 회귀할 수 있다. 그리고 그 결과는 아래와 같다.

 

두 번째로 FWL 정리에 따르면 추정 과정을 아래와 같이 3단계로 나눌 수 있는데, 이는 결국 다중선형회귀분석과 동일한 과정이다.

 

편향 제거 단계

 

처음에 교란편향의 영향으로 신용 한도에 따라 채무불이행률이 감소하는 추세를 보였다. FWL 정리에 따르면 교란 요인(X)으로부터 처치인 신용한도를 예측하는 회귀 모델을 적합시켜 데이터의 편향을 제거할 수 있다. 그러면 모델의 교란 요인에 대한 신용 한도의 잔차(설명할 수 없는 부분)를 구하게 된다. (필요에 따라 평균 처치인 line bar를 추가)

 

그 다음 default(Y ,결과 변수)를 편향 제거(잔차화)된 처치인 line 물결표시에 회귀하면, 편향 제거 모델에 사용된 교란 요인들을 통제하면서 신용 한도가 채무불이행률에 미치는 영향을 파악할 수 있다. 이 때 $B_1$의 추정값은 처치와 교란 요인을 모두 포함한 완전 모델을 실행한 값과 같다.

 

그러나 p-value가 이전 보다 높은데, 이는 잡음 제거 단계를 거치지 않았기 때문이다. (그러나 편향 제거 단계만 적용해도 편향되지 않는 추정값을 얻을 수 있다.)

 

잡음 제거 단계

 

사실, 편향 제거 단계가 가장 중요하며 잡음 제거 단계는 처치효과의 추정값을 바꾸진 않고 분산을 줄이는 과정에 가깝다.

 

이 단계에서는 결과를 처치가 아닌 공변량에 대해 회귀하고 Default에 대한 잔차를 얻는다.

 

잡음과 관련하여 회귀 표준오차 계산법을 알아볼 필요가 있다. 그 공식은 아래와 같다.

  • ε hat: 회귀 모델의 잔차
  • DF: 모델의 자유도(모델이 추정하는 매개변수의 수)

 

이 오차는 잔차화된 처치의 분산에 반비례한다. (추후 추가 설명)

 

최종 결과 모델

 

FWL 정리의 마지막 단계인 결과 모델에서는 Y와 T의 잔차를 이용하여 단순히 Y의 잔차를 T의 잔차에 대해 회귀하면 된다. 그리고 그 결과는 아래와 같다.

 

편향 제거된 처치와 잡음 제거된 결과 간의 관계를 최종 모델의 예측값과 함께 그래프로 나타내면 아래와 같다.

 

FWL 정리 요약

 

처치 T와 결과 Y 사이의 관계를 추정하고 싶지만, 교란 요인 X가 존재한다고 생각해보자. 아래 그래프에서 처치는 x축, 결과는 y축에 표시하고 교란 요인은 색을 사용해 표시한다. 

 

데이터의 편향을 제거해보자. 이를 위해 먼저 선형회귀분석을 사용하여 $E[T|X]$를 추정한다. 그 다음 편향이 제거된 버전인 $T - E[T|X]$를 구한다. 그럼에도 불구하고 잡음이 많음을 확인할 수 있다.

 

회귀 모델을 사용하여 $E[Y|X]$를 추정하고 잡음이 제거된 결과 $Y - E[Y|X]$를 만든다. X가 Y의 분산을 많이 설명하면, 잡음이 제거된 결과에는 잡음이 적어지기 때문에 실제로 관심이 있는 T와 Y 사이의 관계를 더 쉽게 파악할 수 있다.

 

마지막으로 편향과 잡음을 제거한 T와 Y 사이의 양의 관계를 볼 수 있다.

 

결과 모델로서의 회귀분석

 

회귀분석은 처치를 직교화하는 방식외에도 잠재적 결과를 대체하는 방법으로 볼 수 있다.

 

처치가 0 or 1의 이진값으로 주어질 때 대조군($T = 0$)에서 X에 대한 Y의 회귀분석이 $E[Y_0|X]$를 잘 근사한다면, 해당 모델을 이용하여 $Y_0$를 대체하고 ATT를 추정할 수 있다.

  • $N_1$: 실험군 대상자 수

 

마찬가지로 실험군($T = 1$)에서 X에 대한 Y의 회귀분석이 $E[Y_1|X]$를 잘 모델링할 수 있다면, 대조군에서의 평균 효과를 추정할 수 있다. 이 두 접근법을 병행하면 ATE를 추정할 수 있다. 이 추정량은 모든 실험 대상의 두 가지 잠재적 결과를 모두 대체한다.

 

더불어 이를 이용해 누락된 잠재적 결과를 대체할 수 있다.

 

 

양수성과 외삽

 

회귀분석은 잠재적 결과를 모수적으로 모델링하기 때문에, 데이터의 처치 범위 이외에 대해서 외삽이 가능할 수 있다.

 

아래 데이터셋 1은 중첩이 적은 데이터셋에서 처치효과를 추정한 경우다. 데이터셋 1에서 공변량 x가 클 땐 대조군(T=0)이 존재하지 않고, 작을 때는 실험군(T=1)이 없다. 이를 회귀분석하면 아래와 같은 선인 $Y_0$과 $Y_1$를 추정한다. x가 작을 때 대조군에 적합시킨 $Y_0$과 x 간의 관계가 x가 클 때도 유효하고 실험군에 적합시킨 $Y_1$이 x가 작을 때도 외삽할 수 있다면(결과 추세선이 비슷) 약간의 외삽은 문제가 되지 않는다.

 

그러나 문제는 지나친 외삽인 경우다. 데이터 2에서는 x가 양수일 때 효과가 점점 커지는 것을 볼 수 있다. 데이터셋 1에 적합시킨 모델을 데이터셋 2에 대해 평가하면 처치의 실제 효과보다 크게 과소평가했음을 알게 된다. 때문에 양수성 가정이 충족되지 않을 경우 회귀분석은 외삽을 통해 해당 가정이 충족되지 않는 영역을 대체하게 된다는 것을 알 수 있다.

 

선형회귀에서의 비선형성

 

 지금까지는 굉장히 선형적인 상황만을 보았는데, 실제로는 선형적이지 않은 상황이 대부분이다.

 

이전 신용 한도와 신용카드 소비에 미치는 인과효과에 대한 예제로 살펴보자. 여기서 유일한 교란 요인임금이라고 가정해보자. (은행에서 신용한도를 결정할 때 유일하게 임금 정보만을 사용한다는 의미)

 

신용 한도가 소비에 미치는 영향을 파악하기 위해선 임금을 통제해야 한다. 효과 추정에 직교화를 사용하고 싶다면 신용 한도를 임금에 회귀하고 그 잔차를 구해 신용 한도의 편향을 제거해야 한다. 그러나 아래 그래프를 보면 여기선 두 변수 사이의 관계가 선형적이지 않다는 문제가 있다. 오히려 신용 한도가 높을 수록 곡선의 기울기가 낮아진다.

 

처치 선형화

 

위 문제를 해결하기 위해 처치를 결과와 선형 관계로 변환해야 한다. 예를 들어 두 변수(소비 - 신용 한도)의 관계가 오목하기에 신용 한도에 오목 함수를 적용하여 선형 관계로 변환할 수 있다.

 

만약 위와 같이 처치를 가장 잘 선형화하는 함수를 찾으면 해당 함수를 적용한 선형회귀모델을 실행할 수 있다. (여기서는 제곱근 함수를 사용한다.) 그 결과 우리는 아래와 같은 모델을 추정한다. 여기서 우리가 찾을 인과 매개변수는 $B_1$이다.

 

이를 당장 추정하면 아래와 같은 매개 변수를 찾을 수 있다.

 

그러나 우리는 여기서 한 단계 더 나아가 임금이 신용 한도와 소비 사이에서 교란 요인으로 작용하고 있다는 점을 짚고 넘어갈 필요가 있다.  때문에 모델에 임금을 포함하면 아래와 같은 모델을 추정하게 된다.

 

그리고 다시 $B_1$를 추정하면 임금 수준이 소비에 미치는 영향의 편향되지 않은 추정값을 얻을 수 있다.

 

비선형 FWL과 편향 제거

 

비선형 데이터에 FWL 정리를 적용하는 것은 선형과 동일하며, 그 전에 먼저 비선형 처리를 해야한다. 그 단계는 아래와 같다.

(여기서 $F$는 이전과 같이 제곱근 함수)

 

FWL 정리를 적용한 결과는 아래와 같다.

 

$B_1$의 추정값이 앞서 교란 요인인 임금과 처치를 모두 포함한 완전모델을 실행하여 얻은 추정값과 완전히 동일하다. 아래 그래프를 보면 임금 그룹의 중간을 정확히 통과한 예측값을 확인해볼 수 있다.

 

더미변수를 활용한 회귀분석

 

회귀분석과 직교화는 결국 독립성 가정을 해야한다. 이를 위해 무작위로 배정하여 실험하는 편이 좋지만, 이는 큰 비용으로 이어질 가능성이 있다. 때문에 보통 다른 방법을 찾아 이 난관을 해결한다.

 

조건부 무작위 실험

 

계층화 또는 조건부 무작위 실험은 모든 고객에게 동일한 확률 분포에서 완전히 무작위로 신용 한도를 설정하여 실험을 설계하는 대신, 고객 공변량에 따라 서로 다른 분포에서 표본을 뽑아 여러 국소 실험을 만든다.

 

예를 들어 credit_score1이라는 변수는 고객 위험도의 대리변수임을 알고 있기에 이 변수를 사용하여 위험도에 따른 고객 그룹을 생성할 수 있다. (credit_score1이 비슷한 고객들을 묶는다)

  • credit_score1이 낮은 고위험 그룹은 평균이 낮은 분포에서 신용 한도를 추출하여 무작위로 배정
  • credit_score1이 높은 저위험 그룹은 평균이 높은 분포에서 신용 한도를 추출하여 무작위로 배정

 

고객 별로 나눈다음 신용 한도의 히스토그램을 표시하면 점수가 높은 고객은 오른쪽으로 치우치고 점수가 낮은 고객은 왼쪽으로 치우치는 것을 확인할 수 있다.   

 

그렇다고 조건부 무작위 실험이 완전 무작위 실험보다 낫다는 의미는 아니며 실험 비용은 낮지만 더 복잡하다는 단점이 존재한다. 때문에 조건부 무작위 실험을 선택한다면, 가능한 한 완전 무작위 실험에 가깝게 설계해야한다.

(이 부분은 나중에 공부하면서 더 찾아봐야겠다)

 

더미변수

 

조건부 무작위 실험의 장점은 설정한 범주형 변수에 따라 신용 한도가 무작위로 배정됨을 알기에 조건부 독립 가정에 훨씬 더 설득력이 생긴다는 것이다. 그러나, 실험군에 대한 결과만으로 단순 회귀분석을 하게되면 편향된 추정값을 얻게 된다는 단점이 존재한다. 이는 실험이 설계된 방식으로 인해 위험도가 낮은 고객이 평균적으로 더 높은 한도를 받았기 때문이다.

 

이를 보정하기 위해 모델에 처치가 무작위로 배정된 그룹 정보를 포함해야 한다. 여기서 credit_score1_buckets를 통제해야 하는데, 이 그룹이 숫자로 표현되지만 실제로는 범주형 변수이기에 더미변수(가변수)를 통해 그룹을 통제한다. (그룹에 속하면 1, 그렇지 않으면 0, 머신러닝에서의 원-핫 인코딩)

 

더미 변수를 추가한 값은 아래와 같다.

 

더미변수열을 모델에 추가하고 $B_1$를 다시 추정하면 훨씬 타당한 값을 구할 수 있다. 이를 통해 신용한도가 높을수록 채무불이행 위험이 높아지는 것을 확인할 수 있다. (G는 credit_score1_buckets의 더미변수)

 

포화회귀모델

 

이진 처치에 대한 회귀분석은 실험군과 대조군의 평균을 비교하는 것과 같은데, 더미변수도 이진값이기에 같은 논리가 적용될 수 있다.

 

조건부 무작위 실험의 데이터를 credit_score1_buckets에 따라 나누고 그룹별 효과를 알 수 있지만, 이를 회귀분석에서의 포화모델을 통해 똑같이 수행할 수 있다. 

 

더미변수와 처치에 대한 상호작용 항에서 각 더미변수에 해당하는 그룹의 인과효과를 추정할 수 있다.

(분산의 가중평균, 회귀분석 / 평균 제거와 고정효과에 대해 추가 정리 필요)

 

누락 변수 편향

 

공통 원인(교란 요인)이 처치와 결과 간의 추정 관계를 편향시킬 수 있다고 했다. 때문에 회귀 모델에 이런 요인을 포함하여 다뤄야 한다. 회귀분석은 교란편향에 대해 더 정확히 다루게 해준다.

 

신용한도가 채무불이행률에 미치는 영향을 추정할 때 임금이 유일한 교란 요인이라고 생각해보자.

 

 

이 경우 교란 요인을 포함한 모델을 추정해야 한다. 그러나, 만약 교란 요인이 누락된 축소모델을 추정하면 이 추정값은 편향되게 된다.

 

회귀분석을 통한 누락 변수 편향(OVB)은 아래와 같이 3가지로 정의할 수 있다.

  • 누락 변수가 포함된 전체 모델의 회귀계수 더하기
  • 결과에 미치는 누락 변수의 효과 곱하기
  • 누락 변수를 포함된 변수에 회귀하는 모델의 회귀계수

 

이는 T에 대한 Y의 단순회귀분석이 인과 매개변수(t)에 편향을 더한 결과임을 알 수 있다. 

 

이 편향식은 결과에 대한 누락 요인의 회귀계수와 처치에 대한 누락 변수의 회귀계수를 곱한 값이다.

 

중립 통제변수

 

우리는 회귀분석을 통해 교란 요인을 보정하는 방법에 대해 알게 되었다.

  • 교란 요인 X를 보정하면서 처치 T가 Y에 미치는 영향을 알고 싶으면 모델에 X를 포함
  • X를 사용해 T를 예측한 후 잔차를 구하고 이 잔차를 편향 제거된 처치로 사용

 

그렇다면 X에 어떤 변수를 포함하는 것이 좋을까를 생각해본다면 모든 변수를 회귀 모델에 포함시키는 것은 바람직하지 않다. 더불어 공통 효과(충돌부)나 매개자는 선택편향을 유발할 수 있기에 포함하지 않는 것이 좋다. 반면 우리는 일부 변수가 무해해 보이지만 실제로 해로울 수 있는 통제변수들을 고려해야 한다. 이는 회귀분석의 편향에 영향을 미치지는 않지만 분산에 심각한 영향을 줄 수 있다. 더불어 우리는 회귀 모델에 특정 변수를 포함할 때는 편향-분산 트레이드오프가 존재한다는 점을 인지해야 한다.

 

아래 DAG를 고려해보자. 여기서 credit_score2를 포함하게 되면 아래와 같은 값을 얻을 수 있다.

 

아래 값을 보면 credit_limit의 추정값이 조금 커짐을 알 수 있다. 그리고 더불어 표준오차가 감소했다. 왜냐하면 credit_score2가 결과 Y를 잘 예측하고 선형회귀의 잡음 제거 단계에 기여하기 때문이다.

 

선형회귀분석은 아래와 같이 교란 요인을 보정하는 것에 더하여 잡음을 줄이는 것에도 사용할 수 있다. 결과를 예측하고 선택편향을 유발하지 않는 변수를 포함한다면 여전히 회귀분석은 잡음을 줄이는 도구로 사용할 수 있다.

 

잡음 유발 통제변수

 

통제변수는 잡음을 줄일 수 있지만 잡음을 늘릴 수도 있다.

 

이번엔 신용 한도가 위험도가 아닌 소비에 미치는 영향을 추정해보자. 이전 예제에서처럼 credit_score1이 주어졌을 때 신용 한도는 무작위로 배정되었다. 그러나 이번에 credit_score1이 교란 요인이 아니라고 가정하자. 즉, credit_score1은 처치의 원인이지만 결과의 원인은 아니라고 생각해보자.

 

데이터 생성 과정의 인과 그래프는 아래와 같다.

 

이때 신용 한도가 지출에 미치는 인과효과를 얻기 위해 credit_score1을 보정할 필요가 없다. (결과의 원인이 아니기 때문)

 

credit_score1를 포함하지 않으면 아래와 같은 값을 얻을 수 있다.

 

반면 credit_score1을 포함하면 표준오차가 증가하여 인과 매개변수의 신뢰구간이 넓어졌음을 확인할 수 있다 즉, 처치를 설명하는 공변량을 통제하면 효과적으로 분산을 줄일 수 있음을 확인할 수 있다.

 

편향-분산 트레이드 오프

 

보통 공변량이 처치에 영향을 주지만 결과에는 영향을 주지 않는 경우를 거의 찾아보기 어렵다. 때문에 대부분 공변량은 보정해야 하는 교란 요인이기 때문에 모든 편향을 제거하기 위해 공변량을 포함하는 것이 좋지만 이런 공변량을 보정하면 추정량의 분산이 증가하게 된다.

 

그러나 이러한 상황에서 만약 교란 요인 중 하나가 처치의 강력한 Predictor이면서 결과의 약한 predictor임을 알면 모델에서 제외할 수 있다. 추정값이 약간 편향되긴 하지만 분산을 크게 줄인다는 이점이 있기에 Trade-off를 고려한 결과 가치가 있다고 볼 수 있다.

 

기본적으로 모델에 더 많은 교란 요인을 포함(보정)할수록 인과 추정량의 편향을 줄어든다. 그러나, 결과 예측력은 약하지만 처치 예측력이 강한 변수를 포함하면 편향이 감소하는 대신 분산이 증가한다는 Trade-Off가 존재한다. 그러나 모든 교란 요인이 동일한 영향을 주는 것은 아지만 처치를 잘 설명하고 결과를 거의 설명하지 않는다면 보정 대상에서 배제하는 것이 좋다.


Reference

https://product.kyobobook.co.kr/detail/S000212577153