인과 추론(Causal Inference)이란?
기계학습 관점에서 우리는 "고객이 상품을 구매할 것인가?"를 궁금해왔다.
따라서 구매라는 결과 변수와 연관성이 있는 다양한 특성 변수를 활용하여 고객의 구매 여부를 예측해왔다.
하지만 이러한 예측 모델에서 얻은 결과로 고객의 '구매 의도'를 파악하긴 어렵다.
고객이 구매하기까지 관측된 현상으로 구매 여부를 예측한 것이기 때문에 예측에 활용된 특성 변수들이 고객이 상품을 구매하게 되는 원인이라고 볼 순 없다.
즉, 구매 원인이 아닌 구매하기 전에 나타나는 현상을 활용한 것이다.
따라서 우리는 구매 원인을 알 수 없기 때문에 고객의 구매율을 높이기 위해 어떠한 조치를 취해야 하는지 알 수 없다.
인과추론에서는 "고객이 왜 구매하는가?"를 궁금해한다. 따라서 고객이 구매를 하는데 영향을 주는 원인을 찾고자 한다.
예를 들어 추천 모델 A(구매 원인)가 고객의 구매에 영향을 주는지(결과)를 알고 싶을때 우리는 인과추론을 활용하여 효과를 추정해볼 수 있다.
인과추론과 예측방법론의 차이
Prediction | Causal Inference | ||
model fitting approach | 데이터에서 보여지는 패턴을 가장 잘 fitting하도록 모델을 학습시킴 | Design-based approach | 인과추론에 방해가 되는 요인(선택 편향)을 제거하는 접근 |
information filtering approach | 관련성이 높은 association만 추려 유의한 관계만을 찾아냄 | Structure-based approach | 인과 구조를 명시적으로 나타내고 인과 구조를 기반하여 인과관계를 추론 |
인과추론을 바라보는 여러 관점
empiricism : 경험주의 (by David Hume)
- 우리가 갖는 어떤 인상이나 관념이 또다른 관념을 예상 가능하도록 떠올릴 수 있다면 그것을 인과관계로 볼 수 있다.
- 어떤 실제의 원인이 직접적인 결과를 야기하는 법칙이라기 보다는 그런 원인이 있을때 항상 어떤 결과가 있었다는 반복적인 경험과 인상을 통해서 머릿속에서 형성되는 관념적인 연결고리에 불과하다.
- 예를들어 먹구름이 끼었을때 비가 온다는 것을 아는 이유는 이전에 먹구름이 낄때마다 비가왔기 때문에 경험적으로 우리의 머릿속에 떠오르기 때문이다. 마찬가지로 다리가 쑤시면 비가 온다는 것을 아는것도 마찬가지이다.
positivism : 실증주의 (by Immanuel Kant)
- 지식은 관념에서 나오는 것이 아니고 과학적인 방법을 통해 실험하고 검증될 수 있는 것이다.
- 우리의 자연과 사회가 어떤 구조를 가지고 구성이 되었고 검증이 가능한 어떤 법칙에 의해서 우리의 사회와 자연이 돌아간다.
인과추론의 접근법
인과추론의 접근법은 크게 1)potential outcome framework와 2)structural causal model 두가지로 볼 수 있다.
Potential Outcome Framework (Design-Based Approach) |
Structural Causal Model (Structure-Based Approach) |
|
특징 | - 연구에 행해질 구체적인 treatment를 정의할 수 있어야 한다. - 두 가능한 결과를 대조시킴으로써 효과를 추정할 수 있다. |
- 인과 구조의 직접적인 관계를 확인하여 효과를 추정할 수 있다. - 원인-결과 관계에 발생 가능한 변수들의 관계를 도식화하여 노드들 사이의 경로에 대한 조건부 확률을 가지고 추정이 가능하다. |
장점 | - 적절한 연구 디자인만 설정한다면 깊은 이해 없이도 인과적인 효과를 추정할 수 있다. ex) 아스피린이 어떤 인과구조를 바탕으로 두통 완화에 효과가 있는지 명확하게 알지 못하더라도 treatment / control 그룹간의 아스피린 투약 유무의 효과 차이를 통해서 아스피린이라는 약의 인과적인 효과를 정량화 할 수 있음 |
- 인과 구조에 대한 직접적인 관계를 보여주고 직접적으로 추정함으로써 어떤 원인이 결과에 영향을 미치는지 path를 확인할 수 있다. |
단점 | - 구체적으로 어떠한 메커니즘에 의해 이러한 인과 관계가 나타내는지를 직접적으로 알기 어렵다. | - 추정 결과는 인과 구조에 의존하기 때문에 인과 구조를 잘못 선정하게 되는 경우 완전히 다른 결과를 얻게 된다. 따라서 인과 구조를 잘 선정하고 검증하는 것이 중요하다. |
Causal Hierarchy
상위의 방법론일수록 인과추론의 신뢰성이 높으며 적용하기 쉽다.
하지만 현실에서 해당 방법들을 적용하지 못하는 여러 요인이 존재하므로 이를 해결하기 위해 다양한 방법론이 제시되어 있다.
아래 그림에서 가장 첫번째의 Meta-Analysis는 반복적으로 관찰되는 인과관계를 결합하여 보다 명확하게 인과추론을 수행할 수 있는 가장 높은 신뢰수준을 가진 방법론이라고 볼 수 있다. 하지만 현실에서는 높은 신뢰수준을 가진 방법론을 적용하기 어려운 경우가 많고 우리는 적용가능한 다른 방법론을 찾아야한다.
다음글 : 2023.02.18 - [Recommender System/Causal Inference] - Potential Outcomes Framework
'Recommender System > Causal Inference' 카테고리의 다른 글
Potential Outcomes Framework (0) | 2023.02.18 |
---|