Correlation is not causation. The profound implications of confusing… | by  Anthony Figueroa | Towards Data Science
source : Anthony Figueroa


인과관계(causation)와 상관관계(correlation)


correlation is not causation


인과관계

인과관계는 말그대로 원인과 결과가 명백히 밝혀진 관계다. 

예를 들어, 흡연을 하면 >>> 폐암에 걸릴 확률이 높아진다. 

인과관계는 사회과학에서 많이 사용된다. 예를 들어, 어떤 정책을 세울 때 인과관계를 잘 파악하는 게 중요하다. 

인과관계를 잘 알고 싶으면, 추론 통계를 잘 알아야 하고 구체적으로는 추론 통계를 바탕으로 한 회귀 분석(?)을 잘 알아야 한다.

추론 통계의 핵심 목표는 샘플로부터 데이터를 가지고 모집단의 특성을 잘 파악하는 것. 모집단의 특성을 '모수(parameter)'라고 한다. 

인과관계를 확인하는 방법 중에 데이터 포인트를 무작위로 선택해서 확인하는 방법이 있다. 데이터 세트를 비슷한 조건과 성질의 두 그룹으로 나누고 한 그룹에만 다른 요인을 적용해 본다면, 해당 요인과 결과의 인과관계를 확인할 수 있다. ( 출처 : 밑바닥부터 시작하는 데이터 과학 by 조엘 그루스 ) 



상관관계

상관관계는 그냥 변수 간 관계가 있을 때 사용한다. 인과관계도 관계 중 하나이기 때문에 인과관계는 상관관계의 충분조건이다. 





correlation과 linear regressoin의 차이를 아는 것도 중요하다.