작성일자 : 2023-10-23
Ver 0.1.1
'나비효과'라는 말이 있다. 어느한곳에서 발생한 나비의 날개짓이 지구 반대편에서의 태풍을 일으킬 수도 있다는 이론으로 초기의 사소한 변화가 전체의 막대한 영향을 미칠 수 있다는 뜻으로 우리 일상생활에 자주 사용된다. 그렇다면 실제로 나비의 날개짓만으로 태풍이 일어날까? 그렇지 않다. 나비의 날개짓이 지닌 영향력은 매우 미미한 수준이다. 또한 수많은 나비가 날아다녀도 태풍으로부터 안전하다.
최근에 새로운 광고를 런칭했으면 광고 클릭 수가 늘었더니 DAU(Daily Active User) 지수가 늘어난다는 것이 보인다는 사람도 있을 것이고, 새 상품을 출시했더니 매출이 증가하는 것부터 보이는 사람들도 있을 것이다. 하지만 이 모두는 맞지 않다. 이를 항변하기 위해 데이터 분석가는 '추이가 같다고 다 그것 때문에 늘어나는 것은 아닐 수 있다. '상관관계는 인과관계와 다르다' 라고 이야기 한다.
우리는 간혹 데이터를 보면서 '인과관계'와 상관관계'를 혼동한다. 이 둘에 대해서 좀 더 자세히 살펴봄으로써 인과관계와 상관관계를 오용하지 않도록 하자.
인과관계
실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태처럼, 원인과 결과 관계가 명확한 것
어떤 '나비의 날개짓'과 '태풍'은 어쩌면 인과관계가 있었는지 모른다. 하지만 대부분은 나비가 날아다녀도 우리는 태풍을 의심하지 않고, '나비의 날개짓'과 '태풍'이 실질적인 인과관계가 있다고 생각하지 않는다.
상관관계
두 변수가 얼마나 상호 의존적인지를 의미. 이를 파악하는 방법은 한 변수가 증가하면 다른 변수가 따라 증거하거나, 감소하되 그 추이를 따르는 식
이를 숫자로 표현하는 것이 바로 상관계수이다. 간혹 특정 변수 간의 상관계수가 의미있게 나온다고해서 해당 변수를 특정 문제의 원인으로 꼽는 식으로 데이터를 분석하는 경우가 있다. 하지만 사실은 그렇지 않다.
인과관계와 상관관계의 조건
인과관계는 상관관계의 충분조건이며, 인과관게를 위해서는 상관관계는 필요조건이다.
인과관계는 상관관게에서 원인과 결과의 관계까지 명확히 밝히지만, 상관관계만으로는 인과관계를 정확히 밝힐 수 없다.
키와 체중간에는 일정한 정도의 상관관계가 있다. 키가 큰 사람이 체중이 더 나가는 경향이 있기 때문이다. 그렇지만 키가 크다고 반드시 체중이 많이 나가거나, 반대로 체중이 많이 나간다고 반드시 키가 큰것도 아님을 우리는 알고 있다. 따라서 키와 체중 간에 인과관계가 있다고 말하기는 어렵다.
사람들은 무분별한 정보 사이에서 패턴을 찾고, 거기에 의미를 부여하는데 능하다. 이는 사는 데 있어서 굉장히 유용하지만, 많은 경우 비정보성 데이터에도 큰 의미를 부여하여 오히려 혼란을 일으키기도 한다. 자신에게 어떤 편향을 가지고 있는 경우 그런 현상이 더하고, 자신에게 유리한데 있어서는 패턴 탐색 및 의무 뷰여 능력을 오용하기도 한다. 그리고 이런 오용에 대표적으로 활용되는 것이 지식이 '과한 상관관계 부여'와 '상관관계와 인과관계의 혼용'이다. 이를 테면 회원 숫자가 증가하는 데는 여러 외부 요인이 있을 수 있음에도 '자신이 원하는 어떤 것 때문이다'라고 뚜렷한 근거도 없이 아무렇지 않게 말해버린다. 그리고 이런 오용을 '데이터 기반 의사 결정'이라며 마치 대단한 근거를 가진양 이야기한다.
데이터 분석에서 상관관계는 기본적이며 중요한 항목임은 틀림없다. 변수 간의 관계와 추세를 파악할 수 있고, 이후 여러 분석에서 고려할 수 있다. 하지만 이를 가지고 섣불리 어떤 결과를 내는 것은 매우 위험하다. 두 변수간의 관계분석을 하면서 상관관계와 인과관계를 사용할 때는 내생 변수(실험에서 고려하는 내부 변수)와 외생 변수를 이해하고, 변수의 추이에 영향을 미칠 수 있는 요인이 어떤 것들이 있는지 꼼꼼히 따져보아야 한다.
참고 서적 : 데이터 분석가의 숫자유감