오늘날 많은 기업들은 비즈니스 전략을 세우기 위해 데이터 분석을 진행하고 있습니다. 비즈니스 전략을 위해 관련된 데이터를 수집하고 분석하여 최적의 인사이트를 도출합니다. 수집된 데이터를 분석하고 나온 결과에 대해 여러분들은 얼마나 신뢰하고 계신가요? 자칫 잘못하면 비즈니스 전략에 마이너스적인 요소가 될 수 있기에 신중하게 판단해야 할 것 입니다.
그럼, 데이터가 가지고 있는 위험한 요소에 대해 알아 보도록 하겠습니다.
“평균” 이라는 데이터 위험 요소
여러분들은 분석 하실 때 “평균” 을 어떻게 해석하고 계신가요?
예를 한번 들어보겠습니다.
만약, 여러분이 쇼핑몰 한 곳을 운영한다는 가정 하에 말씀드리겠습니다.
쇼핑몰에서 평균 상품을 보는 조회수가 10이라고 가정한다면 많은 고객들이 대략적으로 8~12 개 정도 상품을 본다고 생각할 수 있습니다.
그런데, 만약에 대부분의 고객들은 3~4개의 상품만 보고 나머지 고객들이 엄청나게 많이 상품을 조회한다면 여러분은 이 상황을 어떻게 분석하시겠습니까?
답은 정해져 있지 않지만, 대부분 이런 문제에 봉착하게 되면 일단 데이터를 시각화 합니다. 그 후 전체 분포를 파악하고 범위 내에서의 데이터를 해석합니다.
한가지 예를 더 들어보겠습니다. 이번엔 조금 더 자세히 보도록 하겠습니다.
암을 전문적으로 치료하는 두 곳의 병원이 있다고 가정하겠습니다.
병원 | 환자수 | 생존자수 | 생존율 |
A병원 | 500 | 290 | 58% |
B병원 | 500 | 320 | 64% |
여러분들께 [표 1]에서 좋은 병원을 선택하라고 한다면 두 병원 중 어느 병원을 선택하시겠습니까?
당연히, [표 1]의 내용만을 본다면 생존율이 높은 B병원을 선택하시겠죠?
그런데 말입니다~~ 만약, [표 1]을 암 진행 정도에 따라 다시 나눠서 본다면 어떨까요?
아래와 같이 암 진행 정도에 따라 다시 한 번 세분화 하도록 하겠습니다.
<초기 · 중기 암> | 환자수 | 생존자수 | 생존율 |
A병원 | 100 | 90 | 90% |
B병원 | 300 | 240 | 80% |
<말기 암> | 환자수 | 생존자수 | 생존율 |
A병원 | 400 | 200 | 50% |
B병원 | 200 | 80 | 40% |
자~ 다시 한번 선택권을 드리도록 하겠습니다. 두 병원 중 어느 병원을 선택하시겠습니까?
이처럼, 부분에서 성립하던 성질이 부분을 합한 전체에서는 성립하지 않는 것을 우리는 “심슨의 역설 (Simpson’s Paradox)“이라고 말합니다.
데이터 분석에서 항상 나오는 “세그먼트” 개념을 설명할 때 반드시 등장하는 예 입니다.
이번엔 좀 더 실무적인 측면에서 설명 드리도록 하겠습니다.
위 그래프를 보시면 1분기에서 점점 DAU가 감소하고 매출액도 점점 줄어들고 있습니다.
해당 기업에서는 이 그래프만 본다면 아마도 많은 생각을 하게 될 것입니다. 이렇게 전체 평균 데이터만 놓고 본다면 생각이 많아지겠지만 만약, 이 데이터를 세분화 한다면 어떨까요?
[차트 2] 분기별 회원가입 고객 DAU를 보면 [차트 1] 의 분기별 데이터와 다르게 회원가입 고객은 조금씩 증가하고 있습니다. 매출액도 2분기에는 약간 주춤했지만 3분기부터 조금씩 올라가고 있습니다.
그런데, 분기별 비회원가입 고객 DAU와 매출액을 보면 3~4 분기에 엄청나게 떨어져 있음을 발견하실 수 있습니다.
해당 사이트에서 제공하는 서비스에 지속적으로 도움을 주고 커뮤니케이션이 가능한 정회원 고객의 동향에는 다른 큰 이슈가 없습니다.
그러나, 회원가입을 하지 않은 고객이 1,2 분기에 갑자기 올라가 평균 데이터에 영향을 준 것을 알 수 있습니다. 체리피커(케잌에서 하나밖에 없는 체리만 쏙~ 뽑아 먹는 사람)인 비회원가입 고객이 1,2 분기에 특정 상품 또는 특정 이벤트를 구매 또는 참여하기 위해 잠깐 유입한 것은 아닌지 마케팅 팀과 함께 확인해 봐야 할 것입니다.
기업에서는 단순 평균 데이터만 살펴보고 비즈니스 전략을 세우거나, 위기라고 판단하기 쉽습니다. 그러나 데이터를 좀 더 세분화 하여 전체 평균 데이터가 아닌 세부 데이터를 보고 올바른 의사결정을 해야 할 것입니다.
심슨의 역설을 피하려면 그룹별로 데이터를 세분화 해보고 세분화된 데이터를 함께 비교하여 분석하는 것이 이번 포스트의 핵심입니다.
만약, 세분화 하는 부분에서 어려움을 느낀다면 솔루션을 이용하는 방법을 추천 드립니다. 지금까지 말씀드린 전체 평균값을 유형별로 그룹화하여 정확하게 세분화를 할 수 있는 플랫폼 입니다.
최적의 세그먼트를 구성하고 세그먼트별로 취합된 데이터를 확인할 수 있는 (주)비즈스프링의 그로스플랫폼(GrowthPlatform) 입니다.
특히, 세분화된 세그먼트별로 수집되는 데이터를 확인할 수 있으며 세그먼트 잠재 고객을 한눈에 볼 수 있는 차트까지 지원합니다.
데이터를 1차원으로만 분석하기 보다는 2차원, 3차원 등 몇 차례 세분화 과정을 거쳐서 인사이트를 도출하는 것이 비즈니스 전략을 세울 때 많은 도움을 받으실 수 있으실 것입니다.