지난 두 번의 시간 동안 우리는 낯설게만 느껴졌던 빅데이터가 무엇인지, 관련 직무에는 어떤 것들이 있는지를 살펴보았습니다.

 

 

 

 

그리고 이번 세 번째 시간에는 빅데이터를 ‘어떻게 분석하는지’ 그 기법을 간단히 살펴보고자 합니다.

데이터 사이언티스트가 사용하는 분석 방법을 우리는 ‘애널리틱스(analytics)’라고 부릅니다. 데이터에 대한 접근 방법이나 강조 방식이 조금씩은 다르지만 데이터 마이닝이나 어드밴스드(advanced) 애널리틱스, 인공지능, 머신러닝 등도 애널리틱스에 해당합니다. 용어만큼이나 분석의 방법론 또한 다양합니다. 통계학이나 데이터베이스 기반은 물론, 머신러닝, 패턴인식 기반의 애널리틱스 방법론도 존재하죠.

 

 

 

 

그럼 이제 본격적으로 분석의 과정을 살펴보겠습니다. 미국의 정보기술 연구 및 자문 회사인 가트너(Gartner, Inc.)는 데이터 분석과 관련해 4단계로 구성된 ‘분석 가치 에스컬레이터’를 제공합니다. 위의 그래프에서 살펴볼 수 있는 것처럼 데이터 분석의 4단계는 묘사(descriptive) 분석, 진단(diagnostic) 분석, 예측(predictive) 분석, 처방(prescriptive) 분석으로 이루어져 있습니다. 그래프의 오른쪽으로 갈수록 분석의 난이도가 높아지며, 위로 갈수록 분석을 통해 더 많은 가치를 얻을 수 있음을 의미합니다.

첫 번째 단계인 ‘묘사’는 데이터 분석의 가장 기본적인 지표를 말합니다. 과거에 어떤 일이 일어났으며, 현재는 무슨 일이 일어나고 있는지 정확하게 살펴보는 것을 말하죠. 지난 1년간 지역별로 무슨 제품이 많이 팔렸는지, 언제 어떤 제품의 판매량이 높았는지, 고객 불만의 내용은 무엇이 있는지 등을 파악할 수 있는데요. 단순히 소비자의 반응이 ‘좋다’거나 ‘나쁘다’는 것을 파악하는 것이 아니라 무엇을 ‘좋아’하거나 ‘싫어’하는지까지 확인해야 합니다.

 

 

 

 

두 번째 단계인 ‘진단’은 묘사 단계에서 찾아낸 분석 내용의 원인을 이해하는 과정을 말합니다. A 제품이 왜 특정 지역에서 잘(혹은 안) 팔렸는지, 분기별로 매출 차이가 발생한 이유는 무엇인지, 고객 불만이 최근 1년간 더 많이 발생했다면 그 이유는 무엇인지 등에 대해 데이터를 기반으로 확인하는 것이죠.

세 번째 단계인 ‘예측’은 말 그대로 데이터를 통해 기업 혹은 조직의 미래, 고객의 행동 등을 예측하는 과정을 말합니다. 기업들은 사용자들의 단어 사용 패턴을 분석하여 특정 고객의 이탈 가능성을 확인하기도 하고, 특정 제품의 검색 또는 구매 이력을 토대로 구매 가능성이 높은 새 상품을 추천하기도 합니다. 데이터가 기업 성장의 기반이 되는 시대가 온 겁니다.

마지막 단계인 ‘처방’은 앞선 예측을 바탕으로 이루어지는 최적화 과정에 해당합니다. 어떤 시점에 어떤 액션을 취해야 고객의 이탈을 막을 수 있는지, 어떤 채널에 어느 정도의 예산을 배분해야 광고 효과를 최대화할 수 있는지, 어떤 종목에 비용을 투자해야 높은 수익률을 기대할 수 있는지 등이 처방 분석에 해당하죠. 우리가 위의 그래프를 통해 살펴보았듯이, 이 처방이 4단계의 분석 과정에서 가장 어려운 부분에 해당합니다.

데이터 분석을 4단계로 나누어 설명했지만, 이들은 결코 떨어진 과정이 아닙니다. 과거와 현재를 이해해야 미래를 예측할 수 있으며, 지표에 대한 묘사와 진단이 이루어져야 예측, 그리고 처방이 이루어질 수 있는 것은 당연지사이니 말이죠.

 

 

 

이준형님이 브런치에 게재한 글을 편집한 뒤 모비인사이드에서 한 번 더 소개합니다.