들어가면서

 

지난주 주말, 진행하는 프로덕트 분석 스터디에서 인과추론을 주제로 발표를 진행했습니다. 제가 생각하는 인과추론은 ‘비즈니스 분석의 원피스’같은 존재입니다. 조직 내 분석가의 존재 이유가 ‘의사결정의 개선’이라는 것을 생각해 보면, 예측과 인과추론이야 말로 확실한 의사결정 개선의 도구이기 때문입니다.

 

인과추론을 간단하게 설명해 보겠습니다. 인과추론은 인과관계 즉, ‘A라는 사건이 B라는 사건의 원인이 되었다’는 것을 추론하는 것입니다. 우리 사회가 직면하는 여러 가지 문제인 의료 대책, 출산율 대책 등 정확한 원인을 알 수 있다고 상상해 보면 정말 합리적인 사회가 될 것 같습니다. 

 

비즈니스도 마찬가지입니다. 기업은 제품과 사업의 성공을 나타내는 지표를 성장시켜야 합니다. 지표를 성장시키기 위해서는 사용자의 행동을 변화시킬 필요가 있고, 이를 위한 인사이트를 발견하는 것이 인과추론입니다. 우리가 익히 들어본 A/B테스트가 프로덕트 분석에서 대표적인 인과추론의 방법 중 하나입니다.

 

 

Image : 직접제작 발표자료

 

 

원인을 알 수 있는 유용한 방법론임에도 A/B 테스트를 실제 적용하는 것은 어려운 일입니다. 특히나, 저처럼 B2B 기업에서 근무하는 경우는 더욱 그렇습니다. 그래서 이번 아티클에서는 B2B기업에서 A/B테스트를 실행하기 어려운 이유들, 그리고 만약 시도해 볼 수 있다면 어떤 케이스가 있을지 고민한 내용을 정리해 봤습니다.

 

 


 

 

A/B테스트 결과가 동네북이 되는 이유

 

프로덕트 팀에서 A/B테스트를 시도하지만, 생각만큼 뚜렷한 차이를 발견하지 못하는 경우가 많습니다. 혹은 누가 봐도 명백한 개선이 이루어졌지만, 기능개선 전후로 지표가 비슷하거나, 예전보다 못하게 나오는 경우도 있습니다. 분석팀 당시 이런 분석 결과를 전달하면서 난감했던 기억이 많습니다.

 

그러면 A/B테스트가 실패하는 이유는 무엇일까요? Joanne Rodrigues의 <Product Analytics>에 따르면 여기에는 크게 3가지의 이유가 존재합니다.

 

 

Image : 직접제작 발표자료

 

 

사회적 현상이 너무 넓고 복잡(Broader Social Phenomena) 하기 때문입니다. 

 

예를 들어, 올해 초 다른 팀원이 기능개선을 진행한 건에 대한 분석을 진행한 적이 있습니다. 누가 봐도 결제 단계에서 불필요하던 프로세스를 제거하면서 UX를 개선했지만, 그럼에도 전후 비교 시 주문서 전환율이 유의미한 수준으로 개선되지 않았습니다.

 

왜 그랬을까요? 왜냐하면 고객의 주문과 연관된 정말 많은 요소가 개입하기 때문입니다. 우선 서비스만 놓고 살펴봐도, 빠른 배송 여부, 할인 수준 등 개입할 수 있는 요소가 존재합니다. 더 나아가, 서비스 외부에는 구매자의 급여일 직후/직전 여부 등에 따른 주문에 대한 망설임 등이 존재할 수 있습니다. 

 

 

Image : 직접제작 발표자료

 

 

그나마 모수가 정말 많으면, 어느 정도의 전제를 두고 추정해 볼 수 있습니다. 하지만, B2B기업은 이런 것들을 적극적으로 활용하는 것이 어렵다 보니 더욱 A/B 테스트에 어려움을 겪을 수밖에 없습니다.
 

더 나아가, 유료 고객이 대상일 경우 더욱 A/B 테스트 시도에 주의가 필요하다고 말합니다. 예를 들어, 넷플릭스에서 ‘타이타닉’ 콘텐츠 제공에 따른 결제여부를 보기 위해, A그룹은 타이타닉 영화를 보여주고, B그룹은 보여주지 않는다고 가정해 보겠습니다. 만약 B그룹이 이 사실을 알게 된다면, 괘씸해서라도 이탈을 하고 말 것입니다. 대부분의 B2B 서비스는 금전을 지불한 고객들 대상이기 때문에, 이런 부분에서 더욱 신중해질 수밖에 없게 됩니다.

 

 


 

 

B2B 프로덕트가 A/B테스트를 시도한다면?

 

그렇다면 B2B 프로덕트는 A/B테스트가 불가능할까? 실제 스터디에서 유사한 고민을 했던 다른 분석가분도 A/B테스트보다 유저 테스트(User Test)를 더 많이 하는 것 같다는 이야기를 했습니다. 만약 B2B 프로덕트에서 A/B테스트를 시도하려면 저는 아래와 같은 요소를 고려해야 한다고 생각합니다.

 

우선 실행 여부에 대해서 냉정한 판단이 필요합니다. 적당한 트래픽과 가능한 실험 기간에 대한 고민이 필요합니다. A/B테스트의 신뢰도를 높이기 위해서는 실험집단과 통제집단에 동일한 조건의 사용자가 무작위로 나눠질 필요가 있습니다. 이를 실제로 100% 충족시키는 것은 어렵기 때문에, 나름대로 많은 모수를 확보해서 신뢰 수준을 높일 필요가 있습니다.

 

 

Source : Adobe Target

 

 

Adobe에서 제공하는 A/B테스트를 위한 샘플 크기 계산기(Sample Size Calculator)입니다. 예를 들어, 일 방문자가 500명 수준인 서비스에서 실험그룹과 대조그룹의 차이인 Lift 수치가 5%가 나왔다고 가정해 보겠습니다. 이게 유의미한 신뢰 수준을 나타낸다고 보려면 47,942명의 방문자가 필요하며 480일 정도의 기간을 두고 진행해야 합니다. (결과 해석과 관련한 자세한 내용은 나중에 따로 또 콘텐츠로 다뤄보겠습니다.)

 

방문자의 모수에 따라 달라질 수 있지만, A/B테스트로 유의미한 추론을 위해 적지 않은 시간이 소요됩니다. 따라서, B2B 서비스에서 프로덕트 A/B테스트를 진행하기 전에 사전 검증을 해보는 것이 필요합니다.

 

 

Source : Netflix Tech Blog

 

 

적용할 수 있는 영역을 신중히 판단해야 합니다. 사용자 확보하기 위한 A/B테스트, 보통 B2B 마케팅에서는 적극적으로 활용할 수 있습니다. 예를 들면, B2B에서 잠재고객 모수를 확보하기 위해 많이 활용하는 방법이 업계와 관련된 지식 세미나를 개최하는 것입니다. 이때 여러 가지 메시지를 변형해 보는 등의 방식으로 최적의 사용자 획득 방법을 찾아갈 수 있습니다.

 

프로덕트 내에서도 실험은 가능합니다. 다만, B2B는 앞서 말한 것처럼 비즈니스 고객을 대상으로 하기 때문에, 보통 유료로 서비스를 제공합니다. 그렇기 때문에, 실험 설계에 따라 고객사의 비즈니스에 방해가 될 수 있는 영역을 건드리지 않도록 주의할 필요가 있습니다. 그런 영역을 고민해 본다면, 고객이 새로운 기능을 사용하도록 만들어보는 온보딩 정도에 활용해 볼 수 있을 것 같습니다.

 

마지막으로 B2B기업이지만, B2C의 데이터를 기준으로 접근해 볼 수 있을 것 같습니다. 예를 들면, B2B 설루션 내 특정 기능을 설정여부에 따라 고객사의 B2C고객의 행동이 달라지는 것을 확인할 수도 있습니다. 앞서 제가 언급한 것처럼 주문서의 설정이나 기능을 토대로, 주문서의 전환율이 높아지게 만드는 것입니다. 이런 형태의 분석을 통해 인사이트를 발견한다면, 고객사에게 더 유용한 가이드를 제공해 줄 수 있을 것입니다.

 

 


 

 

끝으로

프로덕트 관련 일을 하면, 프로덕트 개선을 위한 인사이트를 알아내고 싶습니다. 그러면 자연스럽게 A/B테스트를 해보고 싶은 마음도 생겨납니다. 다만, A/B테스트라는 매력적인 인과추론 도구는 항상 만능이 아닐뿐더러, B2B사업에 적용하기에 결이 맞지 않는 부분도 존재합니다.

 

따라서 B2B에서는 우선 실험이 필요한지에 대해 고민해 보고, 기간이나 검증력을 볼 때 유저테스트만으로 충분한 케이스가 있다면 진행하지 않는 판단이 최고의 판단이 될 수 있습니다. 만약 필요하다면 사용자의 비즈니스에 피해를 주지 않는 범위 내에서 혹은 B2B2C 고객을 대상으로 얻은 인사이트를 B2B에 적용하는 형태가 유의미하지 않을까 생각합니다.

 

경민님이 브런치에 게재한 글을 편집한 뒤 모비인사이드에서 한 번 더 소개합니다.