[데이터로 일하는 법] 데이터 사이언티스트는 없어져야 한다

데이터는 누구나 쓸 수 있어야 한다

사람들의 행동 기록이 더 상세하게, 그리고 더 다양하게 만들어지고 남겨지는 이 시대에 데이터를 보고 해석하는 일은 직무와 상관없이 필수적인 일이 되어가고 있다. 몇 년 전까지만 해도 데이터에 접근하고 또 볼 수 있는 것 자체가 특권이었던 시기가 있었지만, 넘쳐나는 데이터와 빠르게 변하는 환경은 회사의 모든 사람들이 데이터를 보고 올바른 의사결정을 내리도록 하는 트렌드를 만들어가고 있다. 그렇기에, 설령 수포자였던 사람이더라도 표준편차가 무엇이고, 또 평균과 중간값이 무엇인지 알아야 하는 시기가 도래하였다. 그러나 동시에 데이터를 사용하려는 사례는 늘고 있지만, 그것을 통해 커다란 성공을 이끌어낸 사례는 그만큼 많이 만들어지고 있지 않다. 왜냐하면, 어떤 기술이나 트렌드는 그것이 실질적으로 회사에 도입되고 문화의 일부분이 되는 과정이 지난하고 어렵기 때문이다.

이러한 과도기적 시기에 등장한 단어가 ‘데이터 사이언티스트’이다. 프로그래머보다 수학을 더 잘 알고, 수학자보다 프로그래밍을 더 잘 아는 이러한 애매한 포지션은 그 누구보다 데이터에 더 많이 접근하고 사용할 수 있는 권한이 주어지게 되었다. 그리고 데이터 사이언티스트들은 회사의 데이터에 대해서 누구보다 더 잘 알고, 누구보다 그 한계를 잘 깨달은 포지션이 된다. 이런 데이터 사이언티스트들은 데이터를 가지고 무언가 굉장한 것을 해주길 바라는 회사 임원진들의 요구에 따라 자신이 배웠던 다양한 수학 기법들을 사용하여 무언가를 해보려고 하지만, 대부분의 경우 아무런 결과도 만들지 못하고 쓸쓸히 회사 한구석에 남겨지는 케이스가 대부분이다. 왜 그럴까? 그 누구보다 데이터에 대해서 그리고 그것을 어떻게 처리해야 하는지에 대해서 잘 아는 사람들이 왜 결과물을 만들지 못하게 되었을까? 내 개인적인 생각은 아래와 같다.

서비스 개발은 팀을 필요로 한다. 그렇기에 데이터는 팀 모두가 사용하고 해석할 수 있어야 한다.

요즘의 데이터 트렌드는, 데이터 사용의 민주화이다

위와 같은 이유로, 요즘에는 코딩과 수학을 잘 몰라도 되는 앰플리튜드 혹은 타블로 같은 데이터 시각화 및 분석 툴이 많이 나오고 있다. 이러한 툴들은 단지 일차적인 데이터의 분석뿐만이 아니라 기존에는 어렵게 느껴지던 머신러닝 및 인공지능 기법들을 간단히 사용할 수 있는 기능들까지 확장되고 있는 추세이다. 즉, 이 세상은 데이터를 분석하는 것 자체에 대해 더욱 쉽고 자동화된 길로 나아가고 있다고 볼 수 있다. 또한, 그것이 이루어져야 서비스를 만드는 데 사람들이 데이터를 통해 다양한 의견을 내고 또 결정을 하면서 진정으로 회사의 데이터로부터 가치를 창출할 수 있게 된다.

왜 이런 트렌드로 향하는지는 기존의 데이터 분석 프로세스만 봐도 알 수 있다. 질문 -> 분석 -> 추가 질문으로 이어지는 일련의 프로세스는 빠르게 그리고 그리고 다양한 방법으로 실행되어야 비로소 가치 있는 인사이트나 의사결정을 할 수 있다. 그런데 이런 프로세스가 느리면 느릴수록 모든 것이 흐지부지되고 데이터를 사용하는 것 자체가 꺼려지게 되는데, 보통 프로세스가 느린 원인은 분석 자체를 코딩으로 일일이 해야 하고, 또 질문자와 분석가가 다른 사람이게 되면서 중간 커뮤니케이션 비용이 들기 때문이다. 즉, 누구나 쉽게 분석을 할 수 있게 되면, 그리고 모든 데이터에 접근을 할 수 있게 되면 이러한 문제는 사라진다. 그리고 앰플리튜드와 타블로는 이것을 목표로 상품을 만든다.

그렇기에 가장 이상적으로 데이터를 잘 활용하는 회사는 데이터 분석가 혹은 사이언티스트가 없어도 데이터를 기반으로 의사결정을 효율적으로 내리는 문화가 존재하는, 그리고 존재할 수 있는 회사이다. 물론 머신러닝 및 인공지능 모델을 만들고 테스트하기 위한 리서처는 존재해야 한다. 이는 기존의 데이터 분석가 및 사이언티스트들에게도 좋은 소식이다. 기존에 짜증 나는 루틴의 업무들을 다 개인에게 던지고 진정으로 흥미 있어 하단 수학 모델이나 새로운 데이터를 만드는데 시간을 투자할 수 있기 때문이다. 물론 이러한 가치 있는 일을 하기 위해서는 수학과 컴퓨터를 잘 알아야 한다. 즉, 기존의 데이터 분석가 및 사이언티스트들은 더 높은 수준의 수학과 컴퓨터 지식을 요구받게 될 것이다.

데이터가 민주화된 회사에서 필요한 것들

데이터를 누구나 쉽게 쓸 수 있게 된다고 모든 것이 해결되는 것은 아니다. 결국 데이터를 분석한 결과는 공유되어야 하는데, 그 결과를 어떻게 해석할지에 대한 기준이 갖추어져 있지 않다면 모든 것이 중구난방 되어 버리는 결과가 나타난다. 예를 들어 UV(unique visitor)의 정의가 회사 내에서 공유되고 있지 않다고 해보자. 어떤 사람은 앱 방문 수를 UV로 알고 공유하고, 어떤 사람은 앱 방문 및 상품 클릭을 UV로 여기는 상태에서 서로 회의에 들어간다면, 수많은 불화와 커뮤니케이션 비용이 발생한다.

그렇다면 이러한 회사 내 KPI 및 데이터 자체에 대한 기준(예를 들어 유저 식별 기준이 디바이스인지, 아니면 로그인 계정 기준인지)은 누가 정해야 할까? 그것은 바로