실패, 실패, 실패. 그것은 지식의 탑이다

 
 

데이터 분석가는 마법사가 아니다. 오히려 실패를 쌓는 과학자이다

 

훌륭한 데이터 분석 팀은 수많은 분석 실패를 쌓아 지식을 만드는 과정을 거친다. 마치 과학자들이 쓰는 대부분의 논문들이 “나는 이러이러하여 실패했는데, 이 실패를 보니 다음에는 이렇게 해야겠다.. “라는 내용인 것처럼 말이다.

세상의 모든 것들이 그렇듯, 서비스 또한 굉장히 복잡한 어떤 현상이다. 서비스의 구조, 서비스를 사용하는 고객, 서비스가 목표로 하는 사람들, 서비스와 연관된 산업 등 서비스라는 주제에 대해 연관된 주제들만 해도 엄청나다. 그리고 각각의 주제들은 그 자체만으로도 복잡하며 또 계속해서 바뀌어 나아간다. 따라서 분석가 한 명이 그 모든 것에 대해 모든 질문을 하고, 그 질문에 대한 효과적인 답을 구할 수 없다. 오히려 서비스를 성장시키기 위한 결정적인 답과 생각을 찾는 데 소모하는 시간, 즉 실패하는 시간들이 더 많을 것이라 확신한다.

 

 

 

 

이런 실패는 그래서 분석가가 다음에는 어떤 방향으로 나아가야 하는지에 대한 지표가 되는데 문제는 많은 경우 이러한 분석 실패들, 혹은 지금 당장은 유의미하지 않다고 생각되는 분석들이 기록되지 않고 날아가 버린다는 것이다.

더 정확히는 가치를 찾지 못한 분석 결과들의 진정한 가치를 보지 못하고 버리는 경우가 많다. 만약 성공적인 분석이었다면 어떤 식으로든 결과가 남지만, 특히나 실패한 분석들의 결과물은 글로 작성되지 않고 날아가 버린다.

물론 이런 모든 분석적 실패를 개인이 모두 알고 있다면 별 상관이 없다. 그 실패를 모두 겪은 사람이 그래서 그다음 무엇을 분석해야 하는지 바로 알 수 있기 때문이다. 문제는 위에서 말했듯이 서비스는 굉장히 복잡하기에 서비스와 그에 관련된 것들을 잘 이해하기 위해서는 한 명 이상의 데이터 분석가가 필요하고, 그 분석가들이 만들어내는 실패의 역사를 모두가 개개인의 머릿속에 넣고 다닐 수 없다는 것이다.

즉, 실패한 분석 결과들이 잘 구조화되어 문서로 남지 않는 경우 모든 분석가들이 이미 다른 사람이 이전에 저질렀던 분석 실패를 매번 다시 경험하게 된다. 즉, 분석 팀으로서의 작업 효율이 극도로 떨어진다.

 

 

 

 

그렇다면 어떻게 실패한 분석이 지식이 되도록 쌓을 수 있을까?

 

분석 결과는 단순히 결과를 기록한 PPT 및 글을 통해서 이해할 수 없다. 분석의 배경 및 결과에 더해 그래서 작성자가 어떤 데이터를 만들었는지 알 수 있고, 또 그 데이터가 재생산되거나 조회될 수 있을 때 비로소 다른 사람이 그 분석을 이해할 수 있다. 이렇게 분석 결과는 보고서 파트와 데이터 파트가 모두 조회 가능해야만 다른 사람이 이해 가능한 지식이 되는데 이를 위해서는 아래와 같은 도구들이 필요하다.

 

1. 데이터 카탈로그

2. 문서 공유 플랫폼 (예 : 노션)

 

문서 공유 플랫폼은 모두들 잘 아니 넘어가도록 하겠다. 그렇다면 데이터 카탈로그란 무엇일까? 오라클에서는 데이터 카탈로그를 아래와 같이 정의한다.

 

  • Simply put, a data catalog is an organized inventory of data assets in the organization. It uses metadata to help organizations manage their data. It also helps data professionals collect, organize, access, and enrich metadata to support data discovery and governance.

 

데이터 카탈로그는 회사의 데이터를 조회하기 쉽도록 정리하여 쌓아 두는 일종의 인벤토리와 같다. 그리고 많은 인벤토리가 그렇듯 물품(데이터)들이 무엇인지 나타내기 위해 물품에 대한 설명과 태그들이 달려있다.

데이터 베이스와 비슷하지만 “조회”와 “발견” 기능에 좀 더 초점을 두고 있고 또 데이터라는 정보를 다른 사람들이 쉽게 저장하고 분류할 수 있도록 도와준다.

그렇다면 왜 데이터 카탈로그가 실패를 기록하는 데 필수적일까?

위에서 말했듯이 데이터 분석 결과는 보고서 파트와 데이터 파트로 이루어져 있다. 데이터 분석 결과를 이해하기 위해서는 그 분석에 쓰인 데이터가 무엇인지 바로 조회할 수 있어야 하고, 더 나아가 그 데이터가 어떻게 이루어져 있고, 누구에 의해 만들어졌고, 또 어떤 뜻을 가지는지 쉽게 알 수 있어야 한다. 데이터 베이스는 이런 부분에서 많이 아쉽다.

 

결과적으로 데이터 분석 팀이 있는 회사라면, 그 팀이 만들어 내는 실패의 역사를 그 무엇보다 가치 있는 데이터 자산으로 여겨야 한다.

 

 

여름비님이 브런치에 게재한 글을 편집한 뒤 모비인사이드에서 한 번 더 소개합니다.