쉽게 이해할 수 있는 데이터 관련 직업의 역할
기획 업무와 같이 데이터 관련 업무도 회사마다 역할의 정의가 조금씩 다릅니다. 비교적 신규 직무에 속해 용어가 정리되지 않은 경우도 많죠. 같은 이름이라고 해도 회사마다 역할이 전혀 다른 일도 있습니다.
흔히 말하는 ‘Data Analyst’라고 하면 어느 회사에서는 기존 알고리즘을 바탕으로 비즈니스 도메인에 맞는 예측 모델링 등 특화된 영역에 집중하는 경향이 있는가 하면 어느 회사는 알고리즘 자체를 만드는 역할을 요구하기도 합니다. 어떤 회사는 특정 분야만 하는 게 아니라 데이터 수집부터 전처리, 시각화, 배포까지 모두 하는 것을 ‘Data Analyst’라고 부르기도 합니다. 기업 규모와 데이터 조직이 실제 서비스를 하는지 의사결정을 돕는 역할을 하는지 등에 따라 데이터 직무 관련 용어는 쓰임새의 차이를 보입니다.
하지만 공통적인 부분은 있습니다. 관심은 있지만 이 분야를 처음 접하는 분들을 위해 데이터 다루는 업무 전반을 스테이크 굽는 것에 비유해 보았습니다. 스테이크를 만들어 고객의 식탁에 올리기까지 과정을 살펴보면 데이터 직무의 역할을 보다 쉽게 이해할 수 있을 것 같습니다.
데이터 수집, 운영 : 소를 키운다
스테이크를 만들기 위해서는 소고기가 필요합니다. 재료 없이는 음식을 만들 수 없고 재료가 나쁘면 좋은 결과물이 나오지 않는 것은 데이터와 음식이 같습니다. 뒤에 나오는 데이터 관련 역할이 향후 진로에 대해서 고민하지 않기 위해서는 데이터 수집과 운영이 좋아야 합니다.
흔히 더 많은 데이터를 찾아 이직 한다는 말이 있습니다. 막상 쓸 수 있는 데이터가 부족한 회사는 많은데 사람만 뽑아 두면 경제적인 문제 외에 커리어에 대한 고민으로 이직하게 된다는 말입니다. 내부적으로 데이터를 수집하는 플랫폼이 부재하면 할 수 있는 데이터 프로젝트 주제는 매우 제한적입니다. 기껏해야 외부 데이터를 활용해 트렌드 정보 정도를 파악하는 것인데 주도적으로 데이터를 확보할 수 없는 조건이라면 안정적인 데이터 수급과 활용이 되지 않게 됩니다. 고객에게 솔루션으로 제시할 서비스로 발전하기 어려운 제약 조건이 있습니다.
그래서 트래픽이 발생하거나 초기 멤버십 등을 구축할 때 데이터 수집 전략이 필요합니다. 최대한 많은 정보를 어떤 큰 그림을 갖고 하나씩 이룰 것인지 기획을 한 후 하나씩 데이터가 수집되고 운영되도록 하는 것이죠. 하지만 대부분 데이터 관련 조직은 큰 그림이 부재한 경우가 많습니다. 기존 IT 베이스 사고로는 ‘구축한다’는 사고는 있지만 전략적인 기획력을 갖고 회사 리소스를 어떻게 방향을 잡고 간다는 것은 부재한 리더가 많은 까닭입니다. 주변에서 뭘 구축했으니 우리도 뭘 한다 정도의 생각이나, 신기한 게 나왔으니 우리가 한 번 해 보자는 적어도 데이터 수집/운영부터 이어지는 파이프라인을 발전시키는 데는 한계가 있습니다. 물리적 서버를 클라우드로, 내부 데이터를 외부 데이터와 어렵게 결합을 해도 새로운 인사이트나 사업의 모멘텀이 보이지 않는 것은 데이터 기획력, 데이터 총괄 기획자가 없기 때문이죠. 아니라면 데이터를 통해 얻은 결과를 구현할 곳이 없는 구조일 것입니다.
데이터 전처리 : 도축, 가공, 운반
흔히 하는 말로 데이터는 흘러야 합니다. 물과 같아서 흐르지 않으면 고이고 썩게 됩니다. 물이 부족하면 아무 일도 되지 않죠. 데이터 파이프라인을 구축해도 파이프 라인의 굵기와 파이프라인 곳곳에 서 있는 실무자들이 월 할 수 있는지 모르는 사일로에 갇힌 조직들이 많습니다. 공유 도구를 잔뜩 쓰면서도 정작 테이블들의 역할과 필드의 의미에 대해서는 누구에게 물어봐야 하는지 막막한 경험을 하게 됩니다.
수집되고 운영으로 돌아가고 있는 데이터를 분석할 수 있는 수준으로 다루는 것을 전처리라고 합니다. 분석 과정 대부분을 여기에 쓰게 되죠. 특히 텍스트 등 비정형 데이터는 손이 많이 가는 작업입니다. 소고기를 요리할 수 있는 마트에 파는 포장팩 사이즈의 고기로 만드는 작업이 전처리에 해당합니다. 소를 도축하면서 부위별로 구분하고 쓸 수 있는 부위를 구분하며 정기적으로 유통되도록 하면서 운반에 걸리는 시간이나 유통되는 양까지 고려해야 하는 게 전처리의 역할입니다.
큰 기업에서는 이 분야를 별도로 관리하기도 합니다. 데이터가 수집되고 있는 운영이 서비스 단계의 내용이라면 운영되는 데이터가 분석할 수 있는 서버로 들어오는 작업을 관리합니다. 에러가 있는지 리소스 활용이 효율적인지를 주로 맡게 됩니다. 하지만 기업에 따라서는 운영부터 전처리까지를 혼자 맡는 경우도 많습니다. ‘데이터 엔지니어’라고 말하는 직무가 주로 여기에 해당됩니다.
데이터 분석 : 기존 레시피를 활용한 조리
데이터 분석과 사이언티스트를 분리해서 설명하는 직무 기술서가 많습니다. 하지만 꼭 그렇게 칼같이 나눠지는 것은 아닙니다. 더 좋고 새로운 용어로 직무를 설명하는 트렌드의 영향일 수 있지만 요즘 이 용어들은 실제 하는 일과는 다르게 혼재되어 사용되고 있습니다. 그래도 업무 역량에 따라 구분하면 기존 레시피를 통해 스테이크를 만드는 것을 분석으로, 아예 새로운 레시피를 만드어서 소고기 요리를 만드는 것을 사이언스 정도로 생각해 볼 수는 있을 것 같습니다.
현장에서 체감상 분석은 높은 학문적 이해를 두고 있어야 하는 것은 아닙니다. 물론 통계 모형이나 머신러닝의 기본적인 알고리즘에 대한 이해는 충분히 갖고 있어야 하지만 석박사 급으로 아는 것보다는 오히려 그것을 구현해 낼 산업에 대한 이해가 일하는 데 더 많은 도움을 준다고 생각합니다. 새로운 앙상블 모형을 만들어 예측 모델링에 구현하는 것보다 기본이 되는 알고리즘을 바탕으로 어떤 변수들을 투입하고 튜닝할 것인가 또는 어떤 주제에 어떤 모델을 사용할 것인가가 더 핵심적인 질문일 것입니다. 스테이크용 고기를 사서 집에 있는 재료와 우리 집 주방 여건, 가족들이 좋아하는 성향의 스테이크를 블로그나 구글링을 보면서 만드는 것이죠.
두 집단 이상의 현황을 비교하면서 차이를 설명할 수도 있고 연속적인 성격의 변수를 카테고리로 만들 수 있습니다. 일정한 클러스터로 만들어 활용할 수도 있죠. 예측을 통해 아직 잘 모르는 정보를 일정 확률로 가정할 수도 있습니다. 중요한 것은 활용과 성과죠. 활용할 데이터, 채널, 고객이 충분하거나 자립적으로 주제를 세팅하고 시도할 수 있는지가 일정 수준 이상의 정확도보다 더 강조되는 영역이라고 생각합니다.
데이터 시각화는 이제 분석의 영역에 들어와 있습니다. 요리를 만들고 난 후 플레이팅으로 생각하면 쉬울 것 같습니다. 다만 서비스 영역에서 보면 별도의 기획과 디자인이 필요한 부분입니다.
데이터 사이언스 : 레시피를 창조
알고리즘 자체를 만드는 것이 데이터 사이언스에 가깝다고 생각합니다. 여러 회사의 데이터 팀장들을 만나면 앞서 말한 분석을 사이언스로 말하는 사람도 있고 분석과 엔지니어링을 다 할 수 있으면 사이언스라고 말하는 사람도 보았습니다. 하지만 이런 영역들 보다는 기존에 없는 레시피를 만드는 것이 보다 이 직무에서 요구하는 스펙에 적합한 직무 설명이라고 생각합니다.
흔히 박사급을 요구하는 이 분야는 오픈소스로 많은 사람들이 범용적으로 쓸 수 있는 기초적인 알고리즘을 만드는 것이 아닌 자연어 처리, 더 정밀한 타겟팅 등 금융이나 광고, IT 서비스 등에서 특화된 알고리즘을 고안하는 데 많이 활용됩니다. 논문을 읽고 해석하는 수준에서 주로 논문을 쓸 수 있는 수준으로 보는 게 맞을 것 같습니다. 재료를 두고 새로운 요리 방법을 생각하는 거죠.
데이터 분석보다 분야가 특화되어 있는 경우가 많습니다. 추천, 번역, 행동 예측 등의 주제나 모빌리티, 커머스, 신용 등 도메인에서 전문적으로 있는 경우가 많고 실제 이직도 그렇게 많이 하는 것 같습니다.
간단하게 데이터 관련 직업에 관심이 있으신 분들을 타깃으로 역할들을 설명해 보았습니다. 대부분 데이터 조직이 구축된 지 얼마 되지 않았기에 기업에서 활용에 대한 관점이 제각각입니다. 하지만 데이터 컨설팅이나 금융 등 오랜 기간 데이터를 활용한 곳을 보면 크게 엔지니어링과 분석으로 구분이 되고 경우에 따라서는 머신러닝 엔지니어링 등으로 혼재되기도 합니다. 향후 어떤 방향으로 변화될지는 모르겠으나 요리하는 것을 생각해 본다면 존재해야 하는 역할 자체는 변하지 않지만 역할 간의 범위와 역할의 수준은 변화할 것 같습니다.
PETER님이 브런치에 게재한 글을 편집한 뒤 모비인사이드에서 한 번 더 소개합니다.