글로벌 IT 트렌드와 이슈를 번역하여 쉽게 내용을 정리했습니다.
이번에 소개드릴 주제는 빅데이터를 이해하기 위한 과학에 대한 이야기입니다.
빅데이터를 이해하기 위한 과학
오늘 TV나 라디오를 킨 적 있습니까? 당신은 스마트폰 앱을 사용했을 것입니다. 그리고 가게에 들려서 저녁 재료를 사거나, 온라인 쇼핑을 통해 새로운 샴푸를 샀을지도 모릅니다.
일상의 데이터를 연결하여 가치를 창출한다.
이러한 모든 행동들은 매일매일 일어나는 단순한 일상이다. 하지만 오늘날 서로 연결 되어있는 디지털 세상에서는 가치 있는 데이터들이다. 이러한 데이터들은 브랜드나 마케터로 하여금 고객의 니즈를 이해하는데 돕고 비즈니스 영역을 성장시키기 위해서의 결정 과정을 돕는다는 점에서 중요하다. 하지만 그보다 먼저, 브랜드와 마케터들은 모든 데이터들을 이해할 필요가 있다.
데이터를 통한 인사이트 추출로 소비자의 니즈를 찾다.
오늘날 우리가 생산해내는 디지털 데이터들의 사이즈와 범위가 너무 크기 때문에 충격 받을 수도 있다. 우리의 일상적인 행위로 생성되는 이 방대하게 흩뿌려진 데이터들을 의미 있게 사용함과 동시에, 책임감 있는 데이터 관리자가 되고 프라이버시를 보호하려면 특별한 지식과 기술을 요구한다. 다행히도, 많은 기술과 플랫폼들을 통해서 데이터에서 인사이트를 추출해내는 새로운 도구들을 사용할 수 있다. 새로운 데이터 소스를 추구하고 분석적인 툴을 이용하여 빅데이터를 뽑아내는 것은 데이터 과학팀의 역할이다. 과학적 방법, 프로세스, 알고리즘과 시스템을 이용하면서 데이터 과학자들은 여러 데이터 뭉치에서 가치 있는 인사이트를 도출해낸다.
데이터 과학자들은 클라이언트들을 위해서 데이터들을 연결하는 반복 가능한 방법을 찾고 소비자의 니즈에 대한 솔루션을 제공하는 일을 하고 있다. 이 데이터들은 클라이언트가 고객의 니즈를 이해하기 위해서 사용할 수 있는 무한한 데이터들이지만 데이터 과학자들은 이 데이터들을 연결함으로써 클라이언트의 의사 결정을 돕고 결과적으로 그들이 성장 할 수 있도록 한다.
빅데이터의 편향성을 극복하기 위한 방법
새로운 기술과 빅 데이터가 미디어와 제품의 소비를 측정하는 방법에 혁명을 일으키고 있다는 것에는 의심의 여지가 없지만 그것도 또한 한계가 있다는 것을 알아야 한다. 빅데이터는 편향될 수 있다. 예를 들어서, 당신이 TV채널을 바꿀 때 사용하는 리모컨을 생각해보자. 버튼을 누르면 신호가 셋톱박스로 가게 되고 신호는 데이터를 산출한다. 하지만 그 데이터는 당신에 대해 제한적으로만 알 수 있다. 또한 당신이 버튼을 눌렀는지 또는 당신의 가족이 눌렀는지도 알 수 없다. 편향된 데이터는 잘못된 인사이트로 오도할 수 있으며 마케터에 의해 잘못된 의사 결정이 내려질 수 있게 한다.
또 다른 예시도 있다. 스마트TV와 SVOD 1 서비스는 소비자들에게 원하는 프로그램을 원하는 시간에 볼 수 있게 해준다. 하지만 미국인들 중 오직 60%만 이러한 기기를 가지고 있다. 결과적으로, 이러한 기기에서 나오는 데이터들은 전체 미국 인구를 대표하지 못한다는 것이다.
잘 구조화된 패널은 빅데이터에서의 많은 편향성들을 없앨 수 있다. 예를 들어서, 닐슨에서는 전략적으로 미국의 인구를 대표하기 위해서 U.S TV 패널을 사용하여 연령, 인종, 소득 별로 분류했다. 케이블 셋톱 박스로부터 얻은 패널들의 인사이트와 빅데이터를 닐슨이 결합함으로써, 우리는 리모컨을 조종한 사람이 누구인지 알아낼 수 있었다. 즉 패널과 빅데이터를 융합한 접근법은 빅데이터의 디테일한 부분과 세부시장에 대한 정보를 알려줄 수 있고 편향성을 최소화함과 동시에 정보에 대한 대표성도 줄 수 있다.
AI를 통해 작업할 때의 기하급수적으로 늘어나는 능률로 인하여, 투입되는 데이터의 깨끗함과 대표성에 대한 신뢰도 확인이 매우 중요해 졌다. 이러한 기준을 충족시키지 못하면 많은 데이터를 AI에 넣어봤자 결과는 보잘것 없다는 것을 말한다. 이는 유용한 결과를 얻으려면 유용한 데이터를 넣어야 하며, 우리가 보통 충분히 좋다고 생각하는 데이터도 AI 세계에서는 그렇지 않을 수 있다는 것이다.
궁극적으로, 오늘날과 같은 빅데이터의 시대에서는 재무, 고객 서비스, 인사, 미디어 분석과 같은 많은 비즈니스 분야가 각자의 분야에 데이터 과학을 통합하기 위해 진화하고 있다. 다양한 배경을 가진 더 많은 사람들에게 분석 기술에 대한 핵심 지식을 제공함으로써 오늘날 여러 분야에 걸쳐 더 나은 의사결정을 할 수 있게 된다. 이러한 새로운 참여자들이 데이터 분석에서 우리의 고려사항들을 이해한다면, 데이터 과학의 미래에 좋은 징조가 될 것이라고 생각한다.
요약
- 오늘날 우리는 일상에서 엄청나게 많은 데이터들을 만들어내며, 이 데이터에서 의미를 도출해냄과 동시에 프라이버시를 보호하기 위해서는 지식과 기술이 필요하다.
- 데이터는 한 쪽으로 편향될 수 있다는 리스크가 있는데, 이를 해결하기 위해서는 투입되는 데이터의 투명성과 대표성에 대한 신뢰도 확인이 필요하다.
- 앞으로 더 많은 비즈니스 영역에서 빅 데이터를 활용할 것이며, 이렇게 다양한 분야의 시각으로 빅 데이터를 이해하는 것은 데이터 과학의 미래에 좋은 징조가 될 것이다.
원제:THE SCIENCE TO MAKE SENSE OF BIG DATA
yonyon님이 브런치에 게재한 글을 편집한 뒤 모비인사이드에서 한 번 더 소개합니다.