2010년 이후 빅데이터는 줄곧 화두였다. 대형 마트의 기저귀 코너 옆에 맥주를 비치해 아내의 심부름을 온 남편의 지갑을 공략, 2012년 미국 대선 오바마 선거 캠프가 빅데이터를 활용해 당선이 됐다는 이야기 등 무용담이 쏟아져 나오곤 했다.
우리나라 역시 빅데이터가 화두였다. 3~4년 전부터 빅데이터를 도입하겠다는 기업들이 우후죽순 나타났다. 하지만 현재는 묵묵부답일 뿐이다.
- 관련 글: 현대카드 사장의 말뿐인(?) 빅데이터론
최근 온라인 P2P 대출서비스 ‘빌리’가 빅데이터 분석업체인 라인웍스, 고려대학교 멀티미디어보안연구소와 양해각서를 체결했다는 소식을 보자마자 의심이 들었던 이유가 여기에 있었다. 위의 링크에 담겨 있듯, 그 동안 카드사나 보험사 등 금융권에서 빅데이터 프로젝트를 진행한다는 이야기가 많았지만 실체는 보이지 않았기 때문이다.
특히, 라인웍스에 대한 정보는 없다시피 했다. 궁금증은 더욱 커질 수밖에. 그래서 직접 만나보고 판단을 내리기로 결정했다. 그렇게 해서 지난 12월 18일 신사역 근처 라인웍스 사무실에서 조용현 라인웍스 대표와 홍원준 최고기술책임자(CTO)를 만났다.
조용현 대표는 고려대학교 데이터베이스 연구실을 졸업하고 한국전자통신연구원에서 근무했다. 이후, 대용량 데이터의 저장, 분산 시스템을 만들 계획으로 지난 2013년 라인웍스를 설립했다. 홍원준 CTO는 고려대학교 뇌공학과를 전공했고, 이 영역에서 석사 학위를 밟던 중 머신러닝에 관심을 갖게 돼 라인웍스에서 이 영역을 총괄하고 있다.
처음에는 빅데이터 어플라이언스 시스템 자체를 만들어서 팔고자 했다. 하지만 시스템 자체를 만들어서 판매하는 것은 국내에서 불가능에 가깝다는 점을 인지하게 됐다. 결국, 사업 방향에 있어서 ‘피벗’을 결심했다. 데이터를 정제하고, 일반인들도 이해할 수준으로 시각화하는 분야에서 비즈니스 모델을 찾겠다는 것. 첫 시작은 의료 데이터였다.
“2014년도 부터 전국민 건강보험 데이터의 일부가 공공데이터로 공개됐습니다. 이 데이터는 잘 정제돼 있는것 같지만, 실제로 전문의료인인 의사, 약사분이 연구를 위해 분석하기가 쉽지 않습니다. 이를 정제하고 분석하여 어떤 정보를 추출해야 가치가 있는지 그리고 어떤 알고리즘이 효과적인지 연구하는 시간으로 1년을 보냈습니다. 시행착오도 많았습니다.”
해외에서는 이미 의료 데이터를 통해 사업적인 가치를 찾은 조직들이 많다. 존스홉킨스, 메요클리닉, 화이자 등 해외 기업들은 관련 데이터를 분석해 신약 개발, 의학 연구, 마케팅 등에 사용하고 있다. 국내 의료업계 종사자들도 데이터의 가치를 알고 있습니지만 분석 기술이 따라오지 못하는 상황이다.
라인웍스가 노린 영역이 바로 이 지점이다. 이들은 심평원이나 건강보험 등 공공데이터를 기반으로 사망률, 언론 기사까지 데이터화 한다. 코드 한 줄로 환자의 진료기록, 약 처방 내역 등을 확인할 수 있다.
파이썬 기반으로 개발한 크롤러가 데이터 수집을 하며, 데이터의 정제는 SQL온하둡인 타조(Tajo)를 이용한다. 그리고 분석은 머신러닝 알고리즘을 도입해서 진행하고 있다. 정형 데이터를 저장하는 영역이기에 MySQL을 통해서도 충분히 할 수 있지만, 질병별 의약품별로 필요한 데이터를 추출하며 학습데이터 집합(Learning Set)이나 정답 집합(Answer Set)을 생성하면, 기하급수적으로 데이터량이 증가한다는 게 조 대표의 설명이다. 즉, 확장 가능한 인프라를 구현하기 위해 타조를 선택하게 됐다는 것이다.
“데이터의 대부분이 기계적으로 수집한 것이 아니라 사람이 입력하기 때문에 정제에서 많은 작업을 해야 합니다. 진단서 데이터의 경우 남성인데 중간에 여성으로 잘못 표기된 데이터가 있기도 하고 연령이 한두살씩 차이가 나기도 하지만 아예 999로 입력된 경우도 있습니다. 초기에 수기로 작성하는 시점에서 잘못된 것입니다. 이런 데이터들을 정제하면서부터 데이터분석을 시작합니다. 정제된 데이터는 통계분석이나 기계학습 알고리즘을 통하여 분석을 하는데 가장 쉬운 예시는 장바구니 알고리즘으로 알려진 Apriori 알고리즘이 있습니다. 사람들이 어떤 물건들을 장바구니에 같이 담는 것이 아니라 어떤 질병들이 같이 진단되는지를 찾아보는 것이죠.”
정제가 됐다고 해서 끝은 아니었다. 소비자의 눈높이에 맞춰야 하는 장벽이 도사리고 있었다. 라인웍스가 정제, 분석한 데이터의 주 고객은 의사나, 제약업체 종사자였다. 이들의 연구를 지원하고자 만든 내용인데, 정작 이들이 이해하지 못하는 것이 문제였다.
“데이터를 설명하려고 하면 안됩니다. 보자마자 이게 이득이 된다는 것을 느끼게 해야 하죠. 하지만 저희의 시각에서 이해한 인사이트를 그들에게 이해시키려고 했습니다. 그게 패착이었습니다. 몇번의 시행착오 끝에 ‘데이터를 시각화해야겠다’는 생각에 이릅니다. D3.js를 활용해 직관적인 인사이트를 보여주고자 했죠.”
데이터 분석 기업 라인웍스가 데이터를 기반으로 한 그림(시각화)을 그리는 데에 이른 이유였다.
이들은 검은 컴퓨터 화면에 코드로 보여주던 데이터를 지역, 질병, 성분 등의 지표를 중심으로 시각화했다. 반응 역시 빨랐다. 데이터의 값어치를 시장에서 인정받기 시작한 것이다. 직관적으로 의료데이터를 보게 되면서 의료 사각지대 데이터까지 살펴볼 수 있게 됐다. 라인웍스는 오는 2016년 다양한 의료데이터 지표를 시각화해 공개할 예정이다.
조 대표의 이야기를 듣다가 한 가지 의문이 더 생겼다. 의료 데이터를 분석하고 시각화하던 라인웍스가 갑작스럽게 P2P 대출형 크라우드펀딩 스타트업인 빌리와 MOU를 체결한 건 무슨 이유일까?
“라인웍스 설립 당시부터 의료 데이터와 금융 데이터를 연결해서 분석하는 일을 진행하고 있었습니다. 최근 국내에서 빠른속도로 성장하고 있는 P2P 대출 크라우드펀딩 서비스들은 대출자의 신용을 척도하기 위해서 서비스의 주대상 고객군에 대한 분석모델이 필요했습니다. 그래서 여러 P2P 업체들과 미팅을 진행했고, 저희와 비슷한 비전을 가진 빌리를 만나게 됐습니다.”
라인웍스는 다각적인 금융 관련 정보를 데이터화하여 빌리 대출자의 신용등급을 정하는데 도움을 주고 있다. 기존 1금융권에서는 18~20가지의 데이터를 가지고 만든 신용평가 모델을 활용하여 대출자의 신용등급을 결정했다면, 라인웍스와 빌리는 새로운 빅데이터 방법을 활용해 1금융권 대출 조건에 맞지 않더라도 충분히 대출 상환 능력을 갖고 있는 사람들을 분별하고 있다.
“충분히 대출상환을 할 능력이 있음에도 신용등급이 3등급 이하로 정해지면, 1금융권에서 대출 받기 쉽지 않죠. 특히, 사회초년생이 사각지대에 놓일 가능성이 높은데요. 이들은 신용 등급을 측정할 데이터가 부족하기 때문입니다.”
라인웍스는 기존 신용 평가 모델에서 사용하고 있는 신용카드 거래 정보, 대출 및 연체 정보 등을 포함하여 500가지가 넘는 데이터를 가지고 기계 학습시켜 대출자의 상환 능력을 평가한다. 이를 통해 대출자는 개인에게 최적화된 모델로 신용을 평가 받고, 빌리는 심사 기간을 줄일 수 있다.
현재 중금리 대출을 제공하는 P2P 대출 분야는 기존에는 없던 새로운 분야이다. 또한 기존 금융권에서는 대출을 제공하지 않던 사람들이 그 대상이기 때문에 그에 맞는 새로운 신용평가 모델이 필요하다.
“기존 금융권에서도 10년 전, 5년 전과 같은 지표로 신용을 평가하지 않습니다. 지표도 추가되고, 비율도 달라지기 마련입니다. 기계학습을 통하여 기존보다 더 많은 지표를 가지고 좀 더 빠르게 변하는 상황에 적응해 갈 수 있습니다. 여기에 빌리에 모이는 데이터를 통하여 P2P 대출에 최적화된 모델을 만들 수 있다는 점에서 빌리와 마음이 맞았습니다.”
라인웍스는 2016년부터 자사가 갖고 있는 데이터 정제, 분석 역량을 더욱 강화할 계획이다. 사회적으로 공익적인 가치를 줄 수 있는 의료 지표를 공유하는 것은 물론, 금융 데이터와 관련해서도 더욱 많은 사업을 할 계획이다. 국내 데이터 드리븐 비즈니스가 발전하고 있는 현장이 바로 여기에 있었다.
[fbcomments url=”https://s3.ap-northeast-2.amazonaws.com/mobiinsidecontent/index.php/2015/12/24/interview_linewalks/” width=”100%” count=”off” num=”5″ countmsg=”wonderful comments!”]