최근 전 산업에 걸쳐서 ‘인공지능’ 활용, 도입 소식을 쉽게 접할 수 있습니다. 올 초 열렸던 세계 최대 가전제품 및 IT 전시회인 ‘CES 2020’에서도 인공지능 이야기가 주를 이뤘는데요. 단순해 보이지만 복잡한 인공지능과 데이터에 대한 이야기를 해볼까 합니다.

 

 

 

인간의 두뇌 능력을 닮은 인공지능

 

‘인공지능’이란 무엇일까요? ‘인간이 만들어 낸 지능’, 인간의 지능적인 행동(사고, 학습 등)을 모방하도록 만들어진 기계를 말합니다. 인공지능에게 학습 교재는 ‘데이터’이며, 인간의 두뇌 활동과 같이 어떤 문제를 처리하도록 기계에 적용되는 것이 바로 ‘알고리즘’이죠. 인공지능은 알고리즘을 토대로 수많은 데이터를 학습시킴으로써 인간의 두뇌처럼 작동하도록 만들어진 기계입니다.

번역 서비스 ‘플리토’에서는 ‘인공지능 번역 서비스’를 제공하고 있는데요. 번역기를 예로 다시 한번 보자면, 인공지능 번역기는 인간의 언어 능력을 모방하여 만들어진 기계입니다. 각 언어마다 단어, 문장 구조, 문법 등 충분한 언어 데이터와 알고리즘을 토대로 인공지능을 반복적으로 학습시켜 만들어진 것이죠. 인공지능 번역기에 학습된 데이터 양이 많을수록 그리고 다양할수록, 번역의 품질은 높아지고 더욱 자연스러운 번역 결과를 제공합니다.

 

 

 

똑똑한 인공지능을 위해 중요한 것은? 데이터!

 

인공지능 기반의 제품, 서비스를 개발하고 운영하기 위해서 어떤 것이 중요할까요?

무엇보다 학습 교재로 쓸 데이터를 확보하여야 합니다. 방대한 양이 필요함은 물론이고 다양성 또한 중요합니다. 또한 기계가 이해하고 학습할 수 있도록 ‘데이터 가공’ 과정도 필요합니다. 여기에 사물 판별, 감정 분석, 태그 생성 등 알맞은 메타 데이터를 부여하는 ‘데이터 어노테이션’ 과정을 거쳐야 비로소 기계 학습형 데이터가 되는 것이죠.

여기서 학습 교재인 데이터란 무엇일까요? 부동산 정보, 기업 정보, 소비 통계 등 제품과 서비스에 따라 필요한 데이터는 달라집니다.

플리토에게는 ‘언어 데이터’가 인공지능 번역기를 학습시키는 교재가 됩니다. 인공지능 번역기가 똑똑하게 작동하기 위해서는 각 언어에 따른 형태의 다양성, 상황의 다양성, 언어 사용자의 다양성 등이 확보되어야 합니다. 음성 데이터의 경우에도 사람마다 말투, 어조가 다르므로, 데이터가 많을수록, 다양할수록 데이터의 정확도를 높일 수 있습니다. 신조어, 구어, 일상생활에서의 표현 등 새롭고 다양하며 정확한 데이터는 인공지능 번역기가 ‘진짜’ 사람처럼 유행에 맞게 언어를 구사할 수 있도록 도와줍니다.

예를 들어, ‘좋다’라는 한국어를 상황에 따라 영어로는 ‘good’, ‘nice’, ‘like’ 등으로 다르게 표현하고, ‘갑분싸(갑자기 분위기 싸해짐)’라는 신조어를 이해해 영어로 ‘the atmosphere suddenly became uncomfortable’라고 표현하는 플리토의 인공지능 번역기처럼 말이죠. 

 

 

 

계란이 먼저일까 닭이 먼저일까

 

모든 인공지능 제품, 서비스가 더 정확한 결과물을 제공하기 위해서는 학습을 거듭해야 합니다. 이 때 필수적인 학습 자료가 바로 데이터라는 점에서, ‘인공지능’ 그 자체만큼이나 ‘데이터’가 중요하다고 할 수 있는데요. 계란과 닭, 무엇이 먼저인지 논하기 어려운 것처럼, 인공지능과 데이터의 관계도 그러합니다.

‘빅데이터’라는 말처럼 방대한 양의 데이터를 확보하는 것만큼이나 데이터의 다양성도 중요합니다. 그리고 무엇보다 데이터에 ‘의미’가 있어야 학습에 활용해 사람의 뇌를 흉내 내도록 만들 수 있겠죠. 그렇기 때문에 ‘양질’의 데이터는 인공지능의 중심, 정보기술 산업의 핵심이라고 할 수 있습니다.

최근 데이터3법 개정안을 통해 데이터 활용에 물꼬가 트였습니다. ‘인공지능 시대’, ‘4차 산업혁명’, ‘데이터 경제 시대’로 일컬어지는 변화와 발전의 중심에서, 앞으로 데이터를 어떻게 활용할 수 있을지 관심이 모아집니다.

 

 

 

플리토와 모비인사이드의 파트너쉽으로 제공되는 기사입니다.