최대 규모 AI의 대명사처럼 여겨지고 있는 LLM(Large Langage Model)에 대해서 이야기를 해 보려고 합니다. LLM은 구글에서 개발한 트랜스포머 모델에 기반을 두고 인간이 실제 사용하는 언어에 근접한 수준의 언어를 생성해 내는 AI 모델입니다. 현재 AI 시장을 장악하고 있는 가장 강력하고, 트랜디한 기술이 바로 LLM이라고 할 수 있겠습니다.
최근에는 LLM에 기반을 둔 멀티모달이라는 개념으로 이행되고 있는 중입니다. 멀티모달은 말 그대로 LLM을 기반으로 하여 스크립트를 생성하는 차원을 벗어나서 이미지, 음악, 영상 등을 생성해 주는 언어 모델 기반의 다양한 생성 서비스를 제공하는 기술을 통칭합니다.
요즘 유튜브를 보면 작곡 AI, 보컬 AI, 이미지 AI 등등 이전에는 보기 힘들었던 콘텐츠들이 범람하고 있죠? 모두 멀티모달 AI 서비스를 활용한 콘텐츠라고 보시면 되겠습니다.
LLM 진영에서 제일 발전되어 있다고 여겨지는 오픈 AI의 ChatGPT도 GPT-4.0 기반의 이미지 서비스를 론칭했죠? 바로 달리가 그것입니다.
달리의 핵심은 언어를 그림으로 바꿔준다는 것입니다. 물론 실제 사용해 보면 이것이 뭔가 대단한 변화를 주는 수준까지 이르지는 못했습니다. 하지만 기술이 무르익는다면 분명 터닝포인트, 특이점이 오는 날이 올 겁니다. 아직까지 특이점은 오지 않았지만 강인공지능(AGI) 특이점이 오는 시기를 평균 2030년대로 보고 있으니 얼마 남지 않았다는 생각이 들기도 합니다.
인간처럼 사고하고, 직접 판단이 가능하고, 스스로 의사 결정을 하여 자율적으로 움직일 수 있는, 인간을 능가하는 인공지능의 등장이 머지않은 것 같은데요. 한 가지 문제점이 있다면 인공지능이 정교해지면 정교해질수록 인공지능의 정확도를 높이기 위한 파라미터 즉 매개변수의 수가 점점 늘어난다는 점입니다.
다음 도표는 ChatGPT의 매개변수가 어떻게 변화해 왔는지를 정리한 지디넷의 기사에 삽입된 표를 발췌한 것입니다. 이제 GPT-4가 출시되었고, 매개변수의 수가 공개되지 않았지만 시장에서는 약 5,000억 개 내외일 것으로 예상하고 있습니다.
매개변수가 많을수록 AI가 내놓는 답이 정확도가 높아진다고 알려져 있습니다. 하지만 중요한 것은 매개변수의 수를 늘리는 것뿐만이 아니라, 소프트웨어 알고리즘 최적화라는 과제가 함께 합을 맞추어야 쾌적한 생성 AI 환경을 만들 수 있을 것입니다.
또한, 매개변수의 크기가 중요한 이유는 매개변수의 크기가 클수록 더 고성능의 반도체를 필요로 하기 때문입니다. 파라미터, 즉 매개변수가 1,000억 개라면 1,000억 개를 처리할 수 있는 능력을 갖춘 하드웨어가 수반되어야 한다는 점입니다. 그래서 수많은 매개변수를 효과적으로 처리하기 위해 GPU의 성능이 계속하여 증가되고, 더 많은 데이터를 효과적으로 처리하기 위해 좀 더 고성능의 메모리 반도체가 필요하게 되는 것입니다. 이것이 바로 현재 엔비디아와 HBM이 각광을 받고 있는 이유입니다.
엔비디아는 지난 3월 신형 GPU인 블랙웰을 발표하였습니다. 당시 중요하게 대두되었던 것은 블랙웰 GPU 두 개와 그레이스 CPU를 결합한 GB200 플랫폼이었습니다. 또한 GB200 36개를 한 랙으로 묶어 72개의 블랙웰 GPU를 탑재한 NVL 72 슈퍼팟을 공개했다는 점이 크게 다가왔습니다. 이러한 GB200 기반의 AI 하드웨어 플랫폼을 통해 최대 10조 개의 파라미터, 즉 매개변수를 처리할 수 있는 능력을 갖추었다고 엔비디아는 설명했었습니다.
중요한 것은 여러 칩들을 통합하여 최대 10조 개의 파라미터를 연산할 수 있는 괴물급의 하드웨어를 만들어냈다는 점입니다. ChatGPT만 해도 이제 차기 모델이 조 단위의 매개변수를 가질 것으로 보입니다.
게다가 AI 연산은 단순히 언어나 이미지, 영상 생성을 벗어나 제약 바이오 분야까지 진출하고 있습니다. 언어 모델의 개발이 파라미터 개수의 획기적인 증가를 불러일으켰다면 제약, 바이오 분야는 늘어난 파라미터 개수를 폭발시키는 역할을 수행하게 될 것입니다. 그야말로 조 단위 파라미터의 시대가 이미 열렸다고 보는 것이 타당할 것입니다.
그렇다면 이렇게 매개변수의 수가 늘어나면 어떤 문제가 발생할까요?
AI 연산은 데이터를 끌어다가 가장 확률이 높은 답을 찾는 과정입니다.
한 번에 답이 나오면 좋겠지만, 답이 나오지 않는다면 알고리즘이 다시 피드백하여 복잡한 연산 과정을 다시 거치도록 합니다. 이 피드백 과정에서 엄청난 전력 소모가 일어나게 됩니다. 즉 파라미터의 수가 많은 것은 AI의 정확도를 높이기도 하지만, 이를 효율적으로 관리하지 못한다면 불필요한 피드백을 늘리게 될 것이고, 이는 곧 컴퓨팅 역량의 비효율을 초래하게 될 것입니다.
파라미터 중 불필요한 부분을 자르고, 꼭 필요한 부분을 취사선택하여 모델의 사이즈를 줄이는 과정이 반드시 필요하다는 것입니다. 이것을 우리는 ‘경량화’라고 부릅니다. AI 모델의 크기를 다운사이징하여 연산의 효율을 높이는 과정입니다.
이전까지 AI 산업의 동향은 어떻게 하면 모델의 크기를 키워서 더 방대한 양의 데이터를 처리할 수 있을 것인가에 맞춰져 있었다면 이젠 어떻게 하면 효율적으로 AI 연산을 수행하게 하여 컴퓨팅 역량의 비효율을 줄일 것인가에 초점에 맞춰져 있다고 볼 수 있을 것입니다.
이번에 삼성전자와 네이버에서 공동 개발한다고 밝힌 마하 1 칩의 경우 NPU 기반의 AI 가속기이고요. 이를 FPGA를 통해 성능 검증을 했다고 알려져 있습니다.
저는 마하 1 칩의 가장 중요한 부분이 두 가지라고 생각하는데요. 바로 경량화 알고리즘과 LPDDR의 사용을 통해 소비 전력을 획기적으로 줄이는 것에 있다고 생각합니다.
마하 1 칩은 전술했듯 삼성전자와 네이버가 합작하여 개발하고 있습니다. 아마도 반도체 설계와 제조 기술력을 두루 갖춘 삼성과 다년간의 AI 서비스를 통해 소프트웨어 노하우를 쌓은 네이버의 합작으로 시너지를 노리는 것 같습니다. 어쩌면 엔비디아가 구축했던 ‘GPU – CUDA’라는 공식을 그대로 답습하기 위한 포석이 아닐까 하는데요.
엔비디아 GPU의 최적화를 위해 만들어진 CUDA 소프트웨어가 엔비디아 왕국을 건설하는 데에 지대한 영향을 미친 바와 같이 삼성이 제조하는 마하 1 칩의 성공을 위해 네이버가 개발한 경량화 알고리즘이 세트를 이루는 그림을 그려볼 수 있을 것입니다.
물론 마하 1은 네이버에만 독점 공급되는 판매 불가 칩이긴 합니다만, 여기에서 노하우를 쌓는다면 다른 데이터센터 기업과의 콜라보를 통해 더 좋은 성능의 칩을 만드는 것이 가능할 것입니다. 그런 의미에서 이번 마하 1 개발은 삼성의 하드웨어 제조 기술력과 네이버의 소프트웨어 기술력을 판단해 볼 수 있는 좋은 기회가 될 것이라고 생각합니다.
그렇다면 마하 1칩에 적용될 것으로 보이는 경량화 알고리즘에 대해서 잠시 살펴보겠습니다.
가장 보편적인 경량화 알고리즘은 중요도가 떨어지는 매개변수를 제거하는 Neural Network Pruning입니다. 이는 말 그대로 불필요한 부분을 잘라냄을 통해 다운사이징 하는 방식이라고 보면 될 것입니다.
위 그림을 보시면 PRUNING 알고리즘을 적용하기 전과 후의 매개변수의 숫자가 현저하게 차이 남을 알 수 있습니다. 복잡한 연산 과정을 핵심 위주로 단순화하고, 불필요한 연산과정을 축소함을 통하여 모델의 사이즈를 다운사이징하는 것입니다. 이를 통해 연산량을 통제할 수 있고, 보다 핵심에 가까운 답을 도출해낼 수 있습니다. AI 연산에 사용되는 에너지와 시간도 단축될 수 있을 것입니다.
소프트웨어에서 연산에 필요한 데이터를 한 번 걸러주니 연산에 활용되는 하드웨어 컴퓨팅 역량도 여유가 생길 것입니다. 즉, 좀 더 적은 전력을 사용하면서도 순도 높은 연산 결과를 얻어낼 수 있다는 의미입니다.
아마도 삼성전자가 마하 1의 하드웨어를 담당하고 네이버가 경량화 알고리즘 쪽을 담당하게 될 것으로 보이는데요. 소프트웨어 경량화 알고리즘의 커스터마이징이 얼마나 효율적으로 세팅되는가에 따라 마하칩의 성능도 좌우될 것으로 보입니다.
다른 경량화 방식으로는 Knowledge-Distillation 방식이 있습니다. 이 방식은 학습을 할 때 원본 데이터들을 축약하여 TEACHER 영역에서 선행학습을 한 뒤, STUDENT 영역으로 어느 정도 곱씹어진 데이터 셋을 넘기는 것을 의미합니다.
한 마디로 전자가 불필요한 영역을 가위로 잘라내는 작업이라면, Knowledge-Distillation 방식은 학습 영역을 선생과 학생 영역이라는 두 영역으로 나누고 원본 데이터를 선생 영역이 한 번 걸러서 요약을 해 주고, 요약된 데이터를 학생 영역이 받아 최종 학습하는 형태로 이루어진다고 볼 수 있습니다.
이를 그림으로 표현하면 다음과 같습니다.
이들 중 어떤 모델이 마하칩에 적용되는지는 알 수 없습니다만, 둘 모두 어느 정도 불필요한 영역을 쳐낸다는 경량화 알고리즘의 기본 전제는 같기 때문에 둘 중 어떤 방식을 택하더라도 컴퓨팅 파워에 대한 부담은 줄어들게 될 것입니다.
이렇게 처리해야 할 데이터 셋의 크기가 줄어들면 좋은 점은 굳이 고용량, 고성능의 메모리를 사용하지 않더라도 쾌적한 연산이 가능해진다는 점입니다.
그래서 마하칩은 HBM이 아닌 서버용 LPDDR을 사용합니다. 물론 향후 마하 칩의 개발 방향이 어떻게 흘러갈지는 모르겠습니다만, 현재는 경량화와 저전력에 초점을 맞추어 LPDDR을 마하칩의 메모리로 낙점하는 분위기입니다. 만약 HBM 대용으로 LPDDR를 사용하는 이번 시도가 성공적으로 진행된다면 AI 칩 시장에도 일대 변혁의 신호탄을 쏠 수 있을 것으로 생각합니다.
물론 마하칩이 판매 불가 칩이라는 차원에서 시장에 미치는 영향이 제한적이라는 의견이 강하긴 하지만 어떤 혁신적인 기술에 대한 성공사례가 늘어나면 새로운 기술 트렌드로 자리 잡을 가능성도 배제할 수 없기에 마하칩의 성공이 삼성에게 가져올 후광 효과를 기대하게 만드는 부분입니다.
강성모 님이 브런치에 게재한 글을 편집한 뒤 모비인사이드에서 한 번 더 소개합니다.
모비인사이드의 뉴스레터를 구독해보세요