CNBC에서 전한 뉴스이다.
구글은 수요일, 전력을 많이 소비하는 머신 러닝 모델이 기술 업계에서 가장 뜨거운 이슈로 떠오르고 있는 가운데 인공지능 슈퍼컴퓨터 중 하나가 경쟁사인 엔비디아의 시스템보다 더 빠르고 효율적이라는 세부 정보를 공개했다.
엔비디아가 AI 모델 훈련 및 배포 시장의 90% 이상을 점유하고 있는 반면, 구글은 2016년부터 TPU(Tensor Processing Unit)라는 AI 칩을 설계하고 배포하고 있다.
구글의 바드(Bard), 오픈AI의 ChatGPT 등 엔비디아의 A100 칩이 탑재된 AI 모델과 제품은 모델 훈련에 많은 컴퓨터와 수백, 수천 개의 칩이 필요하며, 컴퓨터는 몇 주에서 몇 달에 걸쳐 24시간 내내 가동된다.
화요일 구글은 AI 모델을 실행하고 훈련하도록 설계된 맞춤형 구성 요소를 결합하여 4,000개 이상의 TPU로 구성된 시스템을 구축했다고 발표했다. 이는 2020년부터 가동되어 OpenAI의 GPT 모델과 경쟁하는 구글의 PaLM 모델을 50일 동안 훈련하는 데 사용되었다고 밝혔다.
TPU v4라고 불리는 구글의 TPU 기반 슈퍼컴퓨터에 대해 구글 연구원들은 다음과 같이 소개했다. “엔비디아 A100보다 1.2~1.7배 빠르고, 1.3~1.9배 더 적은 전력을 소비한다.”
또한 “성능, 확장성, 가용성 측면에서 TPU v4 슈퍼컴퓨터는 대규모 언어 모델의 주력이 될 것”이라고 연구진은 덧붙였다.
구글 연구원들은 ”구글의 TPU 결과는 엔비디아의 최신 AI 칩인 H100과 비교되지 않았다. 이는 H100이 더 새롭고 더 진보된 제조 기술로 만들어졌기 때문이다.” 라고 말했다.
MLperf라고 불리는 업계 전반의 AI 칩 테스트 결과와 순위가 수요일에 발표되었으며, 엔비디아 CEO 젠슨 황(CEO Jensen Huang)은 최신 엔비디아 칩인 H100의 결과가 이전 세대보다 훨씬 더 빠르다고 말했다.
“오늘의 MLPerf 3.0은 호퍼(Hooper)가 A100보다 4배 더 높은 성능을 발휘한다는 것을 강조하고 있다”고 황은 블로그에 언급했다. 추가적으로 “다음 단계의 생성형 AI는 에너지 효율이 높은 대규모 언어 모델을 훈련하기 위해 새로운 AI 인프라가 필요하다.” 라고 밝혔다.
AI에 필요한 상당한 양의 컴퓨터 전력은 고가이며, 많은 업계는 필요한 컴퓨터 전력을 줄이는 새로운 칩, 광 연결과 같은 구성 요소 또는 소프트웨어 기술을 개발하는 데 주력하고 있다.
AI에 필요한 전력은 구글, 마이크로소프트, 아마존과 같은 클라우드 제공업체에게도 도움이 될 수 있는데, 이들은 시간 단위로 컴퓨터 처리를 빌려주고 스타트업 기업에 크레딧과 컴퓨팅 시간을 제공하여 관계를 구축할 수 있다.
기사원문 : CNBC (2023.04.05) <Google reveals its newest A.I. supercomputer, says it beats Nvidia>
Google published details about one of its artificial intelligence supercomputers on Wednesday, saying it is faster and more efficient than competing Nvidia systems, as power-hungry machine learning models continue to be the hottest part of the tech industry.
While Nvidia dominates the market for AI model training and deployment, with over 90%, Google has been designing and deploying AI chips called Tensor Processing Units, or TPUs, since 2016.
Google is a major AI pioneer, and its employees have developed some of the most important advancements in the field over the last decade. But some believe it has fallen behind in terms of commercializing its inventions, and internally, the company has been racing to release products and prove it hasn’t squandered its lead, a “code red” situation in the company, CNBC previously reported.
AI models and products such as Google’s Bard or OpenAI’s ChatGPT — powered by Nvidia’s A100 chips —require a lot of computers and hundreds or thousands of chips to work together to train models, with the computers running around the clock for weeks or months.
On Tuesday, Google said that it had built a system with over 4,000 TPUs joined with custom components designed to run and train AI models. It’s been running since 2020, and was used to train Google’s PaLM model, which competes with OpenAI’s GPT model, over 50 days.
Google’s TPU-based supercomputer, called TPU v4, is “1.2x–1.7x faster and uses 1.3x–1.9x less power than the Nvidia A100,” the Google researchers wrote.
“The performance, scalability, and availability make TPU v4 supercomputers the workhorses of large language models,” the researchers continued.
However, Google’s TPU results were not compared with the latest Nvidia AI chip, the H100, because it is more recent and was made with more advanced manufacturing technology, the Google researchers said.
Results and rankings from an industrywide AI chip test called MLperf were released Wednesday, and Nvidia CEO Jensen Huang said the results for the most recent Nvidia chip, the H100, were significantly faster than the previous generation.
“Today’s MLPerf 3.0 highlights Hopper delivering 4x more performance than A100,” Huang wrote in a blog post. “The next level of Generative AI requires new AI infrastructure to train Large Language Models with great energy-efficiency.”
The substantial amount of computer power needed for AI is expensive, and many in the industry are focused on developing new chips, components such as optical connections, or software techniques that reduce the amount of computer power needed.
The power requirements of AI are also a boon to cloud providers such as Google, Microsoft and Amazon, which can rent out computer processing by the hour and provide credits or computing time to startups to build relationships. (Google’s cloud also sells time on Nvidia chips.) For example, Google said that Midjourney, an AI image generator, was trained on its TPU chips.