"엔비디아 칩 못 구해요" 빌려쓰는 클라우드 GPU '뜬다'
GPU 수급난 해법으로 떠오른 GPUaaS, 글로벌과 국내 시장 경쟁 본격화
글로벌 GPUaaS 시장, 연평균 35.8% 성장률…2032년 약 69조원 규모
(사진=유토이미지) *재판매 및 DB 금지
[서울=뉴시스]송혜리 기자 = 그래픽처리장치(GPU) 수급난과 높은 운영 비용 문제 해결책으로 서비스형 GPU(GPU-as-a-Service, GPUaaS)가 주목받고 있다.
클라우드를 통해 인공지능(AI) 서비스 개발에 필요한 만큼 GPU를 빌려 쓰는 구독형 모델인 GPUaaS는 유연성과 비용 효율성을 앞세워 빠르게 확산 중이다. 구글, 마이크로소프트(MS), 아마존웹서비스(AWS), IBM 등 해외 빅테크들은 일찌감치 이 사업을 전개했고, 카카오엔터프라이즈 등 국내 클라우드 서비스 기업들도 GPUaaS 시장 경쟁에 적극적으로 뛰어들고 있다.
GPU 수급난과 비용 문제, AI 개발의 장애물로 작용
전 세계적인 GPU 수급난은 기업들이 AI 프로젝트를 제 때 시작하지 못하거나 속도를 늦추는 주요 원인이 되고 있다. 또 GPU 구매 시 공급업체가 요구하는 최소 사용량과 장기 약정 같은 조건은 자원의 유연한 활용을 어렵게 만들어 비용 낭비를 초래하기도 한다.
GPUaaS는 이러한 문제를 해결하기 위해 등장했다. 기업들은 고가의 GPU를 직접 구매하지 않고, 클라우드를 통해 필요한 만큼만 빌려 쓰는 방식으로 AI 개발을 이어갈 수 있다. 이 모델은 초기 투자 비용을 줄이고, 접속량이나 작업량에 따라 유연하게 GPU 사용량을 조절할 수 있어 효율적이다.
글로벌 시장 조사 업체 포춘 비즈니스 인사이트에 따르면, 전 세계 GPUaaS 시장은 지난해 32억3000만달러 규모로 평가됐으며, 올해 43억1000만달러(약 5조9600억원)에서 2032년 498억4000만달러(약 68조9700억원)로 성장하며 연평균 성장률은 35.8%에 달할 것으로 전망했다. 또 클라우드 도입, 산업 전반에 걸친 AI 채택, AI 분야에 대한 정부 지원 정책 등이 이러한 상승세를 이끌고 있다고 분석했다.
관련 업계 관계자는 "산업 전반에서 AI의 활용이 더욱 확대될수록 GPU 활용의 중요성은 더욱 커지고 있다"고 설명했다. 이어 "AI를 적용해 대고객 서비스를 제공하거나, 전반적인 업무 성과를 향상시키기 위해 AI를 활용하고자 하는 기업은 비용 효율성, 확장성 등을 고려해야 한다"면서 "GPUaaS는 이런 과제 해결을 위한 기술로, AI혁신을 가속하는 기반이 되고 있다"고 말했다.
GPU 리소스 시간대별로 조정…35%의 운영비 절감
카카오클라우드의 클라우드 컴퓨팅 서비스인 비욘드 컴퓨트 서비스(Beyond Compute Service, BCS)는 접속자 수나 작업량에 따라 GPU 사용량을 자동으로 조절할 수 있어, 필요할 때만 자원을 효율적으로 사용할 수 있도록 한다. 이에 따라 대규모 데이터 세트에서 빠른 속도로 AI 모델을 학습시키거나 고성능 그래픽 애플리케이션, 게임 등을 실행하는 사용 사례에 적합하며, 특히 빠른 응답속도와 안정성, 가격 합리성이 강점으로 꼽힌다.
현재 AI 개발에 가장 많이 사용되는 반도체인 엔비디아 A100 기준으로 카카오클라우드는 최대 96개의 vCPU 및 768 GiB의 메모리, 최대 50 Gbps의 네트워크 대역폭을 지원한다.
AI 스타트업 스캐터랩은 카카오클라우드의 GPUaaS를 활용해 실시간 AI 스토리 창작 플랫폼 '제타'를 운영하며, 사용자 증가에 따라 유연한 GPU 자원 조정과 비용 효율성을 확보했다. 카카오클라우드는 해외 클라우드 대비 빠른 네트워크 처리와 안정성을 제공해, 지연 문제 해결과 함께 채팅당 비용을 약 3분의 1로 절감하는 데 기여했다.
삼성SDS는 AI 연구개발(R&D)에 특화된 클라우드 서비스 'R&D 클라우드 포(for) AI'를 통해 기업들의 AI 개발을 지원하고 있다. 이 서비스는 고성능 GPU를 하나로 묶어 필요한 순간에 필요한 만큼만 사용할 수 있게 해주는 것이 특징이다.
또 연구자들이 복잡한 설정 없이 바로 작업에 집중할 수 있도록 가상화된 환경을 제공한다. 이로 인해 AI 모델을 훈련하거나 데이터를 분석하는 데 걸리는 시간이 단축되며, 효율성도 높아진다. 아울러 작업 순서와 자원 배치를 똑똑하게 조정하는 스케줄러를 통해 GPU를 더 효과적으로 활용할 수 있도록 돕는다. 기업들은 이를 통해 대규모 AI 모델을 훈련하거나 분석하는 데 드는 초기 투자 부담을 덜고, 효율적인 연구 환경을 구축할 수 있다.
SK텔레콤은 람다 GPU 자원을 기반으로 GPUaaS를 다음달 출시한다. 회사는 지난 8월, 미국 GPUaaS 기업 람다와의 이같은 협력 내용을 공개했다. 아울러 다음달 서울 가산 SK브로드밴드 데이터센터에 엔비디아 GPU H100을 설치한 AI 데이터센터를 개소한다고 밝혔다.
회사는 AI 시장 성장에 따라 국내 GPU 수요가 급등하는 것을 감안해 3년 안으로 GPU를 수천 대 이상까지 늘리고, 최신 GPU 모델인 H200도 조기 도입을 추진 중이다. 이를 통해 가산 데이터센터를 시작으로 엔비디아 단일 GPU로 구성된 국내 최대 규모의 GPU 팜을 확충하는 것이 목표다.
◎공감언론 뉴시스 [email protected]
Copyright © NEWSIS.COM, 무단 전재 및 재배포 금지