인프라 르네상스에는 서버가 서비스를 제공하고 추론이 가능하다는 캐치프레이즈가 있습니다.
기술 초창기에는 SSL 가속기를 테스트하고 분석하는 데 수년을 보냈습니다. 이러한 작은 카드는 디지털 비즈니스와 상거래의 폭발적인 성장으로 인해 발생한 심각한 문제를 해결하기 위해 설계되었습니다. 즉, SSL을 사용하는 보안 기능이 CPU 사이클을 많이 소모하고 성능 문제의 주요 원인이 된다는 것입니다. 그래서 F5를 포함한 업계에서는 이런 기능의 부담을 덜어주고 서버가 서비스를 제공할 수 있는 하드웨어를 개발했습니다.
오늘날 우리는 AI, 특히 추론과 관련하여 동일한 문제가 발생하는 것을 보고 있으며, 아이러니하게도 동일한 종류의 솔루션이 생겨나고 있습니다. 즉, 서버가 추론을 제공하고 추론을 수행할 수 있도록 하는 특수 하드웨어가 필요합니다.
네, 문법적으로 맞는지 잘 모르겠지만 일단은 그대로 써볼까요? 감사합니다.
앞서 지적했듯이 AI 응용 프로그램은 건축적 구성 측면에서 현대적인 응용 프로그램입니다 . 하지만 AI 애플리케이션의 핵심은 추론이며, 여기서 AI는 "일반적인" 현대 애플리케이션과 다릅니다.
우리는 AI 컴퓨팅 단지가 CPU와 GPU의 뱅크로 어떻게 구성되는지 살펴보았습니다. 이러한 컴퓨팅 리소스에는 클러스터의 효율적인 작동을 위해 유지되어야 하는 비율과 균형이 있습니다. CPU가 따라잡지 못할 때마다 매우 비싼 GPU는 작동하지 않습니다.
아시다시피 추론 서버의 처리 중 실제 추론은 일부에 불과합니다. 이 중 많은 부분은 HTTP 및 API 요청에 대한 표준 웹 처리입니다. 추론 서비스 중에서 CPU를 사용하는 부분이라 종종 과부하가 발생합니다. 이런 일이 발생하면 추론의 서버 측이 요청을 처리하느라 속도가 느려지면서 GPU 사용이 점점 줄어듭니다.
이것이 바로 조직의 15%가 사용 가능한 GPU와 구매한 GPU의 50% 미만이 사용 중이라고 보고하는 이유일 것입니다( 2024년 대규모 AI 인프라 현황 ).
여기서 문제 중 하나는 인프라 작업에 CPU 리소스를 사용한다는 것입니다. 트래픽 관리, 보안 운영, 모니터링과 같은 서비스도 CPU 리소스를 소모하며 전체 시스템에 부하를 더합니다. 이로 인해 추론 서버의 용량과 성능이 저하되고 GPU 리소스 활용도가 낮아집니다.
다행히도, 이 인프라 르네상스는 인프라 작업을 새로운 처리 장치인 DPU에 오프로드하여 추론 작업에 필요한 CPU 리소스를 보존하는 데 관한 것입니다.
DPU의 흥미로운 점은 실제로 두 가지 모드를 지원한다는 것입니다. 첫째, Infiniband나 Ethernet을 통한 RDMA와 같은 네트워킹의 부담을 덜어줄 수 있습니다. 이는 AI 모델을 훈련하거나 대규모 사용자 기반에 대한 추론을 확장하는 등 상당한 양의 데이터가 흐르는 AI 컴퓨팅 단지를 구축할 때 엄청난 도움이 됩니다.
하지만 DPU는 'DPU' 모드로도 구성될 수 있습니다. 쿠버네티스에서는 애플리케이션 제공 및 보안과 같은 기능을 실행할 수 있는 별도의 노드로 표시됩니다. 이를 통해 예측 불가능하고 요구 사항이 더 높은 인프라 작업 부하를 클러스터 내의 자체 노드로 '오프로딩'하여 추론 서비스에 대한 CPU 컴퓨팅을 효과적으로 예약할 수 있습니다. 이를 통해 F5 BIG-IP Next SPK(Kubernetes용 서비스 프록시) 와 같은 솔루션을 사용하면 API를 통해 인바운드 NS AI 요청을 관리하고 보호하고 이를 AI 컴퓨팅 단지 내의 적절한 추론 서비스에 적절히 분산할 수 있습니다.
이러한 접근 방식을 통해 조직은 Kubernetes 인프라 관리에 대한 기존 지식과 투자를 활용할 수 있습니다. 왜냐하면 당사 솔루션은 Kubernetes에 기본으로 제공되기 때문입니다. 코어, 클라우드, 에지 - 운영이 클러스터 수준에서 이루어지고 모든 환경에서 일관되기 때문에 중요하지 않습니다.
또한 애플리케이션 제공 및 보안 서비스 관리에 대한 책임을 분리하여 네트워크 및 보안 운영 팀이 개발 및 ML 운영 팀이 관리하는 AI 워크로드와 별도로 인프라를 처리할 수 있습니다.
마지막으로, 애플리케이션 제공 및 보안을 위해 DPU를 활용하면 조직의 다중 테넌시 요구 사항을 더 잘 충족할 수 있습니다. 이는 단순히 고객 작업 부하를 분리하는 것이 아니라 작업 부하를 모델링하는 것입니다. 우리의 조사에 따르면 기업들은 이미 평균 2.9개의 서로 다른 모델을 사용하고 있습니다 . 일관된 솔루션을 통해 각각의 사용을 관리할 수 있게 되면 각 개별 모델에서 사용 및 생성되는 데이터의 보안 및 개인 정보 보호에 대한 확신이 더욱 커집니다.
F5가 AI 관련 사용 사례 에서 NVIDIA DPU를 사용한 것은 이번이 처음이 아닙니다. 하지만 모든 규모의 고객이 확장 가능하고 안전한 AI 컴퓨팅 단지를 구축하여 모든 환경에서 추론의 힘을 안전하고 확신을 가지고 활용하고 GPU 리소스 사용을 최적화할 수 있도록 돕는 솔루션을 개발하기 위해 함께 작업한 것은 이번이 처음입니다 .