블로그

AI 팩토리를 위한 NVIDIA BlueField DPU의 힘과 의미

헌터 스밋 썸네일
헌터 스밋
2024년 12월 11일 게시

기업이 혁신을 가속화하고 자율주행 자동차나 대규모 언어 모델(LLM)과 같은 AI 기반 삶을 바꾸는 제품을 개발함에 따라, 운영을 확장하고 경쟁력을 유지하기 위해서는 효율적인 인프라가 필수적입니다. 전통적으로 데이터 센터는 범용 컴퓨팅에는 중앙 처리 장치(CPU)를 사용하고 AI와 머신 러닝에 핵심이 되는 집약적 병렬 처리 작업에는 그래픽 처리 장치(GPU)를 사용하는 데 중점을 두었습니다. AI 모델의 규모와 복잡성이 커짐에 따라 데이터 센터는 컴퓨팅의 새로운 단위가 되었고, 기존 클라우드 네트워크의 경계를 넓히고 있습니다. 데이터 센터 규모 컴퓨팅으로의 전환을 가능하게 하기 위해 데이터 처리 장치(DPU)가 컴퓨팅의 세 번째 기둥으로 등장했습니다.

AI 공장의 부상

앞서 AI 팩토리 시리즈에서 F5는 AI 팩토리를 대용량, 고성능 학습 및 추론 요구 사항을 처리하는 대규모 스토리지, 네트워킹 및 컴퓨팅 투자로 정의했습니다 . 기존 제조 공장과 마찬가지로 AI 공장은 사전 훈련된 AI 모델을 활용하여 원시 데이터를 지능으로 변환합니다.

데이터 처리 장치(DPU)란 무엇입니까?

DPU는 네트워크의 회선 속도로 하드웨어 가속을 통해 방대한 양의 데이터 이동과 처리를 처리하도록 설계된 프로그래밍 가능한 프로세서입니다. 2024년 후반에 NVIDIA BlueField-3 DPU에 배포된 Kubernetes용 BIG-IP Next를 발표했습니다 . NVIDIA BlueField 는 NVIDIA AI 팩토리에 전력을 공급하기 위해 특별히 구축된 데이터 센터 인프라용 가속 컴퓨팅 플랫폼입니다. CPU는 계산 애플리케이션의 범용 컴퓨팅을 담당하고 GPU는 AI 관련 대규모 벡터 및 행렬 계산, 그래픽 렌더링과 같은 가속 컴퓨팅 작업에 뛰어나지만, NVIDIA BlueField DPU는 종종 AI 클러스터의 호스트 또는 섀시에 대한 네트워크 연결을 담당하는 PCIe(Peripheral Component Interconnect Express) 네트워크 인터페이스 카드(NIC)에 통합됩니다. 즉, NIC는 이제 본질적으로 강력한 프로세서가 되어 서버에서 데이터를 주고받을 때 데이터를 처리하도록 최적화되었습니다. BlueField DPU는 여러 호스트나 섀시가 단일 AI 클러스터에 있는 경우 클러스터 간 네트워킹 장치로도 작동할 수 있습니다.

잠금 해제된 전원

BlueField DPU는 소프트웨어 정의 네트워킹, 스토리지 관리, 보안 서비스를 처리하여 CPU의 컴퓨팅 부담을 줄여 CPU가 뛰어난 작업에 집중할 수 있도록 합니다. 이러한 오프로드 기능은 복잡한 AI 모델과 실시간 추론 작업의 요구 사항을 충족하기 위해 방대한 양의 데이터를 처리하고 신속하게 전송해야 하는 AI 팩토리에 매우 중요합니다.

BlueField DPU는 AI 팩토리의 에너지 효율성과 확장성을 크게 향상시킵니다. AI 공장에는 막대한 컴퓨팅 리소스가 필요하기 때문에 전력 및 냉각의 효율적인 관리가 무엇보다 중요해졌습니다. DPU는 특수 가속 엔진과 고성능 네트워크 인터페이스를 갖추고 있어, 최소한의 지연 시간과 전력 소모로 데이터가 처리되고 전송되도록 보장합니다. 이러한 효율성은 운영 비용을 줄일 뿐만 아니라 AI 공장의 효과적인 확장을 가능하게 합니다. BlueField DPU를 사용하면 AI 공장과 대규모 인프라에서 AI 기술의 지속적인 혁신과 배포를 지원하는 균형 잡힌 고성능, 고효율 인프라를 구축할 수 있습니다.

BlueField DPU는 AI 팩토리에 어디에 배치되어 있습니까?

F5의 AI 참조 아키텍처를 살펴보면, DPU는 일반적으로 RAG 코퍼스 관리, 미세 조정, 교육, 추론 서비스의 기능 영역과 이러한 기능을 지원하는 스토리지 클러스터에 배포됩니다. 또한 DPU는 고성능 데이터 처리량과 전력 효율성이 필요한 수많은 애플리케이션에서 발견되며, 여기에는 5G 무선 접속 네트워크(RAN) 배포를 지원하는 DPU가 포함됩니다.

AI 참조 아키텍처 다이어그램

DPU가 일반적으로 배포되는 영역을 강조한 F5 AI 참조 아키텍처입니다 .

DPU에 애플리케이션 전달 및 보안 오프로드 및 가속화

AI 팩토리에 대한 효율적인 교통 관리와 강력한 보안에 대한 새로운 요구 사항은 보안 위협을 방지하기 위해 데이터 흐름과 강화된 인프라에 중점을 두는 중요한 변화를 나타냅니다. NVIDIA BlueField-3 DPU에 배포된 Kubernetes용 F5 BIG-IP Next는 CPU에서 DPU로 데이터 이동을 오프로드하고 가속화하여 저지연성과 고처리량 연결을 구현합니다. 또한 방화벽, DDoS 완화, WAF, API 보호, 침입 방지 등의 포괄적인 보안 기능을 프로그래밍 가능한 NVIDIA BlueField-3 DPU에 직접 통합합니다. 이를 통해 AI 모델과 앱을 위협으로부터 격리하는 아키텍처를 만들어 데이터 무결성과 주권을 보장할 수 있습니다.

Kubernetes용 BIG-IP Next는 멀티 테넌시를 지원하여 단일 인프라에서 여러 사용자와 AI 워크로드를 호스팅하고 네트워크를 격리할 수 있습니다. BIG-IP Next for Kubernetes를 사용하면 네트워킹, 트래픽 관리, 보안 및 멀티 테넌트 환경을 관리할 수 있는 중앙 지점을 제공하여 대규모 AI 인프라를 간편하게 관리할 수 있습니다. 이를 통해 네트워크 가시성과 성능 최적화를 위한 자세한 트래픽 데이터를 제공함으로써 운영이 간소화되고 운영 비용이 절감됩니다. Kubernetes용 BIG-IP Next와 NVIDIA BlueField-3 DPU의 통합은 도구 확산과 운영 복잡성을 줄이는 동시에 AI 팩토리가 최대한의 잠재력을 발휘하도록 보장하는 데 도움이 됩니다.

F5로 구동

AI에 투자하는 기업의 경우, 인프라의 최적화와 보안을 보장하는 것은 협상의 여지가 없습니다. NVIDIA BlueField-3 DPU에 구축된 Kubernetes용 F5 BIG-IP Next는 고성능, 확장성 및 보안을 제공하고 대규모 AI 인프라에서 수익을 극대화하기 위한 전략적 투자입니다. AI 팩토리 투자를 지원하기 위해 GPU와 DPU를 배포하는 조직의 경우 F5에 문의하여 BIG-IP Next for Kubernetes가 AI 워크로드를 어떻게 향상시킬 수 있는지 알아보세요.

F5의 AI에 대한 집중은 여기서 끝나지 않습니다. F5가 모든 곳에서 AI 앱을 보호하고 제공하는 방법을 살펴보세요.