2024년 여름, 엔비디아 설립자 겸 CEO 젠슨 황은 "새로운 유형의 데이터 센터 AI 공장은 새로운 상품인 인공지능을 생산한다"고 제안했습니다 . 그렇다면 AI를 물리적 상품처럼 생각해 봅시다. 이렇게 하면 포드의 리버 루즈 단지가 떠오릅니다. 수직적 통합과 산업화를 구현한 곳이죠. 한쪽에서는 철과 고무가 들어갔고, 반대쪽에서는 포드 자동차가 나왔습니다. 자체 부두, 100마일의 내부 철도 선로, 전용 발전소, 심지어 자체 철강, 유리, 제지 공장까지 갖춘 The Rouge는 하루 24시간 가동되었고 연간 약 150만 대의 자동차를 생산했습니다.
마찬가지로, 대용량, 고성능의 학습 및 추론 모델을 처리하는 현재와 미래의 AI 팩토리는 엄청난 양의 원재료를 섭취합니다. 즉, 데이터입니다. 구조화된 것, 구조화되지 않은 것, 비디오, 텍스트 등. 이러한 팩토리는 이 데이터를 수많은 애플리케이션에서 활용할 수 있는 토큰화된 출력 으로 변환합니다. Rouge Complex가 생산의 각 단계에 대한 정확한 제어가 필요했던 것처럼, AI 워크로드에는 데이터 수집, 처리, 전달을 처리할 수 있는 강력한 트래픽 관리 시스템이 필요합니다. 한마디로 물류가 필요합니다. 적절한 교통 관리 솔루션을 사용하면 AI 공장은 현장에서 원자재를 가져와 사용 가능한 상태로 만들 수 있습니다. 적절한 물류 도구를 사용하면 팀은 원활한 데이터 흐름, 높은 처리량, 낮은 지연 시간 및 보안을 보장할 수 있으며, 이는 모든 단계에서 조립 라인을 원활하게 유지하는 것과 같습니다.
2020년 하버드 비즈니스 리뷰는 알리바바 계열사인 앤트 그룹이 AI 팩토리에서 실행 가능한 인텔리전스를 생성하여 "최대 규모의 미국 은행보다 10배 이상 많은 고객에게 서비스를 제공하는 다양한 사업을 관리하고 직원 수는 1/10도 안 됩니다."라고 설명했습니다. Ant Group이 AI 공장 구축을 개념화하는 방식도 마찬가지로 매력적입니다.
“모든 공장에는 4가지 구성 요소가 필수적입니다. 첫 번째는 데이터 파이프라인입니다. 이는 체계적이고 지속 가능하며 확장 가능한 방식으로 데이터를 수집, 정리, 통합 및 보호하는 반자동화된 프로세스입니다. 두 번째는 기업의 미래 상태나 행동에 대한 예측을 생성하는 알고리즘입니다. 세 번째는 실험 플랫폼으로, 새로운 알고리즘에 대한 가설을 테스트하여 제안이 의도한 대로 효과가 나는지 확인하는 플랫폼입니다. 네 번째는 인프라, 즉 이 프로세스를 소프트웨어에 내장하고 이를 내부 및 외부 사용자와 연결하는 시스템입니다."
앞서 AI 팩토리 시리즈에서 F5는 AI 팩토리를 대용량, 고성능 학습 및 추론 요구 사항을 처리하는 대규모 스토리지, 네트워킹 및 컴퓨팅 투자 로 정의했습니다. 이것이 Ant Group 목록의 첫 번째와 네 번째 구성 요소가 특히 흥미로운 이유입니다. AI 모델이 수집하는 데이터를 안전하고 효율적으로 관리하는 데 필요한 시스템을 구축하는 과제는 AI 팩토리가 가치를 생산하기 위해 주변 인프라를 어떻게 개발해야 하는지에 대한 질문을 전면에 내세웁니다.
AI 데이터 수집을 위한 트래픽 관리란 수십억 개의 매개변수와 미디어가 풍부한 AI 데이터 트래픽을 관리하여 기계 학습 및 교육 목적으로 AI 팩토리로 전송하는 끊임없는 프로세스입니다. 여기서 고성능 교통 관리 솔루션이 등장하여 교통량을 AI 팩토리로 보냅니다. 이러한 솔루션이 없다면 팀은 트래픽 흐름을 유지하기 위해 연결을 재사용해야 하거나 스토리지 인프라 한계에 도달하게 될 수 있는데, 이 두 가지 모두 AI 팩토리가 원하는 최적화된 속도와 규모로 실행하는 데 필요한 대용량, 저지연 데이터 전송 요구 사항에 적합하지 않습니다.
AI 팩토리로 이동하는 AI 데이터 트래픽을 관리합니다.
하지만 이 분야의 발전 속도는 정체되어 있지 않습니다. 점점 복잡해지는 AI 모델은 점점 더 많은 양의 데이터 입력을 요구합니다. 이로 인해 AI 모델 내에서 클라우드나 온프레미스에 데이터를 배치하는 것이 매우 중요해지면서 데이터 중력 문제가 발생합니다. 미래의 AI 데이터 수요에 대응하기 위해 구축된 AI 팩토리에는 수신하는 데이터로부터 더 빠른 통찰력을 얻기 위한 요구 사항을 충족할 수 있도록 확장 가능한 인프라가 필요합니다. AI 팩토리 인프라는 궁극적으로 해당 인프라가 지원하는 AI 모델의 성공과 사업적 가치를 좌우할 수 있습니다. 풍부한 미디어 소비의 급속한 증가로 인해 일부 클라우드 공급자를 통해 처리하는 경우 네트워크 트래픽과 관련 비용이 상당히 증가할 수 있습니다. 따라서 이러한 상황에 직면한 기업은 두 가지 과제에 직면하게 됩니다. 효율적인 AI 학습 모델에 필요한 고속 데이터 처리량을 유지하고 , 클라우드에서 데이터를 전송하고 처리하는 데 따른 복잡성과 비용을 관리하는 것입니다.
AI 팩토리에 관한 첫 번째 기사에서 설명한 4가지 AI 팩토리 배포 유형(AI-SaaS, 클라우드 호스팅, 셀프 호스팅 또는 엣지 호스팅)을 신중하게 검토하면 기업이 클라우드 대역폭에 대한 의존도를 없애거나 줄여 이러한 복잡성을 관리하는 데 도움이 될 수 있습니다. 데이터를 로컬에서 처리하면 클라우드 대역폭 문제가 방정식에서 사라질 뿐만 아니라, 또한 민감한 교육 데이터 세트에 대한 완벽한 제어권을 제공합니다. 이를 통해 조직은 민감한 정보를 조직의 보안 네트워크 내에 보관하여 데이터 노출을 최소화하는 동시에 데이터가 저장, 액세스 및 처리되는 방식을 제어할 수 있으므로 규정 요구 사항(예: GDPR, HIPAA 또는 PCI DSS)을 충족하기가 더 쉬워집니다.
AI 데이터 트래픽과 애플리케이션 트래픽은 F5 BIG-IP 로컬 트래픽 관리자(LTM) 및 차세대 하드웨어 솔루션과 유사한 방식으로 상호 작용합니다. 즉, 기존 애플리케이션 트래픽 흐름을 최적화하는 것과 마찬가지로 팀은 FastL4 프로필과 같은 도구를 사용하여 AI 데이터 트래픽 흐름을 최적화하여 가상 서버 성능과 처리량을 높일 수 있습니다. TCP 최적화를 활용하여 네트워크 성능에 중요한 TCP 연결을 시스템이 처리하는 방식을 미세 조정할 수 있습니다. 심지어 BIG-IP의 OneConnect를 구축하여 BIG-IP 시스템과 백엔드 풀 멤버 간에 생성된 연결을 효율적으로 관리함으로써 네트워크 처리량을 늘릴 수도 있습니다. AI 팩토리 간에 AI 데이터 트래픽을 분산할 솔루션을 찾고 있는 기업은 멀리 갈 필요가 없습니다. F5는 20년 이상 앱 트래픽 관리를 최적화하는 도구를 개발해 왔으며, 이를 통해 BIG-IP LTM은 AI 데이터 수집 트래픽을 처리하는 데 이상적입니다.
AI 애플리케이션은 현대 애플리케이션 중 가장 현대적인 애플리케이션입니다. 강력하고 다재다능한 교통 관리 솔루션이 없으면 현장에서 사용 가능한 데이터가 그대로 남아 있고, AI 모델이 이를 통해 얻을 수 있는 가치는 사라집니다. 루즈에는 부두와 수 마일에 달하는 철도 선로가 있었고, AI 공장에는 BIG-IP와 같은 F5 솔루션이 있습니다.
F5의 AI에 대한 집중은 여기서 끝나지 않습니다. F5가 모든 곳에서 AI 앱을 보호하고 제공하는 방법을 살펴보세요.
AI 공장에 대해 자세히 알고 싶으신가요? AI 팩토리 블로그 시리즈에서 다른 시리즈를 탐색해 보세요.