블로그 | CTO 사무실

GPU 최적화에 초점을 맞춘 AI 인프라 솔루션의 필요성

로리 맥비티 썸네일
로리 맥비티
2024년 7월 11일 게시

생성적 AI는 인프라에 대한 AI의 영향을 가속화하고 있습니다. 우리는 이미 인프라 르네상스에 진입했습니다.기술자들은 데이터 센터의 하위 계층인 네트워크, 컴퓨팅, 스토리지에 대한 관심과 존경을 되살리고 있습니다. 무어의 법칙의 '죽음'과 엣지 컴퓨팅의 등장으로 인해 우리는 이미 수년 전부터 전문화된 처리 장치(xPU)의 부상을 목격했습니다.

오늘날 생성적 AI 와 비디오 게임 덕분에 GPU는 가정의 용어가 되었고 GPU 최적화는 새로운 요구 사항이 되었습니다. 

그 이유는 GPU에 대한 수요는 많은 반면 공급은 부족하기 때문입니다. 많은 기업들은 이미 전체 IT 예산의 상당 부분을 이 강력한 하드웨어에 투자하고 있거나 투자할 계획을 세우고 있습니다. 그 투자 중 일부는 자체 인프라에 투자되고, 일부는 퍼블릭 클라우드 인프라를 지원하는 데 사용됩니다.

하지만 이 모든 것은 AI 애플리케이션을 운영하는 데 필요한 GPU 리소스의 가용성을 지원하기 위한 것입니다.

하지만 주변을 살펴보면, 인프라에 새로운 유형의 리소스를 도입하는 데는 어려움이 따른다는 것을 알 수 있습니다. 오랫동안 많은 기업들은 인프라를 상품으로 취급해 왔습니다. 즉, 모두 똑같다는 말이죠.

그리고 대체로 그렇습니다. 조직에서는 모두 동일한 메모리 및 컴퓨팅 기능을 갖춘 화이트 박스나 브랜드 서버를 표준화했습니다. 이로 인해 트래픽 관리 에서 워크로드가 server8756에서 실행되는지, server4389에서 실행되는지에 대해 걱정할 필요가 없으므로 인프라 운영이 더 쉬워졌습니다. 그들은 동일한 능력을 가지고 있었습니다.

하지만 지금은? 오, GPU가 모든 것을 바꿔 놓았습니다. 이제 인프라 운영에서는 GPU 리소스가 어디에 있고 어떻게 활용되는지 알아야 합니다. 그리고 잘 진행되지 않을 수 있는 징후들도 있습니다.

2024년 대규모 AI 인프라 현황 에 따르면 "15%는 사용 가능한 GPU와 구매한 GPU의 50% 미만이 사용 중이라고 보고했습니다."

이제, 조직의 15%가 GPU 리소스의 50% 이상을 사용하는 데 필요한 부하가 없을 가능성이 확실히 있습니다. 그럴 수도 있고 그렇지 않을 수도 있습니다.

물론, 일부 조직은 후자의 범주에 속하게 될 것입니다. 충분한 여유 GPU 용량이 있는데도 AI 앱이 사용자의 기대에 부응하지 못하는 이유를 궁금해하며 고민하게 될 것입니다.

일부는 인프라에 대한 것이고, 작업 부하가 필요한 리소스에 적절히 맞춰져 있는지 확인하는 것입니다. 결국, AI 앱의 모든 워크로드에 GPU 용량이 필요한 것은 아닙니다. 이 기능으로부터 이익을 얻는 작업은 추론 서버 정도이고, 그 외에는 그다지 많은 작업이 필요하지 않습니다. 즉, 인프라 계층에서 전략적 아키텍처 작업이 이루어져 GPU를 많이 사용하는 워크로드는 GPU 지원 시스템에서 실행되고, 다른 앱 워크로드는 일반적인 기존 시스템에서 실행되도록 해야 합니다.

즉, 어떤 노드가 GPU를 지원하고 어떤 노드가 지원하지 않는지 파악하는 정책을 프로비저닝해야 한다는 의미입니다. 이는 GPU 최적화의 중요한 부분입니다. 또한 이는 해당 리소스에 요청을 분배하는 앱 서비스도 더 스마트해야 한다는 것을 의미합니다. 부하 분산 , 유입 제어 및 요청을 분산하는 게이트웨이는 인프라 활용과 관련된 효율성 방정식의 일부입니다. 모든 요청이 GPU 지원 시스템 하나 또는 두 개로 이동하면 성능이 저하될 뿐만 아니라 조직에서는 많은 돈을 들여 구매한 "여분의" GPU 용량만 남게 됩니다.

또한 퍼블릭 클라우드에서 GPU 리소스를 활용하는 것을 의미할 수도 있습니다. 그러기 위해서는 네트워크 서비스를 활용해 공유되는 데이터의 보안을 보장해야 합니다.

다시 말해, AI 애플리케이션은 분산성 측면과 실시간 프로비저닝 및 관리 방식 측면에서 인프라에 상당한 영향을 미칠 것입니다. 운영에서 사용 가능한 리소스와 위치에 대한 최신 보기를 확보하기 위해 원격 측정에 대한 필요성이 증가하고, 프로비저닝이 워크로드 요구 사항과 일치하는지 확인하기 위한 우수한 자동화가 필요합니다.

이것이 조직이 전체 엔터프라이즈 아키텍처를 현대화 해야 하는 이유입니다. 더 이상 단순히 계층이나 단계가 중요한 것이 아니라, 이러한 계층과 단계가 어떻게 상호 연결되고 서로 지원되어 AI의 힘을 활용할 수 있는 디지털적으로 성숙한 기업 의 요구를 충족시키는지가 중요해졌습니다.