기업 IT 전문가들은 AI 네트워크를 시험 운영해 보기 전까지 실제 요구 사항을 거의 알지 못했다고 언급하며, AI 트래픽 흐름 분석이 클러스터 네트워크 하드웨어를 선택하는 데 매우 중요한 역량이라고 말했다.
AI에 대한 관점은 흔히 2가지로 나뉜다. 엄청난 이익과 혜택을 가져다주거나, 아니면 인류를 멸망시킬 수도 있다는 견해다. 후자의 관점은 이제 설득력이 떨어지고 있다. 요즘은 ‘AI’를 외쳐도 도망가는 사람이 없을 정도다. 즉 전자의 견해가 여전히 강세인 가운데, 네트워크 벤더는 AI 주도의 변화를 통해 막대한 수익 성장이 가능하다고 주장하고 있다. 하지만 희망 사항에 가까운 주장이 곧바로 현실화할 리는 없다.
대부분의 사람들에게 AI란 이메일 작성부터 코드 작성에 이르는 모든 것과 관련된 검색 증강이나 코파일럿 도구 등 생성형 AI 서비스를 의미한다. 무엇이 이런 대규모 인텔리전스 주입을 가능하게 할까? 바로 네트워크다. 그렇다면 AI 사용이 늘어날수록 네트워크 트래픽이 폭발적으로 증가하고 네트워크 장비 지출도 늘어날까?
생성형 AI 서비스가 광역 네트워크 트래픽에 미치는 영향에 대해 의견을 제시한 195개 기업 중 ‘실질적인 영향’이 있다고 답한 기업은 전무했다.
가장 일반적인 형태의 생성형 AI 서비스인 검색 증강과 관련한 경험을 떠올려 보자. 이제는 기존 검색 결과 이전에 AI 요약 결과가 먼저 표시된다. 요약이 더 좋다고 가정하면 다른 결과는 덜 필요하게 되고 첫 페이지 이상을 볼 필요가 줄어든다. 그러면 트래픽은 오히려 감소한다. 반대로 요약이 쓸모없다면, 사용자는 이를 지나친다. 따라서 50자 이상의 추가 텍스트는 검색 제공업체가 결국 AI GPU 호스팅에 비용 지불을 중단할 때까지 무시될 수 있다. 이 경우에도 AI의 실질적인 영향은 없을 가능성이 높다.
전반적으로 기업들은 생성형 AI와의 프롬프트/질문 및 응답의 교환이 네트워킹에 큰 영향을 미치지 않을 것으로 봤다. 195개 기업 중 28곳은 비디오 AI 분석과 같은 새로운 애플리케이션이 트래픽에 영향을 미칠 수 있다고 예상했다. 하지만 이런 애플리케이션은 데이터 소스 근처의 자체 엣지 시설에서 실행될 가능성이 높기에 광역 트래픽에 영향을 미치거나 네트워크 서비스 또는 자본 장비 사용을 확대하지는 않을 것이라고 기업들은 내다봤다.
생성형 AI 지원이 네트워크 측면에서 별 영향이 없다고 해서 AI와 네트워크의 연결이 완전히 의미 없는 것은 아니다. AI 모델의 학습과 실행이라는 중요한 과제가 여전히 남아있기 때문이다.
응답 기업 중 AI를 자체 호스팅하고 있는 기업은 21곳(10.7%)이었다. 하지만 자체 호스팅을 하고 있거나 진지하게 고려 중인 기업은 거의 모두 AI 호스팅에 GPU를 갖춘 특수 컴퓨터 클러스터가 필요하며, 이 클러스터는 내부에 연결돼 있어야 하고 핵심 비즈니스 데이터의 주요 저장소와도 연결돼야 한다고 언급했다. 기업은 이를 완전히 새로운 네트워킹 과제로 보고 있다.
AI를 자체 호스팅하는 모든 기업은 ‘수평적’ 트래픽을 지원하기 위해 현재 데이터센터가 지원하는 수준보다 더 많은 대역폭이 필요하다고 설명했다. 이 그룹 중 10곳은 AI 서버 클러스터에 더 빠른 이더넷 연결과 고용량의 스위치가 필요하다고 언급했다. 기업들은 모두 실제 온프레미스 AI 배포에 새로운 네트워크 장치가 필요하다는 데 동의했으며, 15개 기업은 대규모 시험용으로 새 스위치를 구매했다고 답했다.
경험 있는 기업이 언급한 데이터센터 네트워크의 주요 문제는 필요 이상으로 AI 클러스터를 구축하는 데 있었다. 인기 있는 LLM을 실행하려면 수백 개의 GPU와 서버가 필요하지만, 소규모 언어 모델은 단일 시스템에서 실행할 수 있다. 현재 자체 호스팅 기업의 3분의 1은 소규모 모델로 시작해 경험을 쌓고 필요성을 입증할 수 있을 때만 확장하는 것이 최선이라고 말했다. 이들은 또한 실제로 유용한 AI 애플리케이션만 실행되도록 통제가 필요하다고 지적했다. 사용자들은 “그렇지 않으면 애플리케이션이 증가해 AI 클러스터의 크기를 초과하고, 규모가 더 커지게 된다”라고 말했다.
현재 AI 자체 호스팅 기업의 사용자 모두는 다른 애플리케이션에 잠재적인 정체 영향을 미칠 수 있기 때문에 AI 수평 트래픽을 기본 데이터센터 네트워크에서 분리해야 한다고 말했다. 호스팅된 생성형 AI 수평 트래픽은 엄청나고 예측할 수 없을 가능성이 높다. 한 기업은 자사 클러스터가 전체 데이터센터 규모만큼의 수평 트래픽을 생성할 수 있지만, 이는 대부분 1분을 넘지 않는 버스트 형태로 발생한다고 언급했다. 또한 수평 버스트의 지연 시간이 결과 전달과 버스트 길이를 크게 늘려 애플리케이션 가치를 상당히 저해할 수 있다고 지적했다.
AI 클러스터와 기업 핵심 데이터 저장소 간의 데이터 관계는 복잡하며, 이 관계에 따라 AI 클러스터가 나머지 데이터센터에 미치는 영향이 결정된다. 여기서 문제는 지원되는 애플리케이션과 구현 방식 모두가 데이터센터 저장소에서 AI로 데이터가 이동하는 방식에 큰 영향을 미친다는 점이다.
IT나 네트워킹 또는 보안 분야의 운영 분석에 AI/ML을 사용하는 등 매우 제한된 범위의 AI/ML 애플리케이션은 실시간 데이터에 접근해야 하지만, 일반적으로 낮은 볼륨의 원격 측정이기 때문에 기업들은 그 영향이 거의 없다고 밝혔다. 비즈니스 분석용 생성형 AI 애플리케이션은 핵심 비즈니스 데이터에의 광범위한 접근이 필요하지만, 대개 전체 트랜잭션 세부 정보보다는 과거 기록 요약이 필요하므로 압축된 소스 데이터를 AI 클러스터 내에 복사본으로 유지할 수 있는 경우가 많다.
전체 트랜잭션 데이터가 필요한 경우, 실제 AI 사용자는 AI 커뮤니티에서 RAG(검색 증강 생성)을 고려할 것을 권장했다. RAG를 사용하면 AI 모델이 전통적인 데이터베이스 쿼리를 사용해 모델의 학습 데이터를 ‘증강’한다. 이는 AI 프롬프트에 의해 추출되는 데이터의 양을 최소화하도록 전체 프로세스를 설계할 수 있다. 한 사용자는 “AI 모델이 전체 핵심 데이터를 처리하도록 놔두면 트래픽이 급증하고 데이터센터 네트워크 용량을 많이 사용하게 된다”라고 언급했다. 그는 네트워크 설계보다 올바른 AI 애플리케이션 설계가 AI 네트워크 비용을 최적화하는 데 더 중요하다고 덧붙였다.
하지만 AI 자체 호스팅의 중대한 영향은 실행이 아닌 학습에 있다. 현재 AI를 자체 호스팅하는 모든 기업은 모델 학습이 실행보다 기업 네트워크에 더 큰 영향을 미친다고 설명했다. 여기서도 경험이 있는 사용자들은 사내에서 LLM의 전체 모델 학습을 실행하는 것보다 사전 학습된 모델로 시작해 RAG로 회사 데이터를 통합하는 등 다양한 방식으로 학습 문제를 제한하는 방법이 현명할 것이라고 제안했다.
AI 네트워킹에 대한 견해를 가진 기업들은 현재 업계가 ‘네트워킹’ 부분에 너무 많은 관심을 집중하고 ‘AI’ 부분에 소홀한 상황이라고 지적했다. 다른 네트워크 과제와 마찬가지로 AI도 케이블과 장치를 연결하기 전에 기술 및 트래픽 영향을 이해해야 한다. 이미 사내 AI 프로젝트를 수행해 본 기업은 호스팅과 연결에서 실제 AI가 필요로 하는 수준을 파악하기 위해 더 많은 노력을 기울였다면 더 나은 결과를 저렴한 비용으로 얻었을 것이라고 언급했다.
[email protected]
Leave a Reply