사내 생성형 AI 확장하려니 새 인프라 숙제 생긴다?!

Posted by:

|

On:

|

생성형 AI를 실험하는 조직은 일반적으로 오픈AI의 챗GPT나 앤쓰로픽의 클로드와 같은 클라우드 기반 서비스를 엔터프라이즈 계정을 사용한다. 초기 필드 테스트를 성공적으로 마무리하면 해당 기술을 더 많이 배포하는 양상을 보인다.

글로벌 컨설팅 회사 SSA & 컴퍼니의 응용 솔루션 부문 리더인 닉 크레이머는 “경영진을 위한 요약본을 작성하거나 마케팅 콘텐츠를 제작하는 데 생성형 AI를 사용하는 기업이 이미 흔하다. 내년에는 이러한 사용 사례가 분명히 더 늘어난다. 이에 더해 다른 기업 애플리케이션에 생성형 AI가 탑재되는 경향이 증가할 것”이라고 말했다.

챗GPT, 오피스 365, 세일즈포스 사용만으로는 차별화 요소가 되기 어렵다. 생성형 AI가 차별화 요소 또는 경쟁 우위 요소가 되려면 기업은 다른 조직의 활용 방식을 넘어서는 방법을 찾아야 한다. 즉, 맞춤형 모델을 만들거나, 기존 모델을 미세 조정하거나, 검색 증강 생성(RAG) 임베딩을 사용해야 한다. 이는 시스템을 훈련하고 배포하기 위한 인프라에 투자해야 한다는 의미로 이어진다.

통신 테스트 기업 스파이런트는 오픈AI의 기업용 버전 챗GPT를 사용하는 것으로 생성형 AI 여정을 시작했다. 회사의 엔터프라이즈 기술 및 전략 담당 부사장 매트 보스트롬은 “우리 데이터가 퍼블릭 모델에 들어가는 것을 원치 않았다. 엔터프라이즈 에디션이 이러한 요구 사항을 충족했기 때문에 자체 LLM을 구축할 필요가 없었다. 지금은 클로드도 사용하고 있다”라고 말했다.

스파이런트는 이를 서비스에 대해 내부 직원용으로 130개 이상의 라이선스를 유지하고 있다. 별도의 API 비용이나 통합 작업 없이도 사용할 수 있는 서비스들이다. “즉 사용자 라이선스만 지불하면 된다”라고 그는 말했다.

하지만 회사의 생성형 AI 활용 사례는 거기에 그치지 않았다. “기존 애플리케이션에도 AI를 적용하고 싶었다. 세일즈포스와 다른 회사에서 AI 모듈을 추가할 수 있도록 지원하기는 한다. 그러나 우리 고유의 사용 사례에도 적용하고자 했다”라고 그는 덧붙였다. 이는 곧 회사가 상당한 인프라 작업을 해야 한다는 것을 의미했다. 대부분의 엔터프라이즈급 AI 프로젝트가 그러하듯 데이터 관련 작업에서부터 이를 위한 프로젝트가 시작됐다.

데이터의 잠재력 극대화라는 과제

딜로이트의 3분기 생성형 AI 현황 보고서에 따르면, 75%의 조직이 생성형 AI로 인해 데이터 관리에 대한 지출을 늘린 것으로 나타났다. 보스트롬은 “작년 11월부터 AWS를 통해 데이터 현대화를 진행했다. 정형 데이터와 비정형 데이터를 모두 AWS 기술 스택으로 옮겼다”라며 이야기를 이어갔다.

레거시 시스템에서 최신 레이크 하우스로의 데이터 이전이 AI 구현에 있어 핵심이었다. 그는 “데이터 관련 문제가 있으면 결코 좋은 결과를 얻을 수 없다”라며, 데이터를 정리한 후 필요한 곳으로 데이터를 이동하는 것이 또 다른 과제였다고 전했다.

보스트롬은 “우리 회사에도 통합 도구가 있었지만 오래되고 낡은 도구였다”라고 말했다. 다시 말해 생성형 AI에 요구되는 대규모 통합 작업을 수행하려면 상당한 비용과 시간이 소요되는 업그레이드가 필요한 상황이었다.

스파이런트는 대신 스냅로직을 선택했다. 필요한 확장성을 수행하는 통합 레이어를 구축하기로 한 것이다. “여러 공급업체를 평가한 결과 스냅로직이 가장 강력했다. 게다가 AI 빌더를 보유하고 있었기 때문에 다른 애드온을 구매할 필요가 없어 비용을 절감할 수 있었다”라고 그는 설명했다.

이러한 작업을 통해 스파이러트는 현재 제품 내 테스트 데이터에 AI를 사용할 수 있게 됐으며, 이는 고객 직원과 직원 생산성 향상으로 이어졌다. 예를 들어 세일포스에서 새로운 영업 프레젠테이션을 작성하려는 직원이 버튼을 누르면 회사의 셰어포인트 리포지토리에서 관련 콘텐츠가 검색되어 패키징된다.

이 관련 콘텐츠에는 특정 국가의 규제과 같은 수천 페이지 분량의 정보가 포함될 수 있다. 그리고 이 내부 정보는 세일즈포스 플랫폼에 저장된 다른 데이터로 증강되어 파인튜닝된 프롬프트의 일환으로 AI에 전달된다. 그러면 답변이 다시 세일즈포스로 돌아오고 직원은 답변을 보고 편집한 후 일반적인 세일즈포스 프로세스를 통해 발송할 수 있다.

보스트롬은 “이는 그저 하나의 사례일 뿐다. 직원들이 생성형 AI 기능에 맛을 들여감에 따라 더 많은 기능을 만들어가고 있다. 지속적으로 개선하고 또 추가하고 있다”라고 말했다.

데이터를 최신 웨어하우스로 옮기고 최신 데이터 파이프라인을 구현한 것은 큰 진전이었지만, 그렇다고 해서 회사의 모든 AI 인프라 문제가 해결된 것은 아니었다. 보스트롬은 “글로벌 기업이기에 우리는 LLM 사용에 지역적 제한을 직면한다. 오픈AI는 특정 국가를 차단했고, 클로드도 그렇게 하려고 하고 있다. 정책을 위반하지 않으면서도 전 세계에 직원을 지원할 방안이 필요했다. 직원이 해당 국가에서 승인된 LLM을 취득할 수 있는 경로를 찾아야 했다”라고 말했다.

해결책 중 하나로는 지역별 배포 옵션이 있다. 예를 들어 싱가포르의 AWS 데이터센터는 중국의 사용자를 지원할 수 있다. 하지만 해당 지역에서 모든 LLM을 사용할 수 있는 것은 아니다.

기업이 필요한 위치에서 자체적으로 실행할 수 있는 오픈소스 LLM도 해결책일 있기는 하다. 그러나 이를 사용하기 위한 리소스는 아마존과 같은 거대 기업을 이용해도 부족한 실정이다. 보스트롬은 “미스트랄을 호스팅하는 데 필요한 강력한 서버를 구하기가 어렵다”라고 말했다. 결국 스파이런트는 당분간 오픈AI와 같은 대형 상용 제공업체 사용을 유지하고 API를 통해 LLM을 활용하기로 결정했다.

한편 스파이런트는 직접 벡터 데이터베이스를 구축하지 않는다. 정확성과 적시성을 개선하고 환각을 줄이는 생성형 AI 전략인 RAG 사용 시 일반적인 관행이다. 보스트롬은 “이제 드래그 앤 드롭 기능으로 벡터 데이터베이스를 자동으로 생성할 수 있다. 수천 개의 파일을 넣을 수 있는 어시스턴트가 있어 자체 벡터 스토어를 구매할 필요가 없다”라고 말했다.

변화는 선택을 요구한다

데이터 저장에 퍼블릭 클라우드를 사용하기로 한 스파이런트의 결정은 남다르지 않다. 플렉센시얼이 올여름 발표한 대기업 대상 설문조사에 따르면 59%가 퍼블릭 클라우드를 사용하여 AI 학습 및 추론에 필요한 데이터를 저장하고 있다. 60%는 코로케이션 제공업체를, 49%는 온프레미스 인프라를 사용한다. 그리고 거의 모든 기업이 AI 로드맵을 가지고 있으며, 절반 이상이 더 많은 AI 워크로드에 대한 수요를 충족하기 위해 인프라 투자를 늘릴 계획이라고 답했다.

그러나 기업들은 AI 컴퓨팅 요구 사항을 충족하기 위해 퍼블릭 클라우드 외에도 다양한 방법을 모색하고 있으며, 이들이 가장 많이 사용하는 옵션(대기업 34%)은 Gaas(GPU as a service) 전문 벤더 선택이다.

비즈니스 프로세스 아웃소싱 기업 태스크어스(TaskUs)는 생성형 AI 배포를 확장하면서 더 많은 인프라 투자의 필요성을 절감한 기업이다. 이 회사의 CIO인 찬드라 벤카타라마니는 이 문제가 비용 관리에 주의를 기울여야 한다는 것을 의미한다고 전했다. 태스크어스의 경우 컴퓨팅과 데이터를 이동해야 할 필요가 큰 기업이다.

코그니잔트의 수석 부사장 겸 AI 및 분석 부문 글로벌 책임자인 나빈 샤르마는 AI 컴퓨팅에는 크게 두 가지 유형이 있으며, 각기 다른 과제를 안고 있다고 설명했다. 트레이닝 측면에서는 워크로드가 시간에 민감하지 않기 때문에 지연 시간이 크게 문제되지 않는다. 기업은 저렴한 장소와 시간대에 교육이나 미세 조정을 수행할 수 있다. “밀리초 단위의 응답을 기대하지 않는다. 다른 기업들도 마찬가지”라고 그는 말했다.

또 다른 주요 AI 컴퓨팅 용도는 학습된 AI 모델이 실제로 질문에 답하는 추론이다. “이는 일반적으로 실시간으로 이루어져야 한다. 고객에게 기다림을 요구하기란 어렵다. 추론은 빨라야 한다”라고 샤르마는 말했다.

그는 그러나 인프라 상황이 지역별로 다를 수 있다고 전했다. 예를 들어 댈러스와 휴스턴 지역에서는 컴퓨팅 수요가 높다. “이 지역으로 이전한 수많은 AI 회사들 때문에 이 지역 전체가 컴퓨팅에 매우 굶주려 있다. 석유 및 가스 관련 업무도 일부 진행 중이어서 수요가 급증한 것 같다”라고 그는 말했다.

물리적 위치는 데이터 주권 규정이라는 또 다른 이유로도 문제가 될 수 있다. 일부 관할 지역에서는 규정 준수를 이유로 데이터의 국외 반출이 허용되지 않다. “데이터가 해당 지역으로 제한되어 있는 경우 해당 지역의 용량만 사용할 수 있다”라고 샤르마는 말했다.

하이퍼스케일러가 필요한 용량을 제공할 수 없고 기업이 코로케이션 시설이나 온프레미스에 자체 데이터센터를 보유하고 있지 않은 경우, 다른 주요 대안은 GPU 서비스 벤더다. 실제로 이 업체들이 강세를 보이고 있다고 샤르마는 말했다. “하이퍼스케일러가 적절한 가격대에 충분한 성능을 제공하지 않는 상황에 대한 대안이 있는 셈”이라고 그는 덧붙였다.

한편 AI 컴퓨팅에 대한 고정적 수요가 예상되는 기업의 경우, 그 중 일부를 자체 데이터센터로 가져오는 것이 장기적으로 비용 합리적일 수 있다고 샤르마는 설명했다.

확장 증가, 인프라 문제 더 커진다?

플렉센셜의 설문조사에 따르면 43%의 기업이 대역폭 부족을 겪고 있으며, 34%는 AI 워크로드 요구 사항을 충족하기 위해 데이터센터 공간과 전력을 확장하는 데 어려움을 겪고 있다고 답했다. 그 밖에도 불안정한 연결과 과도한 지연 시간 등의 문제가 보고됐다. 지난 12개월 동안 AI 애플리케이션이나 워크로드에 문제가 없었다고 응답한 기업은 18%에 불과했다.

비즈니스 컨설팅 업체 커니의 디지털 및 분석 부문 파트너인 바라트 토타는 2023년이 AI 파일럿과 개념증명의 해였으며올해는 기업들이 이러한 파일럿을 확장하기 위해 노력한 시기였다는 점을 이유로 언급했다.

그는 “바로 여기에서 문제가 불거지고 있다. 액세스해야 하는 데이터의 양이 훨씬 더 많기 때문에 문제가 증폭되고 있다. 생성형 AI는 훨씬 더 많은 데이터를 소비할 뿐만 아니라 더 많은 데이터를 생산한다. 이는 많은 기업이 예상하지 못하는 부분이다”라고 전했다.

또 기업이 모델을 만들 때 학습 데이터와 가중치로 모델을 정의하는데, 다양한 버전의 AI 모델을 추적하려면 모든 개별 학습 데이터 세트의 사본을 보관해야 할 수도 있다. 단 이는 개별 사용 사례에 따라 다르다. 토타는 “가장 좋은 접근법이 무엇인지는 아무도 밝혀내지 못했다. 모두가 반복하면서 학습하고 있다”라며 말했다. 즉 스토리지, 연결성, 컴퓨팅, 지연 시간 등 모든 인프라 문제는 내년에 더욱 증가할 가능성이 크다.

현재 파일럿 단계에서 프로덕션 단계로 넘어간 생성형 AI 사용 사례는 비교적 적다. 또 그 중 상당수는 단계적으로 배포되고 있다. 하지만 더 많은 파일럿이 프로덕션에 도입되고 프로덕션 프로젝트의 사용자도 확장됨에 따라 인프라 문제는 더 큰 규모로 다가올 전망이다. 그리고 생성형 AI 기술은 빠른 속도로 발전하고 있다는 점도 감안해야 한다. 현재 적합한 솔루션을 찾는 것만으로는 충분하지 않다. “업그레이드에 따라 민첩하게 전환할 수 있어야 한다”라고 토타는 말했다.

이에 더해 AI 인프라 관리 역량 문제도 있다. 플랫폼과 사용 사례가 모두 빠르게 발전하는 가운데 비용과 성능을 최적화하면서 스토리지, 네트워킹, 컴퓨팅 리소스를 관리하는 것은 어려운 일이다. 다행히 생성형 AI가 진화하면서 기업의 인프라 문제를 해결할 가능성을 기대할 수 있다.

인포섹 이노베이션의 매니징 파트너이자 샌스 인스티튜의 강사인 믹 더글러스는 “코드로서의 네트워크가 있다. 그리고 코드로서의 인프라가 있다. 컴퓨팅을 많이 사용하는 일부 대기업의 경우 클라우드에 강력한 가상 머신을 사용하는 것이 더 나을까, 아니면 람다 함수 몇 개를 사용하는 것이 더 나을까? AI가 추상화 계층을 생성하도록 한 다음 모든 다른 빌드를 반복하도록 할 수 있다”라고 설명했다.

이러한 최적화 작업 중 일부는 이미 머신러닝으로 수행되고 있다. 하지만 머신러닝 사용의 문제점은 제공업체의 제품이 계속 변화한다는 것이다. 반면 생성형 AI는 옵션을 파악하고 더 복잡한 분석을 수행하는 데 적합하다. 더글라스는 “생성형 AI의 가장 큰 장점은 자동화된 방식으로 다양한 배포 코드 템플릿을 만들 수 있다는 점이다. 즉 수고를 덜 수 있다”라고 말했다.
[email protected]

Posted by

in