2023년, 다양한 산업 분야의 기업은 기술의 잠재력을 탐색하기 위해 생성형 AI 개념 증명(POC)에 막대한 투자를 했다. 2024년으로 넘어가면서 기업은 AI 이니셔티브를 프로토타입에서 생산 단계로 전환해야 하는 새로운 과제에 직면하게 된다.
가트너(Gartner)는 2025년까지 생성형 AI 프로젝트의 최소 30%가 POC 단계 이후 중단될 것이라고 전망했다. 그 이유는 열악한 데이터 품질, 거버넌스 격차, 명확한 비즈니스 가치의 부재다. 기업들은 이제 모델을 구축하는 것 자체가 주요 과제가 아니라, 모델에 공급되는 데이터의 품질을 확보하는 것이 관건임을 깨닫고 있다. 또한 파일럿 단계에서 실제 서비스로 전환하는 과정에서 가장 큰 장애물은 올바른 데이터를 큐레이션하는 것임을 인식하고 있다.
데이터가 많다고 해서 항상 좋은 것은 아니다
AI 개발 초기에는 데이터가 많을수록 더 나은 결과를 얻을 수 있다는 믿음이 널리 퍼져 있었다. 그러나 AI 시스템이 더욱 정교해짐에 따라 데이터의 양보다 질이 더 중요해졌다. 이러한 변화에는 몇 가지 이유가 있다.
첫째, 대규모 데이터 세트에는 오류, 불일치, 편향이 포함될 가능성이 커서 모델 결과에 영향을 미칠 수 있다. 데이터가 너무 많으면 모델이 학습하는 내용을 제어하기가 어려워져 학습 데이터 세트에 집착하게 되고 새로운 데이터에 대한 효율성이 떨어질 가능성이 있다. 둘째, AI 모델이 학습하는 데이터 내에서 빈번하게 나타나는 정보(다수 개념)가 상대적으로 드문 정보(소수 개념)를 덮어버릴 수 있다. 다시말해 모델이 전체적인 데이터의 경향에만 맞춰져서 특정한 상황이나 예외적인 경우를 제대로 학습하지 못하고, 새로운 데이터나 예상치 못한 상황에서는 잘 작동하지 않을 수 있다.
셋째, 데이터가 너무 많으면 이를 처리하는 데 시간이 오래 걸려, AI 모델을 개선하기 위한 실험이나 업데이트가 늦어지고, 결과적으로 중요한 의사결정을 내리는 데 걸리는 시간도 길어진다. 마지막으로, 소규모 조직이나 스타트업의 경우 대규모 데이터 세트를 처리하는 데 비용이 많이 들 수 있다
AI 프로젝트를 성공하려면 조직은 충분한 데이터를 확보하면서도 적절한 데이터를 확보하는 균형을 맞춰야 한다. 즉, 데이터 축적을 넘어 데이터 품질에 집중해야 한다. 데이터 정제, 검증, 보강과 같은 절차에 투자함으로써 고품질 데이터 기반의 AI 모델을 구축하고 실제 운영 환경에서도 효율적으로 확장하고 성능을 유지할 수 있도록 해야 한다.
저품질 데이터의 대가
IBM 연구에 따르면 데이터 품질 저하로 인해 미국 경제가 매년 약 3조 1,000억 달러의 손실을 입는다고 밝혔다. 이는 산업 전반에서 AI 프로젝트가 POC 이후 정체되는 주요 원인으로 작용하며, 자원을 낭비하고 운영 규모의 AI 달성을 저해한다.
실패한 AI 프로젝트는 직접적인 재정적 손실 외에도 시간 및 컴퓨팅 리소스 낭비 등 상당한 간접 비용을 발생시킨다. 가장 중요한 것은 이러한 실패가 경쟁 우위를 확보할 수 있는 기회를 놓치고 대내외 평판을 손상시킬 수 있다는 점이다. 반복되는 실패는 위험을 회피하는 문화를 조성하여 AI가 약속하는 혁신을 저해할 수 있다.
한 연구에 따르면 데이터 과학자는 의미 있는 분석을 수행하기 전에 약 80%의 시간을 데이터 준비와 정리에 소비한다고 한다.
고품질 데이터의 주요 특징
데이터 품질 저하라는 근본적인 문제를 극복하기 위해 고성능 AI 데이터 세트는 5가지 주요 특성을 갖춰야 한다.
1. 현실 세계를 정확하게 반영
2. 형식과 구조의 일관성
3. 적응력을 높이기 위한 다양성
4. 특정 목표와의 관련성
5. 데이터 수집 및 라벨링의 윤리적 고려 사항
이러한 특성의 중요성을 설명하기 위해 차량 하역 및 주차 결제를 자동화하는 회사인 오토모터스(Automotus)의 예를 살펴보자. 오토모터스는 중복되거나 손상된 이미지 등으로 인해 방대한 이미지 데이터를 AI 모델의 학습 데이터 세트로 전환하는 데 어려움을 겪었다. 이러한 문제를 해결하기 위해 오토모터스는 데이터 품질 도구를 사용하여 불량 사례를 제거함으로써 데이터 세트를 효율적으로 선별ㅎ하여 물체 감지 모델의 평균 정밀도(mAP)를 20% 향상시켰다. 데이터 감소로 모델 정확도가 향상되는 동시에 라벨링 비용이 33% 절감됐다. 데이터 품질에 투자함으로써 성능 향상과 비용 절감의 두 가지 혜택을 얻은 것이다.
고품질 데이터를 확보하는 방법
AI 개발의 과제를 해결하기 위해 조직은 데이터 관행을 개선하기 위해 다음과 같은 구체적인 조치를 취해야 한다.
1. 명확한 데이터 거버넌스 정책을 수립. 조직은 데이터 관리를 위한 역할, 책임, 표준을 설명하는 포괄적인 데이터 거버넌스 정책을 수립해야 한다. 이러한 지침은 조직 전체에 일관된 데이터 품질을 보장하여 잘못된 데이터가 의사결정에 영향을 미칠 위험을 줄여준다.
2. 엄격한 데이터 정제 기술 활용: 이상값 탐지, 결측값 대입, 정규화 등의 기술을 사용하여 데이터 세트의 무결성을 유지해야 한다. 이러한 관행은 AI 모델에 사용되는 데이터의 정확성과 신뢰성을 보장하는 데 도움이 된다.
3. 정확한 라벨링 프로세스에 투자: 고품질 라벨은 모델의 정확성을 위해 필수적이다. 자동화된 데이터 라벨링은 비용을 절감하고 프로세스를 간소화함으로써 수동 라벨링에 비해 상당한 이점을 제공할 수 있다. 그러나 자동화된 도구와 사람의 감독을 결합한 하이브리드 접근 방식은 두 가지 방법의 강점을 모두 활용하여 정확도를 높일 수 있다.
4. 다양하고 신뢰할 수 있는 출처에서 데이터 확보: 기업은 편향을 줄이고 모델 성능을 개선하기 위해 다양한 데이터 소스를 찾아야 한다. 여기에는 공개 데이터 세트, 산업별 데이터베이스, 서드파티 데이터 제공업체 등이 포함된다. 데이터 품질을 유지하려면 이러한 소스의 신뢰성을 확보하는 것이 중요하다.
5. 고급 데이터 관리 도구를 활용: 지속적인 AI 성능을 보장하려면 고급 데이터 관리 도구를 활용하여 학습 데이터 세트를 지속적으로 큐레이션하고 업데이트해야 한다. 데이터 배포는 프로덕션 환경에서 시간이 지남에 따라 변경될 수 있으며, 이러한 도구는 기업이 그에 따라 데이터 세트를 조정하는 데 도움이 될 수 있다.
데이터 품질 향상으로 AI 확장
AI 도입이 증가함에 따라 고품질 데이터에 대한 수요는 더욱 증가할 것이다. 가트너는 2025년까지 기업이 데이터의 75%를 기존 데이터센터나 클라우드 외부에서 처리할 것으로 예측하면서 분산 환경에서 데이터 품질을 유지하기 위한 새로운 전략의 필요성을 강조했다. 이러한 과제를 해결하기 위해 데이터 품질 분야에서는 자동화된 데이터 검사, 데이터 정리를 위한 머신러닝, 분산 데이터에서 모델을 학습하기 위한 개인정보 보호 방법, 실제 데이터 세트를 개선하기 위한 합성 데이터 생성 등 주요 혁신이 등장하고 있다.
이러한 발전 덕분에 모든 기업이 데이터 중심 문화를 조성할 수 있게 되었고, 또 쉽게 조성할 수 있게 되었다. 데이터 품질을 우선시함으로써 기업은 단순히 함정을 피하는 것이 아니라 AI의 잠재력을 최대한 활용하고 새로운 업계 표준을 설정할 수 있다. 이제는 경쟁 우위뿐 아니라 전체 AI 생태계를 향상시키기 위해 양질의 데이터의 힘을 한데 모아야 할 때다. AI가 계속 발전함에 따라 이제 질문은 “데이터가 충분한가?”가 아니다. 대신 “미래의 AI 솔루션을 뒷받침할 수 있는 올바른 데이터를 보유하고 있는가?”라는 질문을 던져야 할 때다.
*필자 울릭 스티그 한센(Ulrik Stig Hansen)은 기업이 AI를 위해 데이터를 관리하고 준비할 수 있도록 구축된 AI 데이터 개발 플랫폼인 엔코드(Encord)의 설립자다.
[email protected]