AI 학습 데이터 세트 시장이 2029년까지 연평균 27.7%의 성장률을 이어갈 전망이다. 2024년 28억 2,000만 달러로 추정되는 시장 규모는 2029년에 95억 8,000만 달러로 증가할 것으로 예측됐다. 개인 정보 보호 문제와 희소성 문제를 해결한 합성 데이터와 생성형 AI 등을 위한 멀티모달 데이터 등의 수요가 성장을 이끈다는 분석이다.
마켓앤마켓(MarketsandMarkets)의 ‘2029년까지 전 세계 AI 학습 데이터 세트 시장 예측(AI Training Dataset Market – Global Forecast to 2029)’을 발표했다. 인공지능 학습을 위한 교육용 데이터 시장을 제공 형태, 데이트 세트 생성, 데이트 세트 판매, 데이터 유형, 데이터 모달리티 등으로 구분해 조사와 분석을 진행했다.
AI 학습 데이터 세트는 AI 시스템이 인식, 분석, 결정 등의 과정에서 시간이 지날수록 더욱 정확한 과정을 수행할 수 있도록 학습하는 데 필요한 방대한 분량의 데이터를 의미한다. 데이트 세트 생성은 데이터 수집, 레이블 지정, 합성 및 증강 등으로 이루어진다. 판매는 즉시 사용할 수 있는 기성품(off-the-shelf)과 맞춤형 데이터 세트 등으로 구분된다.
이 중에서 2024년에는 데이터 세트 생성 부문이 가장 큰 시장 점유율을 차지할 것으로 보고서는 내다봤다. 기본 레이블링을 넘어서는 컨텍스트별 주석에 대한 수요가 증가하면서, 정확하고 정밀하게 레이블을 지정한 데이터를 찾는 경우가 늘어나고 있기 때문이다.
최종 사용자 부문에서는 소프트웨어 및 기술 공급 업체가 예측 기간 가장 높은 성장률을 기록하며 빠르게 성장할 것으로 예상했다. 특히, 음성 인식, 컴퓨터 비전, 자연어 처리 등 다양한 형태의 데이터와 서비스를 제공하는 클라우드 하이퍼스케일러에서 고품질 데이터 세트의 소비가 증가하면서 시장 성장을 이끌 것으로 전망된다.
지역적으로는 북미 시장이 2024년에 가장 큰 시장 점유율을 차지할 것으로 예상했다. 북미에서 AI에 대한 막대한 투자가 진행되면서 AI 학습 데이터 세트 시장에서 가장 큰 시장으로 부상했기 때문이다. 미국 정부의 연방 AI 지출만 해도 33억 달러가 넘었으며, 이는 곧 양질의 데이터 세트에 대한 수요로 이어졌다.
아태지역에서는 전자상거래, 스마트 시티 이니셔티브, AI 기반 헬스케어가 가파르게 성장하면서 시장을 이끌고 데이터 세트 시장도 함께 성장할 것으로 예상했다. 자율 주행이나 로봇 공학 역시 방대한 데이터 세트를 필요로 하는 만큼 시장 성장에 기여할 것으로 분석했다.
아울러 AI가 AI 학습 데이터 세트 시장에 미치는 영향으로는 ▶︎이미지 생성을 위한 데이터 증강 ▶︎자연어 처리를 위한 합성 텍스트 생성 ▶︎음성 및 오디오 데이터 합성 ▶︎시물레이션 된 사용자 상호작용 데이터 ▶︎데이터 세트의 편향 완화 ▶︎예측 모델을 위한 시나리오 테스트 등이 있다.
이러한 AI 교육용 데이터 세트는 정확성과 공정성이 갈수록 중요하게 인식되고 있다. 특히 인종, 종교, 성별 등 특정 집단에게 유리 또는 불리하게 작용하는 편향된 데이터로 인한 문제가 문제로 떠오르고 있다. 개인 정보 보호나 희소성의 문제도 걸림돌이다. 따라서 이러한 문제를 해결한 데이터 세트의 생성과 판매는 갈수록 수요가 증가할 전망이다.
AI 학습 데이터세트 시장의 주요 기업으로는 구글(Google), IBM, AWS, 마이크로소프트(Microsoft), 엔비디아(NVIDIA), 스노클링(Snorkel), 그레텔(Gretel), 사이프(Shaip), 클릭워커(Clickworker), 넥스데이터(Nexdata), 바이텍스트(Bitext), 딥 인비전 데이터(Deep Vision Data), 사마(Sama), 스케일 AI(Scale AI) 등이 있다.
[email protected]