생성형 AI에는 여러 이점이 있지만 그늘도 따른다. 데이터 보안 위험이라는 단점이다. 주로 셰도우 AI 사용과 민감한 정보 유출을 통해 발생한다.
이러한 위험은 기업 내에서 작업자들이 민감한 데이터를 처리하는 과정에서 개인용 생성형 AI 계정을 빈번히 사용함에 따라 더욱 악화되고 있다.
대부분의 조직(90%)은 공식적인 생성형 AI 앱을 제공한다. 더 많은 조직(98%)은 사용자에게 생성형 AI 기능을 포함한 앱을 제공하고 있다. 그러나 넷스코프(Netskope)의 연구에 따르면 기업 내 AI 서비스의 무단 사용은 급증하고 있다.
이 연구에 따르면 기업 내 생성형 AI 사용의 대부분(72%)이 개인 계정을 통해 AI 앱에 접근하는 ‘셰도우 IT’의 성격을 지닌다. 이러한 개인 계정 AI 사용은 보안 팀에 의해 추적되지 않으며 기업 보안 정책의 제약에서도 벗어나 있다.
넷스코프는 생성형 AI 앱에 전송되는 데이터 양이 지난 1년간 프롬프트 및 업로드 형태로 30배 이상 증가했으며, 특히 소스 코드, 규제 대상 데이터, 지적 재산권, 비밀 정보 등 민감한 데이터의 노출량이 급증했다고 밝혔다.
구체적으로 살펴보면 데이터 양은 월 250MB에서 7.7GB로 증가했으며, 이는 주로 프롬프트와 업로드 형태로 발생했다. 이는 해당 앱을 사용하는 사용자가 상대적으로 적은 인구(기업 사용자의 4.9%)임에도 불구하고 발생한 현상이었다.
하모닉 시큐리티(Harmonic Security)의 다른 연구에 따르면 2024년 4분기 동안 챗GPT, 제미나이, 클로드 등 인기 있는 LLM에 입력한 직원들의 프롬프트에는 8.5%가 민감한 데이터가 포함돼 있었다. 특히 고객 데이터(청구 정보 및 인증 데이터 등)는 유출된 민감한 데이터의 약 절반을 차지했다. 이 밖에 법적 및 금융 데이터가 노출된 정보의 15%를 차지했으며, 보안 관련 데이터(펜 테스트 결과 등)는 7%를 차지했다.
감독 부족
셰도우 AI란 보안 팀에 의해 추적되지 않고 정책 제한으로 관리되지 않는 조직 내 AI 서비스의 무단 사용을 의미한다. AI 사용 정책을 구현하지 않은 거의 모든 조직이 이 경로를 통해 민감한 내부 데이터를 유출할 위험에 처해 있다고 보안 전문가들은 지적한다.
셰도우 AI와 관련된 위험에는 데이터 유출, 사용자의 개인 데이터에 대한 규제 및 준수 위험 등이 포함된다.
노우비4(KnowBe4)의 보안 인식 담당자 제임스 맥키건은 “직원들은 IT 감독 없이 생성형 AI 도구를 사용 중이며, 종종 민감한 데이터를 개인 계정에 복사하거나 검증되지 않은 코드 제안을 수용하고 있다. 이러한 행동은 데이터 유출, 준수 위반, 소프트웨어 무결성 약화 위험을 증가시킬 수 있지만 사용자는 그 영향을 인식하지 못하곤 한다”라고 말했다.
글로벌 사이버 보안 기업 NCC 그룹의 기술 디렉터 데이비드 브라우클러는 CSO에 셰도우 AI가 보안 리더들이 반드시 대응해야 할 불가피한 현상이 되었다고 강조했다.
“직원들이 AI를 유용하게 여기고 있다. 그러나 공식적으로 승인된 방식이 우회된다면 조직은 민감한 데이터가 제3자의 손에 들어갈 수 있다는 사실을 빠르게 깨닫게 될 것이다. 이 데이터는 훈련 데이터셋에 유입되거나 버그나 침해로 인해 공격자에게 직접 노출될 수 있으며, 이는 이미 여러 번 발생했다”라고 그는 경고했다.
거버넌스 위험
라파드7의 데이터 및 AI 부사장인 로라 엘리스도 섀도우 AI가 기업에 심각한 데이터 거버넌스 위험을 초래한다고 강조했다.
“승인되지 않은 AI 도구 사용은 민감한 회사 정보나 고객 정보가 우연히 노출되게 할 수 있으며, 이는 준수 및 보안 위험을 초래한다. 또한 검증되지 않은 AI 출력물에 의존하는 것은 사실 오류의 위험을 증가시키며, 이는 브랜드 신뢰도와 신뢰에 부정적인 영향을 미칠 수 있다”라고 그녀는 말했다.
오늘날의 AI 사용 양상이 적절한 규제 없이 마구잡이로 이뤄지고 있다는 지적도 있었다. 글로벌 사이버 보안 업체 트렌드 마이크로의 현장 CTO인 바랏 미스트리는 “데이터 유출, 지적 재산권 도용, 규제 벌금은 가설이 아니다. 승인되지 않은 AI를 사용하는 것의 불가피한 결과다. 이 중 많은 도구는 법적 및 준수 규정의 회색 지대에서 운영되며, 산업별 규정과 데이터 보호 법규를 완전히 무시한다”라고 말했다.
미스트리는 이어 “더 큰 문제는 IT 및 보안 팀이 그림자를 쫓는 상황에 처했다는 점이다. 부서 간에 승인되지 않은 도구가 증가함에 따라 가시성, 통제력, 위험 관리가 완전히 무너지고 있다”라고 덧붙였다.
산업 분석업체 블로어 리서치의 전문 연구원 체니 해밀턴은 일반 AI 도구가 워크플로우에 빠르게 통합되고 있지만 종종 감독 없이 진행되고 있다고 경고했다. 이는 일반적인 셰도우 IT 시스템의 확산과 유사한 현상으로, 동일한 위험을 초래하고 있다는 진단이다.
해밀턴은 “기술적 차원을 넘어 행동적 차원에서도 위험이 발생한다. 직원들은 작업을 더 빠르게 수행하기 위해 일반 AI 도구를 사용하지만, 명확한 기준이 결여된 상태에서 민감한 데이터가 전통적인 보안 프레임워크가 탐지하지 못하는 방식으로 노출되고 있다”라고 말했다.
그는 이어 “반응형 통제에서 벗어나 AI 거버넌스를 근로자 정책, 업무 설계, 심지어 리더십 구조에 내재화하는 것이 필요하다. 생성형 AI는 IT나 정보 보안 부서에만 속해선 안 된다. 인사, 준법 부서를 가로지르는 다기능적 소유권이 필요하다”라고 강조했다.
위험 완화하기
즉 챗GPT, 구글 제미나이, 깃허브 코파일럿과 같은 도구를 통해 AI 채택이 급증하면서 전통적인 접근 방식과 도구가 대응하기 어려운 사이버 보안 거버넌스 도전 과제가 출현하고 있다.
CSO와 이야기를 나눈 전문가들은 보안 리더들이 명확한 AI 거버넌스 정책, AI 시스템의 취약점을 식별하기 위한 정기적인 레드팀 작업, 그리고 포괄적인 직원 인식 교육을 결합해 셰도우 AI와 관련된 위험을 완화해야 한다고 조언했다.
이러한 조치에는 다음과 같은 내용이 포함되어야 한다:
• 실시간 모니터링: 보안 리더는 생성형 AI(및 AI 기반 SaaS) 도구로 입력되는 데이터를 추적하고 관리하는 시스템을 마련해야 한다.
• 승인된 AI 목록: CISOs는 승인된 AI 공급업체가 계약을 통해 기업의 데이터 프라이버시를 보호하도록 보장해야 하며, 승인 목록 외의 AI 솔루션은 모니터링 또는 차단되어야 한다.
• 앱 계획 식별: 입력 데이터로 훈련하지 않는 것을 보장하는 요금제를 직원들이 사용하도록 보장해야 한다.
• 프롬프트 수준 가시성: 보안 팀은 이러한 도구로 공유되는 데이터에 대한 완전한 가시성을 확보해야 한다. 단순히 사용량을 모니터링하는 것만으로는 충분하지 않다.
• 민감 데이터 분류: 보안 시스템은 데이터 유출 시점에 민감 데이터를 식별할 수 있어야 한다.
• 지능형 규칙 적용: CISOs는 비즈니스 리더와 협력하여 다양한 부서나 그룹이 생성형 AI 도구와 상호작용하는 방식을 규정하는 승인된 워크플로우를 수립해야 한다.
• 사용자 교육: 직원들은 AI를 책임감 있게 사용하는 데 따른 위험과 최선의 실천 방법을 교육받아야 한다.
• 사용 정책 수립: 보안 리더는 비즈니스 리더와 협력하여 AI의 사용 방법을 정의해야 하며, 승인된 공급업체로 전송될 수 있는 내부 데이터의 분류를 포함해야 한다. 명확히 정의된 사용 금지 사례를 수립해야 한다.
전반적으로 안 팀은 조직 내 데이터의 이동을 모니터링하고 AI와 관계없이 주요 위험 소스를 식별해야 한다. AI 워터마킹은 AI 생성 콘텐츠를 식별하는 데 도움이 될 수 있지만, 민감한 정보가 처음부터 유출되는 것을 방지하지는 않는다.
데이터 유출 방지(DLP) 솔루션이 위험한 정보의 수출을 식별하는 데 도움이 될 수 있지만, 일부 전문가들은 이 기술이 생성형 AI 도구를 통해 유출을 제한하는 수단으로서는 한계가 있다고 주장했다.
AI 보안 테스트 회사 마인드가드(Mindgard)의 CEO 겸 공동 창립자 피터 가라간은 생성형 AI가 전통적인 제어 수단(차단, DLP, 실시간 코칭 등)으로 효과적으로 관리할 수 없는 새로운 유형의 위험을 도입한다고 경고했다.
그는 “현대 AI 시스템의 복잡성과 투명성 부족, 즉 블랙박스 특성이 문제”라며 민감한 정보는 AI 모델이나 애플리케이션 내에서 입력되어 변환되거나 심지어 난독화될 수 있으며, 사용자에게 출력되기 전에 이 과정이 발생할 수 있다고 지적했다.
가라간은 이어 “이러한 경우 표준 제어 수단은 기본 데이터나 맥락을 인식하는 데 한계가 있어, 잠재적으로 민감한 정보가 경고를 유발하지 않고 유출될 수 있다”라고 덧붙였다.
생성형 AI를 진정으로 보호하려면 이 새로운 패러다임에 특화된 보호 계층이 필요하다. 이는 AI 특유의 취약점을 실행 시점에 탐지하는 동시에 이러한 취약점의 존재를 드러내고 입증할 수 있는 보안 테스트 도구를 포함한다.
영국 랭커스터 대학교 컴퓨터 과학 교수로도 재직하고 있는 가라간은 “이 문제는 모델 실행 중에만 드러나는 문제다. 예를 들어 임베딩이나 인코딩을 통해 데이터 유출이 발생할 수 있다”라고 덧붙였다.
[email protected]
Leave a Reply