앤트로픽의 클로드 3.5 소넷 대형 언어 모델에 컴퓨터 작동이라는 혁신적인 기능이 추가됐다. ‘컴퓨터 사용’이라 불리는 이 기능은 현재 베타 테스트 중이다. 개발자는 앤트로픽 API를 통해 클로드 3.5 소넷에게 화면 내용 해석, 텍스트 입력, 커서 이동, 버튼 클릭, 윈도우나 애플리케이션 전환 등을 지시할 수 있다. 이는 기존 RPA 도구가 수행하기 어려웠던 작업과 매우 유사하다.
클로드 3.5 소넷은 컴퓨터 사용 능력을 적용하기 위해 먼저 목표를 정의하는 프롬프트에서 시작한다. 이후 목표 달성에 필요한 단계를 파악하고, 사람이 컴퓨터 화면을 보는 것처럼 스크린샷을 분석하여 각 단계의 실행 방법을 결정한다.
이 기능의 핵심은 클로드 3.5 소넷이 이미지에서 특정 요소의 좌표를 파악하여 화면의 버튼이나 텍스트 상자에 커서를 정확히 위치시킬 수 있다는 점이다.
클로드 3.5 소넷은 작업할 컴퓨터의 도구와 소프트웨어에 대한 정의 및 접근 권한이 필요하다. 이후 도구 사용을 요청하고 응답을 검토하여 작업의 성공 여부를 확인하거나 추가 작업의 필요성을 판단한다.
자동화에 미치는 영향
앤트로픽은 이 컴퓨터 사용 능력이 AI 개발에 새로운 전기를 마련할 것이라고 설명했다.
앤트로픽은 블로그 게시물에서 “지금까지 LLM 개발자는 모델에 맞는 도구를 만들어 AI가 특별히 설계된 도구로 작업을 수행하는 맞춤형 환경을 구축했다”고 전했다. 이제는 모델을 도구에 맞출 수 있으며, 사람들이 일상적으로 사용하는 컴퓨터 환경에서 클로드가 인간처럼 소프트웨어를 활용하는 것이 목표라고 설명했다.
유아이패스(UiPath)는 자사의 세 가지 제품인 모두를 위한 UiPath 오토파일럿, 클립보드 AI, 새로운 의료 기록 요약 도구에 클로드 3.5 소넷을 통합했다고 발표했다.
두저 AI(Dozr AI)의 설립자 폴 차다는 클로드의 컴퓨터 사용 능력이 RPA 시장에 혁신을 가져올 수 있다고 전했다. 이는 지속적인 유지보수가 필요하거나 인터페이스 변경 시 발생하는 문제점들을 해결할 수 있기 때문이다. 차다는 링크드인 게시물에서 “앤트로픽의 새로운 접근 방식은 적응형 상호작용을 통해 이러한 핵심 과제를 해결한다. 하드코딩된 스크립트 대신 실제로 보는 것을 이해한다”고 강조했다. 또한 이 시스템이 모든 인터페이스에서 작동하고 사용과 피드백을 통해 발전할 수 있는 잠재력을 가지고 있다고 설명했다.
한계
앤트로픽은 이 컴퓨터 사용 기능이 베타 버전이며 몇 가지 제한사항이 있다고 지적했다. 예를 들어 이미지 스케일링 문제로 인해 XGA(1024×768) 또는 WXGA(1280×800)보다 높은 해상도의 화면에서는 애플리케이션 작동에 어려움이 있을 수 있다고 언급했다.
또한 프롬프트 인젝션 공격의 위험성도 경고했다. 클로드가 지침이 포함된 이미지나 텍스트가 있는 웹 페이지에 접근할 경우 “사용자 지침을 무시하거나 오류를 일으킬 수 있다”고 설명했다.
앤트로픽은 이러한 위험을 줄이기 위해 다음과 같은 조치를 권장했다:
악성 콘텐츠 노출 방지를 위해 클로드 3.5 소넷의 인터넷 접속을 승인된 도메인으로 제한
계정 로그인 정보와 같은 민감한 데이터에 대한 모델의 접근 제한
시스템 공격이나 사고 방지를 위해 최소 권한으로 전용 가상 머신이나 컨테이너 사용
또한 쿠키 수락, 금융 거래 실행, 서비스 약관 동의 등 적극적인 동의가 필요한 작업과 중요한 결정에는 인간 감독자의 개입이 필요하다고 제안했다.
문페그(Moonpig)의 AI 책임자 피터 고스테브는 링크드인 게시물에서 “앤트로픽의 에이전트는 현재 실용성이 떨어지며, 지속적으로 중단되고 4분 정도의 검색마다 약 1달러의 토큰을 소모한다”고 지적했다.
마틴 베차드는 링크드인 게시물을 통해 클로드 3.5 소넷의 소프트웨어 개발 관련 컴퓨터 사용 능력이 아직 개선의 여지가 많다고 전했다.
베차드는 “앤트로픽으로 인해 사용자가 해야 할 일이 많이 남아있는 것은 사실이다. 다른 에이전트 프레임워크는 기본적으로 모델을 통해 수행할 작업을 파악한 후, 애플리케이션 빌더가 실제로 지침을 해석하고 LLM의 명령에 따라 데이터 검색 등의 작업을 수행한다”고 설명했다.
베차드는 오픈AI도 유사한 도구를 보유하고 있다고 언급했다. “오픈AI의 도구 기능도 본질적으로 동일한 방식으로 작동한다. 호출 가능한 도구를 정의하면 GPT가 생각의 흐름을 중단하고 적절한 시스템 데이터를 얻기 위해 호출 애플리케이션에서 함수 호출을 요청할 수 있다”고 전했다. 또한 오픈AI의 어시스턴트 API는 애플리케이션과 LLM 사이에 계층을 도입하여 매 호출마다 컨텍스트를 전송할 필요 없이 유지할 수 있지만, 여전히 중단 기반으로 작동한다고 설명했다.