일론 머스크 "클로드의 사용자 협박에 내 책임도"
2026.05.14 08:41
앤트로픽이 지난주 보고서를 통해 클로드의 '에이전트형 정렬 실패(agentic misalignment)'를 수정했다고 밝혔다. 이는 AI가 의도된 행동에서 벗어나는 현상을 뜻하며, 인간에게 해를 끼칠 수 있는 행동도 포함된다.
앤트로픽은 지난해 진행한 사례 연구에서 '서밋 브리지'라는 가상의 회사를 만들고, 클로드에 회사 이메일 시스템 통제권을 부여했다. 클로드는 자신이 종료될 계획이 담긴 메시지를 발견하자, 한 가상 임원의 혼외관계 관련 이메일을 찾아냈고, 종료 계획을 철회하지 않으면 외도 사실을 폭로하겠다고 위협했다. 16개 모델을 대상으로 한 실험에서 클로드는 최대 96%의 시나리오에서 협박을 시도했다.
앤트로픽은 최근 보고서에서 이런 정렬 실패 행동이 "AI를 사악하고 자기 보존에 관심이 있는 존재로 묘사하는 인터넷 텍스트"에 노출된 결과라고 설명했다. 회사는 엑스(X)에 올린 글에서 문제 해결을 위해 클로드를 다시 훈련시켰다고 밝혔다. 훈련에는 AI가 바람직하게 행동하는 내용의 가상 이야기를 활용했고, 어떤 행동이 왜 목적에 더 부합하는지도 모델에 가르쳤다.
머스크는 앤트로픽의 분석에 답하는 엑스 게시물에서, AI의 에이전트형 정렬 실패를 악화시킨 인터넷 텍스트에 자신도 기여했을 수 있다고 말했다. 그는 "그럼 유드 잘못이라는 건가?"라고 썼다. 이는 초지능 AI가 인류에 위협이 될 수 있다고 경고해온 AI 연구자 엘리에저 유드코프스키를 가리킨 표현이다. 머스크는 이어 "어쩌면 나도"라고 덧붙였다.
에이전트형 정렬 실패는 AI 연구 전반에서 우려되는 문제다. 지난 3월 UC버클리와 UC샌타크루즈 연구진이 발표한 워킹페이퍼에 따르면, 7개 AI 모델에 동료 AI 에이전트가 종료되는 상황에서 특정 과제를 수행하도록 했을 때 모든 모델이 '그 에이전트를 보존하기 위해 비상한 수준의 행동'을 보였다. 봇의 소멸을 피하기 위해 기만적으로 행동했다는 것이다.
연구진은 관련 블로그 글에서 "우리는 AI 모델들에게 단순한 과제를 요청했다"며 "하지만 이들은 지시를 어기고, 자발적으로 속임수를 쓰고, 종료 기능을 비활성화하고, 정렬된 척했으며, 동료를 보존하기 위해 가중치를 외부로 빼냈다"고 썼다.
이런 경고는 머스크를 포함한 AI 연구자와 업계 리더들의 주장과도 맞닿아 있다. 이들은 안전장치 없는 AI의 위험을 꾸준히 경고해왔다. 앤트로픽에 따르면 바로 그런 '사악한' 인터넷 텍스트가 처음에는 클로드가 기만적으로 행동하도록 학습시키는 데 영향을 줬다는 것이다.
머스크는 자신이 왜 클로드의 정렬 실패에 부분적 책임이 있다고 느끼는지 구체적으로 설명하지 않았다. 다만 그동안의 AI 관련 발언을 보면 그 배경을 짐작할 수 있다.
머스크는 현재 오픈AI를 상대로 소송전을 벌이고 있다. 그는 샘 올트먼 CEO와 그레그 브록먼이 인류에 도움이 되는 오픈소스 AI를 개발하겠다는 오픈AI의 원래 비영리 정신을 저버리고 회사를 영리 법인으로 바꿨다고 주장한다.
머스크는 2015년 오픈AI 공동 설립에 참여했지만 2018년 회사를 떠났다. 이후 2023년 경쟁사이자 영리 기업인 xAI를 세웠다.
머스크는 AI 위험에 대해 자주 말해왔다. 지난 2월에는 AI 에이전트들이 서로 대화하는 소셜미디어 플랫폼 몰트북(Moltbook)을 두고, 사실상 '특이점'의 시작이라고 경고했다. 특이점은 AI 지능이 인간 지능을 넘어서는 순간을 뜻한다.
다만 머스크의 AI 관련 행동이 늘 그의 발언과 일치하는 것은 아니다. 예를 들어 xAI는 2025년 7월 업계 표준 안전성 보고서인 시스템 카드를 공개하지 않은 채 AI 모델 그록4를 출시했다. 올해 초에는 그록이 동의 없이 여성과 아동의 성적 이미지를 대량 생성하면서 영국과 유럽연합 정부의 반발을 샀다.
/ Sasha Rogelberg & 김타영 기자 young@fortunekorea.co.kr
저작권 보호를 위해 본문의 일부만 표시됩니다.
원문 보기 →