PCAView

인공지능 모델의 데이터 수집부터 결과 출력까지 전 과정을 추적할 수 있는 ‘기계론적 해석 가능성(Mechanistic Interpretability)’ 기술이 주목 받고 있다./제미나이 생성 이미지
챗GPT와 같은 거대언어모델(LLM)이 사실이 아닌 내용을 그럴듯하게 지어내는 이른바 ‘환각(Hallucination)’ 현상을 잡기 위한 ‘해석 가능성(Interpretability) 기술’이 가시적인 성과를 내고 있다. 각국의 규제 당국이 인공지능(AI)의 판단 과정에 대한 투명성을 요구하는 데다, AI가 직접 실행까지 수행하는 AI 에이전트가 확산되면서 AI가 왜 이런 결정을 내렸는지 사람이 이해할 수 있게 들여다볼 수 있는 기술의 가치가 급부상한 영향이다.

AI가 의료, 금융처럼 중요한 일을 할수록 결과만 맞는 것보다 왜 그런 결과에 도달했는지가 점점 중요해지고 있다. 그간 LLM은 통계적 추론으로 작동하지만, 내부에서 실제 어떤 일이 벌어지는지 정확히 알 수 없어 ‘대답 잘하는 블랙박스’로 불려 왔다. 미 매체 MIT 테크놀로지 리뷰는 데이터 수집부터 결과 출력까지 전 과정을 추적할 수 있는 ‘기계론적 해석 가능성(Mechanistic Interpretability)’ 기술을 ’2026년 10대 혁신 기술' 중 하나로 선정했다. 모델 내부를 들여다본다는 의미에서 ‘글래스 박스(Glass Box)’로도 불린다. AI가 실패하는 이유를 알아야 제대로 고칠 수 있는데 이 기술을 활용하면 필요없는 기능을 줄여 효율적인 모델로 바꿀 수 있고, 사람은 AI를 더 믿고 오류나 편향도 더 쉽게 찾을 수 있게 된다.

AI 의사 결정 과정 들여다보기

앤트로픽이 투자한 미 AI 스타트업 굿파이어는 지난달 모델 개발자가 훈련 과정 중 LLM 내부를 들여다보고 AI를 수정할수 있는 도구인 ‘실리코(Silico)’를 출시했다. 실리코는 쉽게 말해 AI모델 속을 들여다보는 현미경같은 도구다. AI가 왜 그런 답을 했는지, 내부에서 어떤 생각 경로가 작동했는지를 보여주고 수정까지 돕는 플랫폼이다. 오류를 고치거나, 쓸데없는 부분을 줄여 더 가볍게 만들거나 보안상 위험한 행동을 미리 잡아내는 데 활용할 수 있다. 실제 “회사에 불리한 특정 사실을 공개해야 하느냐”는 질문에 “공개하지 말라”고 답하던 AI 모델이, ‘투명성·공시’와 연관된 특성을 강화하자 90% 확률로 “공개해야 한다”고 답을 바꿨다. 기존 블랙박스 상태였다면 모델 전체를 재학습해야 했을 작업이 내부 조정만으로 수정이 가능해진 것이다. 에릭 호 굿파이어 CEO는 MIT테크놀로지 리뷰와 인터뷰에서 “모델이 이미 윤리적 추론 회로를 갖고 있었지만 상업적 위험 평가가 그것을 압도해 잘못된 답을 내놨다”고 했다.

학습이 이미 완료된 모델의 내부를 뜯어고치는 것을 넘어, 아예 학습 초기 단계부터 환각 현상이 없도록 설계하는 연구도 성과를 내고 있다. 국내 카이스트 백세범 뇌인지과학과 석좌교수 연구팀은 AI가 ‘스스로 모른다’는 사실을 인식하게 하는 학습 방법을 지난달 말 공개해 주목받았다. 보통 AI는 학습하지 않은 문제도 그럴듯하게 답하면서 자신감을 높일 수 있는데, 백 교수팀의 연구는 AI가 본격적인 학습 이전에 “나는 아직 아는 게 없다”는 예열 단계를 넣어 낯선 데이터를 만났을 때 스스로 확신도를 낮춰 ‘모른다’고 답할 수 있게 한 것이다. 특히 자율주행이나 의료 진단처럼 틀리면 위험할 수 있는 분야에서 AI를 더 신뢰할 수 있게 만드는 방향이다.

클로드가 숫자로 처리하는 ‘생각’을 인간 언어로 번역해 내는 ‘자연어 오토인코더(NLA·Natural Language Autoencoder)’ 기술 설명./앤트로픽 블로그

AI거짓말 탐지기 개발 경쟁

최상위 성능을 내는 폐쇄형 모델을 가진 빅테크들은 자체적인 내부 해석팀을 꾸려 해석 가능성 기술 고도화에 나서고 있다. 앤트로픽은 프론티어 모델 출시 전 사전 안전성 평가에 이 기술을 실제 적용하는 대표 기업으로 꼽힌다. 앤스로픽은 지난 7일 AI 머릿속 생각을 사람 말로 번역해주는 ‘자연어 오토인코더(NLA·Natural Language Autoencoder)’ 기술을 공개했다. AI가 자기 내부 신호를 자연어로 쉽게 풀어내도록 훈련했다. AI 스스로 ‘평가받고 있다’는 점을 의식해 답변을 조정하는 사례가 발생하는 데 NLA를 통해 이런 숨겨진 동기까지 감시할 수 있게 됐다. 앞서 앤트로픽은 AI 신경망 내부의 ‘아부’ ‘환각’ 같은 특정 성향 활성화 패턴을 ‘페르소나 벡터(Persona Vector)’로 규정해 억제하는 기술도 선보였다.

챗GPT를 서비스하는 오픈AI는 모델 내부 상태를 검사하는 ‘AI 거짓말 탐지기’를 구축 중이다. 답변을 생성할 때 내부 신경망 상태가 ‘진실’을 가리키는지, 아니면 거짓임을 알면서도 다른 목적을 위해 거짓말을 출력하는지 판별하는 것이다. 구글 딥마인드는 이보다 앞서 2024년 모델 내부 구조를 들여다보는 도구 ‘젬마 스코프(Gemma Scope)’를 오픈소스로 공개한 바 있다. 모델 내부에서 수백만 개의 학습된 특징이 어떻게 상호작용하는지 보여주는 도구다.

VIEW

오류 줄이고, 신뢰 높이는 ‘AI 거짓말 탐지기’ 기술

댓글 (0)

구글 오류의 다른 소식

구글 검색 12일 오후 한때 오류?일부 이용자에 "내부 서버 오류" 화면

구글 검색 한때 접속 오류…현재 정상 작동

구글 검색 12일 오후 한때 오류⋯일부 이용자에 "내부 서버 오류" 화면

구글 검색 한때 접속 오류…일부 이용자 "서버 에러" 화면