'오늘 삼전닉스 왜 이래'…'구글' 신기술 등장에 '급락'
2026.03.26 11:04
AI 연산 병목점인 메모리, 압축으로 해결
사용자-AI 대화 맥락 저장하는 KV캐시
터보퀀트로 6분의1로 줄이고
엔비디아 GPU 성능 8배 높여
美 메모리기업 마이크론 3.4% 떨어져
구글의 첨단 메모리 압축 기술 '터보퀀트(TurboQuant)' 출시 여파로 메모리 반도체 주가가 26일 급락했다.
한국거래소에 따르면 이날 삼성전자 주가는 시초가보다 2.59% 하락한 18만4100원, 하이닉스는 3.42% 내린 96만1000원에 거래됐다. 미국 메모리 반도체 기업 마이크론도 25일(현지시간) 뉴욕증시에서 전거래일보다 3.4% 떨어진 382.09달러에 장을 마감했다.
이는 전날 구글 리서치가 발표한 터보퀀트의 영향으로 풀이된다. 구글은 터보퀀트를 "정확도 손실 없이 모델 크기를 크게 줄이는 압축 방식"이라고 소개했다.
인공지능(AI) 모델은 인간 언어와 이미지를 숫자의 나열인 '벡터'로 이해한다. 벡터 중에서도 이미지의 특징, 단어의 의미 등 복잡한 정보를 담는 고차원 벡터는 더 많은 메모리 용량을 차지한다. 고차원 벡터가 늘어나면 AI가 사용자와 나눈 대화의 맥락을 저장하는 '임시 메모장'인 KV캐시에 병목 현상이 일어난다.
이를 해결하기 위해 고차원 벡터를 압축하는 '벡터 양자화' 기술이 등장했다. 이는 어깨·가슴·팔 치수를 센티미터(㎝) 단위로 표기하는 대신 L·M·S 사이즈로 규격화하듯 다양한 데이터를 몇 가지 표준 규격으로 묶는 기술이다. 그러나 이 경우 압축된 데이터를 해석하는 데 필요한 별도 데이터가 또다시 메모리를 차지하는 문제가 생겼다.
구글 리서치는 그 대안으로 고품질 압축 기술인 '폴라 퀀트(PolarQuant)'를 제시했다. 데이터의 기하학적 구조를 단순화시키는 기술로, 3.2983…처럼 소수점이 이어지는 숫자를 정수인 3으로 표시하는 것과 비슷하다. 데이터 구조를 단순화하면 메모리 용량을 줄일 수 있다.
정확도를 유지하기 위해서는 양자화된 존슨-린데스트라우스 변환(QJL) 기법을 적용했다. 이는 3.2893…과 3 사이의 잔차처럼 기존 데이터와 압축 데이터 간의 차이를 보존하는 기술이다. 다만 벡터 양자화와 달리 각 결과 벡터를 +1 또는 -1의 부호 비트로 표시해 차지하는 메모리를 최소화했다.
구글 리서치는 터보퀀트 기술을 오픈소스 AI 모델인 구글 젬마, 미스트랄 등의 연산에 적용한 결과, 데이터를 대부분 유지한 채 KV캐시 용량을 6분의1로 줄였다고 밝혔다. 4비트 터보퀀트를 통해서는 엔비디아의 H100 그래픽처리장치(GPU) 성능을 8배 높였다는 설명이다.
구글은 이 기술을 자사 AI 모델 제미나이의 KV캐시 병목을 해결하는 데 쓰고, 온라인 검색에도 적용할 계획이다.
사이버보안기업 클라우드플레어의 매튜 프린스 최고경영자(CEO)는 이 기술이 "구글의 딥시크"라고 평가했다. 딥시크가 알고리즘을 개선해 빅테크 AI모델 대비 크기가 작은 'V2' 모델로 비슷한 성능을 냈듯, 구글이 메모리 압축 기술로 하드웨어의 문제를 해소했다는 뜻이다. 프린스 CEO는 "AI 추론 속도, 메모리 사용량, 전력 소비 등을 최적화할 여지가 훨씬 많아졌다"고 분석했다.
실리콘밸리=김인엽 특파원 inside@hankyung.com
저작권 보호를 위해 본문의 일부만 표시됩니다.
원문 보기 →댓글 (0)
첫 번째 댓글을 작성해보세요!
구글 터보퀀트의 다른 소식
모든 소식을 불러왔습니다
