스냅드래곤 8 엘리트 5세대 NPU 성능은?…'실리콘 고문' 해봤더니
2026.04.22 17:01
스냅드래곤 8 엘리트 5세대(Gen 5) 특징 중 하나는 신경망처리장치(NPU) 성능이다. 이전 세대 대비 성능이 37~39% 향상됐다. NPU는 딥러닝이나 머신러닝 등 AI 연산을 효율적으로 처리하기 위해 설계된 반도체 가속기다. CPU보다 AI 연산을 빨리 처리하면서 전력 소모는 훨씬 적다.
퀄컴 최신 칩 AP를 네트워크 접속을 차단한 상태에서 거대언어모델(LLM)을 가동, 실질적인 체감 NPU 성능이 어느 정도인지 확인하는 작업을 거쳤다. LLM은 70억~80억개의 파라미터를 지닌 모델이다. 2020년 최초 등장 당시 이 덩치를 감당하기 위해서는 최소한 RTX3090 수준 그래픽카드나 A100같은 서버 전용 그래픽카드가 필수였다.
실측을 위해 오픈소스 머신러닝컴플리케이션(MLC) LLM 기반의 'MLC Chat' 앱을 활용했다. 테스트 모델은 현재 온디바이스 AI의 표준 격인 메타의 '라마 3(Llama-3)-8B'다. 이 모델은 4비트 양자화(INT4) 과정을 거쳐 스마트폰 NPU의 한계를 시험하기에 적합하다. 외부 변수를 통제하기 위해 '비행기 모드'와 화면 밝기 50% 고정 상태에서 고강도 추론 연산을 지속하며 변화를 관찰했다.
최초 테스트에서 인사나 날씨 등 간단한 질문을 몇개 던지자 프리필(Prefill)은 68tok/s, 디코드(Decode)는 25.1tok/s를 기록했다. 이어 소설 및 대본 창작이나 경제 현안 분석 등 고난도 작업을 요구했음에도 20tok/s 수준이 유지됐다.
장시간 질문을 이어가자 잠시 15tok/s 속도로 하락하기도 했다. 다만 기기에서 발열이 느껴지지 않았고 앱 재기동 시 즉시 25tok/s 속도로 돌아왔다는 점을 고려할 때, 이는 NPU 성능보다는 사용된 LLM 모델의 최적화 이슈가 원인으로 추정된다. 실사용 단계에서 성능 지속성을 입증한 셈이다.
프리필은 질문을 받고 문맥을 파악하는 입력 처리 속도, 디코드는 추론 및 답변(토큰)을 생성하는 속도를 의미한다. 디코드 20tok/s 이상의 속도는 사람의 평균 읽기 속도보다 3~4배 빨라 이용자가 쾌적함을 느끼는 수준이다. 앞선 세대 AP들이 최고 14~15tok/s 수준이었던 것을 고려하면 성능 향상이 뚜렷하다.
디바이스 내 AI 연산 능력은 일상적인 질의 응답은 물론 고도화된 콘텐츠 제작 및 개인 맞춤형 추천까지 폭넓은 작업을 지원한다. 파일 개요(File Overview), 나이트그래피(Nightography) 비디오, 포토 어시스트(Photo Assist), 나우 너지(Now Nudge) 등 갤럭시 AI 생태계에서 활용 폭을 넓혀준다.
특히 고성능 카메라와 영상 코덱(APV)을 갖춘 갤럭시 S26 울트라에서 AI는 콘텐츠 제작에 기여하는 바가 크다. 저조도 사진 촬영에서 노이즈 감소 기능을 수행하고 장면을 분석해 피사체와 배경을 구분 처리한다.
퀄컴 관계자는 “스냅드래곤 8 엘리트 Gen5는 단순한 칩셋 업그레이드가 아니라 스마트폰 역할 자체를 재정의하는 플랫폼”이라고 설명했다.
이형두 기자 dudu@etnews.com
저작권 보호를 위해 본문의 일부만 표시됩니다.
원문 보기 →댓글 (0)
첫 번째 댓글을 작성해보세요!
전력의 다른 소식
모든 소식을 불러왔습니다
