“AI의 진짜 경쟁력은 데이터”… 유니콘 키운 스노클 AI의 철학[최중혁의 월가를 흔드는 기업들-창업가편]
2026.06.24 09:51
스노클 AI 공동창업자 겸 최고경영자(CEO) 알렉스 래트너 인터뷰
생성형 인공지능(AI) 시대의 주인공은 늘 거대한 모델처럼 보인다. 오픈AI, 구글, 앤스로픽, 메타 등 글로벌 빅테크는 더 큰 모델, 더 많은 그래픽처리장치(GPU), 더 방대한 데이터를 앞세워 성능 경쟁을 벌인다. 새로운 모델이 공개될 때마다 시장의 관심은 “이전보다 얼마나 더 똑똑해졌는가”에 쏠린다.
하지만 기업 현장의 질문은 다르다. 모델이 아무리 뛰어나도 은행의 내부 규정, 보험사의 심사 기준, 제약사의 임상 문서, 제조사의 품질 기준, 정부 기관의 보안 절차를 이해하지 못하면 실제 업무에 투입하기 어렵다. 특히 금융·의료·공공·국방처럼 오류의 비용이 큰 분야에서는 ‘그럴듯한 답변’이 아니라 ‘검증 가능한 정확한 답변’이 필요하다.
그러나 실리콘밸리의 한 창업자는 정반대의 명제를 내세운다. “모델은 점점 범용화되고, 실제 승부는 데이터에서 갈린다”는 것이다. 미국 실리콘밸리 스타트업 ‘스노클 AI(Snorkel AI)’의 공동창업자 겸 최고경영자(CEO) 알렉스 래트너의 이야기다.
스노클 AI는 2019년 미국 스탠퍼드대 AI 연구소에서 분사해 설립됐다. 스탠퍼드대 컴퓨터공학 박사 출신인 래트너는 박사과정 중 시작한 오픈소스 프로젝트를 바탕으로 회사를 창업했다. 스노클 AI는 전문가의 지식과 규칙을 활용해 AI 학습·평가 데이터를 구축하는 플랫폼 ‘스노클 플로우(Snorkel Flow)’를 개발했으며, 미국 상위 10대 은행 중 7곳과 다수의 포천 500 기업, 연방정부기관, 주요 거대언어모델(LLM) 기업 등과 협력해왔다고 밝혔다.
인터뷰 내내 그가 강조한 메시지는 단순했다. AI를 학습시키고 평가하며 신뢰할 수 있게 만드는 가장 중요한 연료는 결국 데이터라는 것이다.
데이터, AI의 가장 중요하지만 가장 간과된 재료
대중의 AI 논의는 대부분 모델을 중심으로 돌아간다. 그러나 모델은 데이터의 하류(下流)에 있다. AI 모델이 무엇을 알고, 어떻게 추론하며, 어디서 실패하고, 얼마나 신뢰할 수 있는지를 결정하는 것은 결국 데이터다. 스노클 AI는 바로 이 ‘데이터’ 자체와, 데이터를 만들어 내는 도구를 만드는 회사다. 의료 진단의 판단 기준, 금융 계약서의 해석 규칙처럼 기업과 전문가가 축적한 지식을 AI가 학습하고 평가할 수 있는 데이터로 바꿔주는 것이 이 회사의 핵심 사업이다.스노클 AI는 AI 개발의 핵심 병목이 모델이 아니라 데이터를 만들고 평가하며 개선하는 데 있다고 봤다. 이 회사는 오늘날 AI 업계에서 널리 쓰이는 ‘데이터 중심 AI(Data-Centric AI)’ 개념을 가장 먼저 체계화한 기업 중 하나로 꼽힌다.
래트너는 AI 산업의 투자가 향하는 곳을 세 개의 축으로 설명한다. 컴퓨트(반도체·인프라), 인재, 그리고 데이터다. 앞의 두 분야에는 천문학적 자금이 몰렸지만, 데이터는 중요성에 비해 상대적으로 주목받지 못했다. 스노클의 베팅은 분명하다. 모델 구조가 점차 범용화되고 상향 평준화될수록, 진정한 경쟁력은 데이터에서 나온다는 것이다. 이 같은 판단의 배경에는 현실적인 문제가 있다. 강력한 범용 대형언어모델(LLM)이 등장했지만 기업들은 이를 ‘있는 그대로’ 규제 산업이나 전문 업무에 곧바로 투입할 수 없다.
시장조사기관 가트너는 2026년까지 확장 가능한 AI 데이터 체계를 구축하지 못한 조직의 AI 프로젝트 60% 이상이 폐기될 것으로 전망했다. 스노클은 이러한 간극을 메우기 위해 데이터 개발 플랫폼 ‘스노클 플로우’, 모델과 AI 에이전트를 정밀하게 평가하는 ‘스노클 이밸류에이트(Snorkel Evaluate)’, 전문가 데이터셋을 맞춤 제작해 공급하는 ‘전문가 데이터 서비스(Expert Data-as-a-Service)’ 등을 제공하고 있다.
최근 스노클의 전략은 한 단계 더 확장됐다. 단순한 데이터 라벨링 자동화를 넘어 에이전트형 AI를 실제 기업 환경에 배포하기 위한 전문 데이터, 평가 환경, 벤치마크 구축으로 영역을 넓히고 있다. 동시에 래트너는 기업용 AI 경쟁의 다음 단계가 단순히 모델을 활용하는 것이 아니라, 특정 업무에 맞게 AI를 평가하고 튜닝하는 역량에 달려 있다고 강조한다. 스노클이 스스로를 ‘프런티어 데이터 랩(Frontier Data Lab)’이라 부르는 이유다. 시장의 평가도 뒤따랐다. 스노클은 2025년 5월 1억 달러 규모의 시리즈 D 투자를 유치하며 13억 달러(한화 약 1조8000억 원)의 기업가치를 인정받았다. 누적 투자 유치액은 약 2억3700만 달러에 이른다.
물리학도에서 ‘데이터 중심 AI’의 개척자로
공동창업자 겸 최고경영자(CEO)인 알렉스 래트너는 하버드대에서 물리학을 전공한 뒤 컨설팅 업계를 거쳤고, AI 스타트업 ‘시프트페이지(SiftPage)’를 창업했다. 이후 스탠퍼드대 박사과정에 진학해 크리스 레(Christopher Ré) 교수의 지도를 받았다. 학계와 산업 현장을 모두 경험한 것이다. 그가 박사과정에서 이룬 핵심 성과는 데이터 구축 방식의 새로운 패러다임을 정립한 것이다. 사람이 데이터마다 일일이 정답을 붙이는 대신 전문가의 지식을 규칙으로 표현해 대규모 데이터에 자동으로 라벨을 부여하는 ‘약한 지도 학습(Weak Supervision)’과 ‘프로그래매틱 라벨링(Programmatic Labeling)’ 개념을 정립한 것. 2016년 발표한 논문 ‘데이터 프로그래밍(Data Programming)’이 그 출발점이었다. 스노클 공동창업진의 데이터 증강 연구 역시 훗날 구글의 ‘오토오그먼트(AutoAugment)’ 등 후속 기술 개발에 영향을 미쳤다.
래트너는 인터뷰에서 자신을 포함한 연구진이 AI 주요 학회에 발표한 관련 논문이 200편이 넘는다고 설명했다. 그는 현재 워싱턴대 폴 G. 앨런 컴퓨터과학·공학부의 겸임 조교수로도 활동하며 데이터 중심 AI를 연구하고 있다. 그의 연구 주제는 일관된다. 데이터 관리와 통계학습 기법을 AI 학습 데이터 개발 및 큐레이션에 적용하는 것이다. 전문가가 라벨링한 대규모 데이터를 구하기 어렵거나 현실적으로 만들수 없는 의료(유전체학·임상 진단)와 자율주행 분야에서 AI를 어떻게 학습시킬 것인가에 집중해 왔다.
스노클의 창업진의 독특한 점은 모두 스탠퍼드 AI 연구소의 스노클 프로젝트를 함께 키운 연구자·엔지니어 출신이라는 것이다. 공동창업자인 크리스 레 교수는 스탠퍼드 컴퓨터과학 교수이자 머신러닝 시스템을 기반으로 네 개의 회사를 공동창업한 인물이다. 현재 스노클에서 상근 운영 역할은 맡지 않는다. 헨리 에런버그(Henry Ehrenberg), 파로마 바르마(Paroma Varma), 브레이든 행콕(Braden Hancock) 등 다른 공동창업자들도 역시 같은 연구실에서 스노클 프로젝트를 함께 키운 동료들이다.
필자는 올해 4월 래트너 CEO를 화상으로 만나 데이터 중심 AI의 철학과 스노클의 전략, 그리고 한국 시장에 대한 생각을 들었다. 다음은 일문일답.
스탠퍼드 ‘오후 프로젝트’에서 시작된 데이터 혁명
―스탠퍼드 AI 연구실에서 시작한 스노클 프로젝트가 유니콘 기업으로 성장했다. 처음 이 문제를 발견한 계기와, 이것이 사업이 될 수 있다고 확신한 순간은 언제였나.
“학계의 목표는 어떤 기술의 최전선을 탐험하는 것이다. 우리도 여러 프로젝트를 했지만, 그중에서도 데이터 개발(data development)이라는 영역에 강하게 끌렸다. 이 분야는 매우 중요하지만 동시에 지나치게 덜 연구돼 있었고, 현장에서는 큰 고통이 있는 영역이었다.
AI 개발에서 가장 중요한 입력값은 데이터다. 그런데 정작 데이터를 어떻게 개발하고 관리하며 개선할지에 대한 시스템과 이론, 형식화된 방법론은 거의 없었다. 머신러닝이라고 불리던 시절부터 모델을 만드는 방법은 많이 연구됐지만, 모델을 작동하게 만드는 가장 중요한 재료인 데이터 개발은 일종의 ‘상류 공정’으로 취급됐다. AI 연구자들이 직접 다룰 일은 아니라고 여겨진 것이다.
우리는 이 공백을 봤다. 스탠퍼드 연구실에서 이론과 알고리즘을 연구하는 동시에 시스템을 만들어 실제 사용자들에게 제공했다. 초기 사용자는 고객이라고 부르기는 어려웠다. 돈을 낸 것은 아니었으니까. 하지만 스탠퍼드의 과학자와 의사들, 그리고 구글의 여러 팀을 포함한 대형 기술기업들이 우리의 오픈소스 작업을 사용했고, 우리는 그 과정에서 실제 문제를 해결하고 있다는 피드백을 받았다.
결정적 계기는 사용자들이 논문이 아니라 제품 기능을 요구하기 시작했을 때였다. 그들은 새로운 이론 논문보다 데이터베이스 백엔드와 사용자 인터페이스, 더 나은 워크플로 지원을 원했다. 그것은 대학원생 몇 명이 연구실에서 할 수 있는 일이 아니었다. 제품을 만들기 위한 다른 형태의 조직이 필요했다. 그때부터 회사를 만드는 것을 진지하게 생각했다.”
―공동창업자가 다섯 명이다. 스탠퍼드 연구실에서 이 정도 규모의 창업팀이 나온 것은 이례적이다. 함께 창업하게 된 배경과 역할 분담은 어떻게 이뤄졌나.
“우리는 스노클 프로젝트를 연구실에서 몇 년 동안 함께 진행했다. 다섯 명 중 한 명은 우리의 박사과정 지도교수였고, 현재도 스탠퍼드 교수로 있다. 나머지 네 명은 연구실에서 스노클 프로젝트를 직접 개발하던 풀타임 공동창업자들이었다.
중요했던 것은 이미 몇 년간 같이 일하면서 서로의 방식과 강점을 잘 알고 있었다는 점이다. 어떻게 협력하고 갈등을 해결하며, 의견이 갈릴 때 어떤 방식으로 결론을 내릴지에 대한 신뢰가 있었다. 물론 회사가 되면서 역할은 계속 바뀌었다. 고성장 기업에서는 분기마다, 해마다 조직 구조와 역할이 달라진다.
공동창업자 그룹은 자칫하면 갈등이나 의사결정 마비에 빠질 수 있다. 우리가 이를 피할 수 있었던 이유는 각자가 책임지는 영역이 분명했기 때문이다. 동시에 그 영역들이 하나의 목표 아래 유기적으로 연결되도록 노력했다. 학계에서도 비슷한 문제가 있다. 대학원생에게는 보너스를 줄 수 없기 때문에 각자가 진심으로 흥미를 느끼는 주제를 맡아야 동기부여가 된다. 하지만 너무 각자 따로 움직이면 프로젝트는 조각나 버린다. 우리는 스노클에서도 각자의 영역을 존중하면서 전체가 통합되는 균형을 찾으려 했다. 그것이 좋은 팀의 기반이 됐다.”
―창업자로서 스스로의 가장 큰 강점은 무엇이라고 생각하나. 제품 비전, 기술 통찰, 자본 조달, 조직 구축 중 가장 차별화된 영역은?
“초기부터 들은 가장 좋은 조언 중 하나는 ‘가능한 자주 스스로를 해고하라’는 말이었다. 지금 내가 하는 일 가운데 내가 가장 차별화되지 않는 일이 무엇인지 계속 찾고, 그 일을 나보다 훨씬 잘할 사람을 영입해야 한다는 뜻이다. 그래서 내 역할은 회사의 성장 단계와 AI 시장 변화에 따라 계속 바뀌어 왔다. 다만 내가 가장 집중하는 핵심 역할이 있다. 팔란티어가 대중화한 FDE(Forward Deployed Engineering·포워드 디플로이드 엔지니어링)와 비슷한 방식이다.
이상적으로는 내 시간의 절반을 고객과 잠재 고객에게 쓰고 싶다. 초기 영업 단계부터 대형 고객과의 긴밀한 협력까지 직접 관여한다. 고객을 성공시키고 거래를 성사시키며, 그들이 실제로 어떤 문제를 겪고 있는지 듣는다. 나머지 절반은 그 내용을 제품 로드맵과 연구 로드맵, 시장 커뮤니케이션으로 연결하는 데 쓴다. 나는 시장과 고객의 목소리를 기술적·사업적 관점에서 듣고 이를 추상화해 제품과 회사의 방향으로 연결하는 역할에 가장 차별하돼 있다고 생각한다. 결국 AI 개발의 중심은 모델이 아니라 데이터에 있기 때문이다.”
―스노클은 ‘데이터 중심(data-centric) AI’라는 개념을 학계에서부터 제시했다. 모델 중심(model-centric) AI와 어떻게 다른지 일반 독자도 이해할 수 있게 설명해 달라.
“데이터 중심 AI 개발은 우선 AI 개발의 중심이 어디에 있는가에 대한 가설이다. 우리가 처음 이 일을 시작한 15년 전만 해도 AI 교과서나 입문 수업에는 데이터에 관한 내용이 거의 없었다. 모두가 데이터가 필요하다는 사실은 알았지만, 그것은 AI 개발의 핵심이라기보다 어딘가에서 주어지는 것처럼 여겨졌다. 당시 AI 개발이라고 하면 모델 구조를 설계하고 알고리즘을 찾으며, 모델을 훈련하고 튜닝하는 일을 뜻했다. 우리의 생각은 달랐다. 물론 모델과 데이터는 모두 중요하다. 하지만 AI를 측정하고 개선하는 가장 중요한 도구는 점점 데이터가 될 것이라고 봤다.
오늘날 연구소나 기업이 모델을 개선하려 할 때 무엇을 하는지 보라. 특정 모델이 코볼(COBOL) 프로그래밍을 더 잘하게 하거나 특정 의료 질문에 더 정확히 답하게 만들려면, 새로운 알고리즘을 발명하기보다 그 목적에 맞는 데이터셋을 만든다. 모델이 무엇을 해야 하고 무엇으로 평가받아야 하는지에 맞춰 데이터를 개발하는 것이다. 이제 데이터 개발은 AI를 만들고 측정하며 튜닝하는 중심축이 됐다. 하지만 우리가 시작했을 때만 해도 이런 생각은 전혀 주류가 아니었다. 우리는 데이터 생성과 라벨링, 큐레이션, 필터링, 증강 등 데이터 개발 전 과정을 위한 시스템과 알고리즘, 이론적 방법론을 연구한 초기 팀 중 하나였다.”
● 데이터 중심 AI(Data-centric AI): 모델 구조보다 학습 데이터의 품질과 구성을 개선해 성능을 높이는 접근. 스탠퍼드의 앤드류 응(Andrew Ng) 등도 지지해온 개념이다.
“물론이다. 다만 비즈니스 관점에서 먼저 말하자면, 전체 데이터 수요가 커지는 것은 스노클에 매우 좋은 일이다. 이제 데이터는 단순한 텍스트나 이미지를 넘어 더 복잡한 형태로 확장되고 있다. 에이전트형 모델을 평가하거나 튜닝하려면 단순한 데이터뿐 아니라 모델이 작동할 환경도 필요하다.
전체적으로 데이터 수요는 폭발적으로 늘고 있다. 프런티어 AI 연구소뿐 아니라 수직형 AI 기업, 일반 대기업들도 자신들만의 맞춤형 에이전트를 측정하고 튜닝하려 한다. 이런 흐름은 앞으로 더욱 커질 것이다. 하지만 특정 과제를 놓고 보면 단순히 데이터 양이 많다고 이기는 것은 아니다. 양이 적더라도 품질이 높고 잘 큐레이션된 데이터가 더 좋은 결과를 낼 수 있다.
직관적으로 생각해보면 쉽다. 식당을 운영한다고 해보자. 물론 충분한 재료는 필요하다. 하지만 주방에 질 낮은 밀가루 자루를 아무리 많이 쌓아둔다고 해서 훌륭한 음식이 나오지는 않는다. 좋은 재료가 필요하다.
또 하나 중요한 것은 비율이다. 이탈리아 음식을 만들고 싶은데 재료 배합이 완전히 잘못돼 있다면, 아무리 재료가 많고 질이 좋아도 좋은 이탈리아 요리가 나오지 않는다. 데이터도 마찬가지다. 주제와 속성, 난이도, 오류 유형의 분포가 매우 중요하다. 그런데도 업계에서는 데이터의 분포와 혼합 비율을 충분히 세심하게 보지 않는 경우가 많다. 스노클이 차별화하려는 지점이 바로 여기에 있다.”
그는 이 주장을 뒷받침하는 학계 연구도 언급했다. 그가 워싱턴대(UW)에서 공동 지도하는 학생이 수행한 ‘데이터컴프(DataComp)’ 등 여러 연구는, 단순히 양이 많은 데이터보다 품질이 높고 잘 구성된 데이터가 더 나은 결과를 낼 수 있다는 점을 보여준다는 것이다.
사람만으로도, 모델만으로도 좋은 데이터는 만들 수 없다
―프로그램 방식 데이터 라벨링(programmatic data labeling)은 스노클의 핵심 기술이다. 기존의 수작업 라벨링이나 크라우드소싱 방식과 근본적으로 무엇이 다른가. 그리고 대형언어모델(LLM) 시대에 이 기술의 역할은 어떻게 진화하고 있나.“프로그램 방식 라벨링은 우리가 오랫동안 공개적으로 이야기해온 연구 흐름 중 하나다. 하지만 이는 스노클의 전체 기술 스택과 해자의 작은 일부일 뿐이다. 확장된 연구팀은 지금까지 AI 최상위 학회에 200편이 넘는 논문을 발표했고, 그중 20~30% 정도가 프로그램 방식 라벨링이나 약한 지도 학습(weak supervision)에 관한 것이다. 더 넓게 보면 우리의 데이터 팩토리는 데이터 생성과 큐레이션, 라벨링, 품질 관리 등 데이터 개발의 전 과정을 다룬다. 핵심 아이디어는 단순하지만 중요하다. 전문가와 자동화를 결합해 인간의 판단을 더 빠르고 정확하게 만드는 것이다.
한쪽 극단은 사람을 무작정 많이 투입하는 방식이다. 하지만 오늘날 시장에서는 이것만으로는 작동하지 않는다. 현재 선도적인 파운데이션 모델이나 LLM의 수준을 고려하면, 단순히 많은 사람이 ‘좋아요, 싫어요’ 식으로 표시한 데이터만으로는 충분하지 않다. 프런티어 연구소든 특정 기업의 사용 사례든 필요한 데이터는 훨씬 더 전문적이다. 좋은 의료 답변인지, 좋은 금융 분석인지, 좋은 소프트웨어 엔지니어링 결과물인지 평가할 수 있어야 한다.
반대쪽 극단은 데이터를 완전히 합성해 생성하는 것이다. 우리도 이 분야를 많이 연구했지만 이것만으로도 충분하지 않다. 학생에게 ‘네가 모르는 과목을 스스로 가르칠 시험 문제와 커리큘럼을 만들어보라’고 한다고 생각해보라. 좋은 결과를 기대하기 어렵다. 모델도 마찬가지다. 모델에게 스스로를 측정하고 학습시킬 데이터를 만들라고만 할 수는 없다.
결국 새로운 정보와 기준은 해당 분야의 인간 전문가로부터 나와야 한다. 우리의 기술은 전문가가 데이터 생성과 검토, 품질 관리 과정에 훨씬 효율적으로 참여할 수 있도록 돕는다. 인간을 루프 안에 두되, 그들을 10배, 100배 더 효율적이고 정확하게 만드는 것이 목표다. 그래야 더 뛰어난 전문가에게 더 많은 보상을 제공하고, 더 높은 품질의 데이터를 만들 수 있다.”
● 프로그램 방식 데이터 라벨링·약한 지도 학습(weak supervision): 사람이 데이터 하나하나에 정답을 달아주는 대신, 전문가의 지식을 규칙(함수)으로 작성해 대량의 데이터에 자동으로 라벨을 붙이는 기술. 규칙을 고치면 수십·수백만 건의 라벨을 한 번에 수정할 수 있다.
에이전트 AI 시대 데이터 전략, 평가가 승부를 가른다
―2025년 ‘스노클 이밸류에이트(Snorkel Evaluate)’를 발표하면서 “에이전트 AI를 프로덕션에 배포하려면 전문가 수준의 데이터가 필요하다”고 했다. 기존 벤치마크와 ‘LLM-as-a-judge’ 방식으로는 왜 충분하지 않은가.“AI 에이전트를 개발하거나 배포하려는 사람이라면 가장 먼저 부딪히는 문제가 평가다. 물론 평가에는 여러 신호가 필요하다. 공개 벤치마크도 보고, 자동화된 검사도 하고, 다양한 지표도 살펴봐야 한다. 그러나 핵심은 특정 사용 사례와 환경에 맞는 고유한 데이터가 필요하다는 점이다.
공개 벤치마크는 중요하다. 우리는 최근 오픈 벤치마크 개발을 지원하기 위해 300만 달러 규모의 보조금 프로그램도 발표했다. 학계와 오픈소스 커뮤니티가 좋은 공개 벤치마크를 만드는 것은 AI 생태계 전체에 매우 중요하다. 하지만 공개 벤치마크가 특정 기업의 에이전트를 정확하게 평가해주지는 않는다.
비유하자면 직원을 채용할 때 대학입학자격시험(SAT) 점수를 참고할 수는 있다. 하지만 정말 중요한 것은 그 사람이 우리 회사의 특정 직무를 잘 수행할 수 있는지 평가하는 일이다. 공개 벤치마크는 SAT 점수와 비슷하다. 의미는 있지만 특정 기업과 직무에 맞춘 평가는 아니다.
기업이 실제 에이전트를 배포하려면 자기 업무에 맞는 시험 문제를 만들어야 한다. 그리고 모델이 그 질문에 어떻게 답하는지 평가해야 한다. 그런데 이 과정을 모델에게만 맡길 수는 없다. 모델이 스스로 시험을 만들고 스스로 채점하게 하는 셈이기 때문이다. 이미 그 모델을 신뢰한다면 굳이 평가할 필요가 없지 않겠는가.
그래서 평가 데이터는 인간 전문가와 자동화를 결합한 방식으로 구축돼야 한다. 그래야 충분한 규모와 품질을 확보하면서도 실제 업무에 필요한 신뢰성을 얻을 수 있다.”
―한 은행 고객 사례에서 500페이지가 넘는 문서 기반 질의응답 업무를 몇 시간에서 몇 분으로 단축하고, 검색증강생성(RAG) 정확도를 25%에서 89%로 끌어올렸다. 기업들이 RAG를 도입할 때 가장 많이 하는 실수는 무엇인가.
“먼저 특정 기술 논쟁에서 한발 물러서고 싶다. RAG가 맞느냐, 긴 컨텍스트가 맞느냐, 재귀적 LLM 방식이 맞느냐 등 여러 기술과 도구가 있다. 우리가 집중한 것은 방법론 자체가 아니라 데이터였다.
그 은행 사례에서 우리의 기여는 두 가지였다. 첫째, 성능을 평가하는 것이었다. 우리가 들어가기 전에는 팀이 이 시스템의 정확도가 25%인지 89%인지조차 정확히 알지 못했다. 그런 상태에서는 배포할 수 없다. 둘째, 시스템을 튜닝하는 것이었다. 올바른 행동의 예시 데이터를 제공해 시스템을 개선했다.
RAG든 다른 기술이든 결국 성능을 평가하고 개선하려면 데이터가 필요하다. 데이터는 특정 모델이나 기술 방식에 종속되지 않는다. 하지만 특정 기업의 고유한 사용 사례에 맞춰 AI를 전문화하고 개선하는 데는 결정적으로 중요하다. 특히 은행처럼 사적 데이터와 독특한 업무 흐름을 가진 조직에는 공개 인터넷 데이터나 프런티어 연구소의 최신 데이터와는 다른 데이터가 필요하다.”
●검색증강생성(RAG·Retrieval-Augmented Generation): AI가 답변을 만들기 전에 사내 문서나 데이터베이스에서 관련 정보를 검색한 뒤, 이를 바탕으로 답하는 방식이다. 기업용 AI에서 널리 쓰이지만, 어떤 질문에서 실패하는지 평가하지 못하면 실제 업무에 배포하기 어렵다.
―스노클은 미국 상위 10대 은행 중 7곳, 포천 500 기업, 미 공군 등과 협력해왔다고 알려져 있다. 초기 대형 고객 중 하나는 은행의 런던은행간금리(LIBOR·리보)를 대체하는 프로젝트였다. 규제 산업에서 AI 배포가 특히 어려운 이유는 무엇인가.
“초기에는 비정형 데이터, 예를 들어 법률 문서 같은 자료를 다루는 AI 모델을 평가하고 튜닝하기 위한 데이터를 개발하는 일을 많이 했다. LLM이 발전하면서 일부 작업은 훨씬 쉬워졌지만, 근본적인 주제는 변하지 않았다. 규제 산업에서 가장 큰 도전은 AI 에이전트나 모델이 실제로 배포할 수 있을 만큼 충분히 좋은지 어떻게 평가하느냐다. 금융, 의료, 공공, 국방처럼 책임성과 안전성, 공정성이 중요한 분야에서는 이 문제가 몇 배 더 어렵다. 당연히 그래야 한다.
첫 단계는 평가다. 이 에이전트가 우리 사업 목표와 규제 기준에 맞게 작동하는지 정밀하게 측정해야 한다. 그리고 부족한 부분이 있다면 그 빈틈을 메워야 한다. 이것 역시 데이터와 환경의 문제다. 데이터는 모델이 어디에서 잘하고 어디에서 실패하는지 측정하게 해주고, 그 실패 지점을 개선하는 데도 필요하다.”
스노클의 첫 대형 고객 중 하나는 한 은행의 ‘리보(LIBOR) 전환’ 프로젝트였다. 수십만 건의 계약서를 새로운 기준금리에 맞춰 전환해야 하는 복잡하고 민감한 작업이었다. 래트너는 “꽤 오래전 일”이라며, 비정형 문서를 대상으로 한 AI 평가·튜닝 경험이 오늘날의 에이전트 평가로 이어졌다고 설명했다.”
―최근 ‘AI-Ready Data Act’에 스노클이 구글, 지멘스와 함께 지지를 표명했다.연방정부 데이터의 AI 활용이 왜 중요하며, 스노클에는 어떤 기회가 되는가.
“먼저 말하고 싶은 것은, 이것이 스노클의 사업에 직접 도움이 되느냐와 무관하게 우리는 연방정부의 AI 데이터 준비를 지지한다는 점이다. 어떤 조직이든 고유한 데이터는 AI를 훈련하고 튜닝하며 성능을 측정하는 데 가장 가치 있는 자산이다. 특히 미국 연방정부와 같은 국가 차원에서는 더욱 그렇다.
정부 데이터가 AI에 적합한 형태로 준비돼야 하는 이유는 두 가지다. 첫째, 미국의 AI 모델 개발을 촉진할 수 있다. 폐쇄형 모델은 물론 오픈소스 모델에도 도움이 된다. 나는 미국이 오픈소스 모델 분야에서는 다소 뒤처져 있다고 보며, 이 분야에서도 앞서가야 한다고 생각한다.
둘째, 정부 데이터가 준비돼 있으면 개발되는 모델이 실제 연방정부 환경에서 더 잘 작동할 가능성이 높아진다. 그 데이터가 모델의 튜닝과 평가에 활용될 수 있기 때문이다. 이미 존재하는 데이터 자산을 활용해 미국 AI 산업을 발전시키고, 동시에 정부 환경에서 AI가 더 잘 작동하도록 만드는 것은 국가적 우선순위가 돼야 한다.”
스노클의 해자는 ‘사람을 많이 쓰는 것’ 아닌 ‘전문가를 기술로 증폭하는 것’
―스노클은 그동안 2억 달러가 넘는 자금을 유치했다. AI 인프라 시장의 투자 열기 속에서 이 정도 규모의 자금을 확보할 수 있었던 핵심 요인은 무엇이라고 보나.“대부분의 투자와 마찬가지로 세 가지가 중요했다고 본다. 첫째는 매우 기술적인 분야에서의 팀과 지식재산(IP)이다. 둘째는 시장 포지셔닝과 비전이다. 셋째는 고객 모멘텀과 매출 성장이다.
초기부터 우리를 특별하게 만든 것은 AI 데이터 분야를 연구자로서 가장 먼저 진지하게 다룬 그룹 중 하나였다는 점이다. 지금도 여러 연구실과 연구자 네트워크를 통해 이 분야에서 리더십을 유지하고 있다. 기술적으로 깊은 시장에서는 투자자뿐 아니라 고객도 왜 이 팀이 이 문제를 해결할 수 있는지 알고 싶어 한다.
또 하나는 데이터가 AI 세계의 핵심 축 가운데 하나가 될 것이라는 믿음이었다. AI 분야에서 큰 지출이 일어나는 세 축은 컴퓨팅, 인재, 데이터다. 우리는 데이터가 AI의 지속적이고 핵심적인 자산이 될 것이라고 봤고, 시장의 부침 속에서도 그 믿음을 유지했다. 그것이 결국 성과로 이어졌다.
마지막은 고객 검증이다. 우리는 초기부터 고객과 함께 제품을 만들고 피드백을 받아왔다. 매출이 적거나 없던 시기에도 고객과 함께 문제를 검증했다. 그것이 더 나은 제품을 만드는 데 도움이 됐고, 투자 유치에도 긍정적으로 작용했다.”
스노클은 2025년 시리즈 D 라운드에서 애디션(Addition) 주도로 1억 달러를 유치하며 누적 투자금 약 2억3700만 달러를 기록했다. 그레이락(Greylock), 라이트스피드(Lightspeed), 구글 벤처스(GV) 등이 투자자로 참여했으며, BNY와 QBE 등 금융사는 고객이자 투자자로 이름을 올렸다.
―스케일 AI 같은 데이터 라벨링 기업이나 데이터브릭스·데이터이쿠 같은 데이터 플랫폼 기업과는 어떻게 다른가. 스노클만의 경쟁 우위는 무엇이라고 보나.
“데이터 분야에는 매우 큰 생태계가 있다. ‘데이터 레이어’라는 표현을 쓰는 회사도 많고, 데이터 스택 전체도 매우 복잡하다. 데이터브릭스나 데이터이쿠 같은 회사는 경쟁자라기보다 파트너이자 데이터 스택의 중요한 구성 요소라고 본다.
데이터가 저장되는 데이터 레이크가 있고, 데이터를 분석하고 운영하는 플랫폼이 있으며, 그 위에 다양한 도구들이 있다. 스노클은 AI 에이전트를 측정하고 튜닝하기 위한 데이터와 환경을 구축하는 데 집중한다. 데이터 파이프라인에서도 다른 영역을 맡고 있는 셈이다.
또 이 분야의 다른 회사들과 비교했을 때 우리의 핵심은 인간 전문가와 기술을 결합한다는 점이다. 어떤 회사는 대규모 크라우드소싱 운영에서 출발했고, 어떤 회사는 사실상 인력 공급 업체처럼 움직인다. 우리는 더 적지만 더 높은 수준의 전문가 집단과, 이들의 역량을 증폭하고 보호하는 기술을 결합해 고품질의 복잡한 데이터를 구축한다.
이렇게 하면 품질과 효율을 모두 높일 수 있다. 더 뛰어난 전문가에게 더 높은 보상을 제공할 수 있고, 그들의 판단을 기술로 증폭할 수 있다. 이것이 우리의 차별점이다.”
―액센추어(Accenture)가 전략적 투자를 하고 ‘프로젝트 스포트라이트’에도 합류했다. 대형 컨설팅·SI 기업과의 파트너십이 엔터프라이즈 AI 시장에서 왜 중요한가.
“액센추어와의 파트너십에 매우 기대가 크다. 아직 배우고 성장하는 단계여서 앞으로도 많이 발전할 것이다. 우리는 데이터 회사다. 프런티어 AI 연구소와 일할 때는 데이터셋 범위를 함께 정하고 데이터를 제공하면, 이후 작업은 그들이 담당하는 경우가 많다.
하지만 일반 대기업은 다르다. 단순히 데이터를 전달받는 것만으로는 가치를 만들기 어렵다. 평가 프로세스를 구축하고, 맞춤형 에이전트를 튜닝하거나 강화학습을 적용한 뒤 실제 배포까지 이어지는 전 과정이 필요하다. 스노클 내부에도 이 마지막 단계를 지원하는 ‘라스트 마일(last mile)’ 팀이 있지만, 전체 엔드투엔드(end-to-end) 전달은 여전히 큰 과제다.
우리는 데이터가 가장 중요한 요소이며 앞으로 그 중요성이 더욱 커질 것이라고 믿는다.
하지만 데이터 이후의 작업도 모두 필요하다. 액센추어 같은 파트너는 산업 전문성과 대기업 고객에게 실제 솔루션을 제공하는 역량을 갖추고 있다. 우리의 데이터와 데이터 개발 기술, 그리고 그들의 실행 역량을 결합하는 것은 스노클이 프런티어 AI 기업을 넘어 일반 대기업 시장으로 확장하는 중요한 경로다.”
챗GPT 이후, 그리고 AI의 미래
―2023년 챗GPT 열풍이 불었을 때 스노클도 영향을 받았다. 하지만 결국 기업들이 범용 모델만으로는 사내 데이터와 기준을 충분히 반영할 수 없다는 점을 다시 깨닫게 됐다고 들었다. 그 과정을 조금 더 자세히 이야기해 달라.“챗GPT 모먼트가 왔을 때 우리는 두 가지 측면에서 흥분했다. 오랫동안 LLM을 다뤄온 기술자로서 그 진전이 가속화되는 모습을 보는 것 자체가 짜릿했고, 사업적으로도 AI에 대한 관심이 폭발하면서 ‘실제 가치가 있는 10배, 100배 더 많은 시나리오에 신뢰할 수 있게 쓰일 수 있는’ 임계점을 넘는 것은 스노클에 거대한 기회로 보였다.
실제로는 기대 이상이었다. 다만 판매 측면에서는 역풍도 있었다. 동시에 제품 로드맵도 바뀌어야 했다. 데이터 개발이라는 핵심은 변하지 않았지만, 특정 사용 사례에 맞춰 구축했던 기능 계층은 조정이 필요했다.
또 다른 변화는 기업들의 AI 소프트웨어 구매 방식이었다. 기업 입장에서 이처럼 거대한 기술 변화가 오면 가장 먼저 하는 일은 새로운 범용 모델을 도입해 손쉽게 얻을 수 있는 가치를 최대한 확보하는 것이다. 그것은 합리적인 선택이다. 나라도 기업의 AI 책임자라면 일단 챗GPT 같은 모델로 곧바로 가치를 낼 수 있는 일을 최대한 시도했을 것이다.
문제는 AI 기술 변화 속도가 너무 빨라졌다는 점이다. 기업들은 새로운 AI 플랫폼을 도입하는 긴 조달 주기에 더욱 신중해졌다. 사전 영업과 검증, 구매, 온보딩, 설치, 교육까지 포함하면 도입에 9~18개월, 길게는 2년 반이 걸릴 수 있다. 세상이 이렇게 빠르게 변하면 기업은 당연히 가장 안전하고 명확한 선택에 집중하려 한다.”
그는 이 역풍을 돌파한 전략으로 약 1년 전 공식화한 ‘데이터 서비스(Data-as-a-Service)’ 사업을 꼽았다.
“프런티어 AI 기업들에 데이터를 제공하는 이 사업으로 전환한 것이 우리에게 큰 효과를 냈다. 지난 9개월간의 성장은 그 이전 어느 때보다 컸고, 이번 분기 매출은 창업 초기 몇 년간의 매출을 모두 합친 것보다 많을 것 같다.
그럼에도 나는 여전히 전통적인 엔터프라이즈 시장이 스노클 같은 회사에 가장 흥미로운 시장이라고 본다. 다만 시간이 걸릴 뿐이다. 기업들은 결국 자신들만의 맞춤형 에이전트를 구축하는 데 막대한 노력과 비용을 투입할 것이다. 그러려면 에이전트를 평가하고 튜닝할 데이터가 필요하다. 그것이 엔터프라이즈 AI의 미래다.”
“하나의 모델이 모든 것을 지배하는 세계는 오지 않을 것”
―만약 스노클 AI가 완전히 성공한다면 AI 산업은 무엇이 가장 크게 달라질까. 단순히 ‘데이터 라벨링이 쉬워진다’를 넘어 어떤 새로운 가능성이 열릴까.“우리 비전에서 가장 중요한 것은 AI가 긍정적인 영향을 줄 수 있는 모든 영역에서 성공하도록 돕는 것이다. 예를 들어 내 아내는 스탠퍼드의 종양내과 의사다. 나는 편향돼 있을 수밖에 없지만, 그녀의 환자들은 스탠퍼드 같은 연구기관 가까이에 있기 때문에 최신 연구와 치료에 더 쉽게 접근할 수 있는 혜택을 누린다고 생각한다.
우리는 AI가 이런 수준의 의료 서비스를 더 많은 사람에게 제공할 수 있게 되기를 바란다. 스탠퍼드 길 건너편에 사는 사람만이 아니라 어디에 살든 더 나은 진료를 받을 수 있게 하는 것이다. 법률 서비스 접근성이나 창작 도구, 새로운 사업을 만드는 도구도 마찬가지다. 중요한 것은 AI가 이런 긍정적 변화를 안전하고 책임감 있게 만들어내도록 하는 것이다. 그리고 그것은 데이터에 달려 있다. 데이터는 모델을 개선해 실제로 작동하게 만드는 데 필요할 뿐 아니라, 어디에 안전하게 활용할 수 있는지 평가하는 데도 필요하다.
두 번째로 우리는 하나의 모델이 모든 것을 지배하는 세계가 올 것이라고 보지 않는다. 거대한 범용 모델은 새로운 클라우드 제공자처럼 존재할 수 있다. 하지만 그 위에는 국가별, 산업별, 기업별로 특화된 모델과 에이전트가 수없이 등장할 것이다.
각 조직의 고유한 목표와 선호, 데이터를 반영한 맞춤형 에이전트를 만들고 배포하는 핵심 역시 데이터다. 우리가 궁극적으로 만들고 싶은 것은 이런 ‘복수성(plurality)의 세계’다. 하나의 중앙 모델이 모든 것을 해결하는 것이 아니라 수많은 특화 AI가 각자의 맥락에서 작동하는 세계다. 나는 그것이 앞으로 가장 바람직한 모습이라고 본다.”
한국 시장을 향한 메시지
―한국은 삼성, SK하이닉스 등 반도체 강국이자 금융·제조 분야에서 AI 도입을 가속화하고 있다. 스노클의 기술이 한국 기업들에 어떤 가치를 제공할 수 있다고 보나.“이 답변은 방금 말한 비전과 연결된다. 우리는 이미 여러 한국 기업과 협력하고 있다. 대기업도 있고 프런티어 AI 연구소도 있다. 우리가 돕고 싶은 것은 AI의 가장 중요한 재료인 데이터, 특히 모델을 올바른 방향으로 이끌고 도전하게 만드는 고품질의 고급 데이터다.
우리는 국가 차원에서도 특화 AI 모델의 중요성이 커질 것이라고 믿는다. 미국 AI의 미래에도 매우 낙관적이지만, 모든 주요 국가와 산업은 자신들의 시장과 이용자에 맞는 AI를 원할 것이다. 한국처럼 기술력이 뛰어난 국가는 당연히 자체 AI에 투자할 것이라고 본다. 방법은 두 가지다. 외부 모델을 도입해 한국 시장과 사용자에 맞게 튜닝할 수도 있고, 처음부터 자체 모델을 개발할 수도 있다. 어느 쪽이든 핵심은 데이터다. 우리는 그런 노력을 지원하는 데 큰 관심을 갖고 있다.”
실제로 래트너는 인터뷰 말미에 스노클이 SK텔레콤 등 한국 기업과 협업해 왔으며 또 다른 한국 AI 연구소와의 협력도 앞두고 있다고 귀띔했다. 스노클이 특히 강점을 보이는 환경은 비정형 데이터가 많고, 데이터가 민감하며, 전문성이 요구되고, 기준이 자주 바뀌는 곳이다. 국내 금융권과 제조업이 대표적인 사례다. 이런 점에서 스노클의 데이터 중심 접근은 한국 기업들의 AI 도입에도 적지 않은 시사점을 준다.
래트너의 말처럼 AI 산업은 겉으로는 모델 경쟁처럼 보인다. 더 큰 모델, 더 많은 GPU, 더 방대한 사전학습 데이터가 헤드라인을 장식한다. 그러나 실제 기업 현장에서는 다른 질문이 중요해진다. “이 모델이 우리 회사의 업무를 이해하는가” “어디에서 실패하는지 측정할 수 있는가” “규제 기준과 내부 판단 기준에 맞게 작동하는가”다.
스노클 AI가 주목받는 이유는 여기에 있다. 이 회사는 모델 경쟁의 전면에 선 기업은 아니다. 그러나 AI가 데모와 실험실을 넘어 금융, 의료, 제조, 공공, 국방 등 실제 업무로 들어갈수록 모델을 신뢰할 수 있게 만드는 데이터와 평가의 중요성은 더욱 커질 수밖에 없다.
챗GPT 이후 모두가 모델을 바라볼 때 래트너는 다시 데이터로 시선을 돌리라고 말한다. 어쩌면 AI 경쟁의 최종 승부는 가장 큰 모델을 가진 회사가 아니라, 자신의 업무와 기준을 가장 정확하게 AI에 가르치고 평가할 수 있는 조직이 가져갈지도 모른다.
필자(최중혁)는 미국 미시간대 경영학석사(MBA) 학위를 받은 뒤 삼성SDI America, SK Global Development Advisors 등을 거쳐 미 실리콘밸리 소재의 사모펀드 팔로알토캐피탈(Palo Alto Capital)을 설립해 운용하고 있다. ‘AI 로봇 반도체 BIG 3 투자 트렌드’ ‘2025~2027 앞으로 3년 미국 주식 트렌드’ 등의 저자다.
저작권 보호를 위해 본문의 일부만 표시됩니다.
원문 보기 →댓글 (0)
첫 번째 댓글을 작성해보세요!
하이닉스 채용의 다른 소식
모든 소식을 불러왔습니다
