구글 터보퀀트(TurboQuant) — LLM 메모리를 6배 줄이는 압축 알고리즘의 등장
구글 리서치가 공개한 TurboQuant의 작동 원리, 핵심 기술(PolarQuant·QJL), 벤치마크 결과, 그리고 AI 업계에 미치는 영향까지 정리.

2026년 3월 24일, 구글 리서치에서 TurboQuant라는 압축 알고리즘을 공개했다. 공개된 지 이틀 만에 삼성전자·SK하이닉스 주가가 흔들리고, 클라우드플레어 CEO가 "구글의 딥시크 모먼트"라고 평가할 정도로 파장이 컸다. 대체 뭐가 그렇게 대단하길래?
핵심만 말하면, LLM이 추론할 때 잡아먹는 메모리를 6분의 1로 줄이면서 정확도 손실이 없다는 거다. 이 글에서는 터보퀀트가 왜 나왔고, 어떻게 작동하며, 실제로 어떤 숫자를 보여줬는지 팩트 위주로 정리한다.
KV 캐시가 뭔데, 왜 문제인가
LLM이 긴 텍스트를 처리할 때 트랜스포머 아키텍처 내부에서 키-값(Key-Value) 캐시라는 걸 유지한다. 이전에 처리한 토큰의 정보를 저장해두고, 다음 토큰을 생성할 때 참조하는 구조다.
문제는 이 KV 캐시가 입력 길이에 비례해서 커진다는 점이다. 10만 토큰짜리 문서를 처리하면 캐시만으로 GPU 메모리 수십 GB를 차지할 수 있다. 그래서 긴 문맥(long context)을 다루는 LLM일수록 KV 캐시가 병목이 된다. 모델 파라미터보다 캐시가 더 많은 메모리를 먹는 상황도 흔하다.
기존에도 KIVI(ICML 2024) 같은 KV 캐시 압축 방법이 있었지만, 약 2.6배 압축이 한계였다. 더 줄이려면 정확도가 떨어졌다. 터보퀀트는 이 벽을 깬 거다.
터보퀀트의 구조 — 두 가지 기술의 조합
터보퀀트는 단일 기술이 아니라 PolarQuant와 QJL(Quantized Johnson-Lindenstrauss), 이 두 알고리즘을 합친 시스템이다. 구글 리서치의 Amir Zandieh(연구원)와 Vahab Mirrokni(부사장·구글 펠로우)가 구글 딥마인드, KAIST, 뉴욕대 공동 연구진과 함께 개발했다.
PolarQuant — 좌표계를 바꿔서 오버헤드를 없앤다
기존의 양자화(quantization) 기법들은 벡터를 블록 단위로 나눈 뒤, 각 블록마다 **정규화 상수(normalization constant)**를 따로 저장해야 했다. 이 정규화 상수가 블록당 1~2비트의 추가 오버헤드를 만든다. 데이터 자체를 3비트로 줄여도 부가 정보까지 합하면 실질 압축률이 떨어지는 셈이다.
PolarQuant는 접근 방식 자체를 바꿨다. 벡터를 직교좌표(X, Y, Z) 대신 **극좌표(polar coordinates)**로 변환한다. 크기(radius)와 방향(angle)으로 분리하는 거다. 여기에 랜덤 회전(random rotation)을 적용하면, 각 좌표의 분포가 **베타 분포(Beta distribution)**로 수렴하면서 매우 예측 가능한 형태가 된다.
분포가 예측 가능하다는 건, 블록별로 정규화 상수를 따로 저장할 필요가 없다는 뜻이다. 고정된 격자(grid)에 매핑하면 되니까. 이것만으로도 기존 양자화 대비 오버헤드가 크게 줄어든다.
QJL — 1비트로 오차를 보정한다
PolarQuant만으로도 괜찮은 압축률을 달성하지만, 극좌표 변환 과정에서 미세한 오차가 발생한다. 특히 트랜스포머의 어텐션 메커니즘은 내적(inner product) 계산에 민감해서, 이 오차가 누적되면 성능 저하로 이어질 수 있다.
QJL은 이 잔여 오차(residual error)를 1비트 정보로 보정하는 수학적 기법이다. Johnson-Lindenstrauss 변환을 양자화한 버전인데, 핵심은 내적 추정치의 편향(bias)을 제거해서 **비편향 추정(unbiased estimation)**을 보장한다는 점이다. 1비트만으로 보정이 가능한 이유는, 잔여 벡터의 부호(sign) 정보만 기록하면 충분하기 때문이다.
이 두 단계를 결합하면 블록당 3비트로 KV 캐시를 압축하면서, 정확도 손실 없이 내적 계산의 정밀도를 유지할 수 있다.
벤치마크 — 숫자로 확인하기
구글 연구팀은 Gemma, Mistral, Llama-3.1-8B-Instruct 등의 오픈소스 LLM으로 테스트했다. 사용된 벤치마크는 LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L-Eval 등 장문 처리 평가에서 표준으로 쓰이는 것들이다.
정확도
| 벤치마크 | 결과 |
|---|---|
| LongBench (QA, 코드 생성, 요약) | 3.5비트에서 비압축 캐시와 동일한 점수 |
| Needle In A Haystack | 6배 압축에서도 만점(perfect score) |
| ZeroSCROLLS, RULER, L-Eval | 기존 KIVI 대비 동등 이상 |
3비트 압축에서 KIVI와 비교했을 때, TurboQuant가 모든 태스크에서 동등하거나 더 나은 성능을 보였다. KIVI의 2.6배 압축 대비 터보퀀트의 6배 압축이라는 점을 감안하면 상당한 차이다.
속도와 메모리
- 메모리 절감: KV 캐시 용량 기준 최소 6배 감소 (16비트 → 3비트)
- 속도 향상: NVIDIA H100 GPU에서 4비트 TurboQuant 적용 시, 어텐션 로짓(attention logit) 계산 속도가 32비트 대비 최대 8배 빨라짐
한 가지 짚고 넘어갈 점이 있다. 이 8배 속도 향상은 어텐션 계산 단계에 한정된 수치다. LLM 추론의 전체(end-to-end) 속도가 8배 빨라지는 건 아니다. 어텐션이 추론에서 상당한 비중을 차지하긴 하지만, 유일한 병목은 아니니까.
벡터 검색
KV 캐시 압축만이 아니라 벡터 검색(vector search)에도 적용할 수 있다. GloVe 데이터셋에서 Product Quantization(PQ)과 RabbiQ를 상대로 테스트한 결과, 1@k 리콜(recall) 비율에서 TurboQuant가 가장 높은 수치를 기록했다. 더 큰 코드북(codebook)이나 데이터셋 맞춤 튜닝에 의존하는 경쟁 기법들보다 나은 셈이다.
특히 벡터 인덱싱 시간이 거의 0에 가까운데(1536차원 벡터 기준 0.0013초), 실시간으로 데이터가 들어오는 환경에서 즉시 검색 가능한 상태를 만들 수 있다는 뜻이다.
터보퀀트의 핵심 특징 — data-oblivious
이 알고리즘의 가장 두드러진 특성은 데이터 무관(data-oblivious) 방식이라는 점이다.
기존의 많은 양자화 기법은 적용 전에 캘리브레이션(calibration) 단계가 필요하다. 특정 데이터셋으로 통계를 수집하고, 그에 맞춰 양자화 파라미터를 조정하는 과정이다. 모델이 바뀌면 캘리브레이션도 다시 해야 한다.
터보퀀트는 이 과정이 아예 없다. 모델 재학습도, 파인튜닝도, 데이터셋 맞춤 캘리브레이션도 필요 없다. 그냥 적용하면 된다. 랜덤 회전 후의 분포가 수학적으로 예측 가능하기 때문에, 데이터가 뭐든 같은 방식으로 압축할 수 있다는 게 이론적 근거다.
이건 실무 배포 관점에서 꽤 중요하다. 전처리 파이프라인이 단순해지고, 새로운 모델이 나와도 바로 적용할 수 있으니까.
경쟁 기술과 비교
터보퀀트만 ICLR 2026에 나오는 건 아니다. NVIDIA가 발표한 KVTC도 같은 학회에서 공개된다.
| 항목 | TurboQuant | KVTC (NVIDIA) |
|---|---|---|
| 압축률 | 최대 6배 | 최대 20배 |
| 정확도 손실 | 측정 불가 수준 (0%) | 1%p 미만 |
| 캘리브레이션 | 불필요 (data-oblivious) | 모델당 1회 필요 |
| 테스트 모델 규모 | ~8B 파라미터 | 1.5B ~ 70B 파라미터 |
| 접근 방식 | 수학적 변환 기반 | 데이터 기반 최적화 |
KVTC가 압축률에서는 앞서지만, 미세한 정확도 손실이 있고 캘리브레이션이 필요하다. 터보퀀트는 압축률은 낮지만 정확도 손실 제로와 캘리브레이션 불필요라는 장점이 있다. 사용 시나리오에 따라 선택이 달라질 수 있는 구조다.
알아둬야 할 한계
팩트 기반으로 정리하는 글이니, 한계도 분명히 짚어야 한다.
테스트 모델 규모가 제한적이다. 공개된 벤치마크는 대부분 8B 파라미터 수준의 모델로 진행됐다. 70B 이상의 대형 모델, MoE(Mixture of Experts) 아키텍처, 100만 토큰급 컨텍스트 윈도우에서도 "정확도 손실 제로"가 유지되는지는 아직 검증되지 않았다.
프로덕션 적용 사례가 없다. 구글이 제미나이나 구글 검색에 적용했다는 공식 발표는 없다. 연구 논문과 실제 배포 사이에는 항상 간극이 있고, 구글 리서치의 논문이 전부 제품에 반영되는 건 아니다.
공식 코드가 아직 없다. 오픈소스 코드는 2026년 2분기(Q2) 즈음 공개될 것으로 예상되고 있다. 다만 독립 개발자들이 이미 Triton, MLX, llama.cpp 등에서 비공식 구현을 만들었고, RTX 4090에서 Gemma 3 4B 모델로 테스트했을 때 2비트 정밀도에서도 비압축 결과와 글자 단위로 동일한 출력을 확인했다는 보고가 있다.
논문과 학회 일정
| 알고리즘 | arXiv | 학회 |
|---|---|---|
| QJL (Quantized Johnson-Lindenstrauss) | — | AAAI 2025 (발표 완료) |
| PolarQuant | arXiv:2502.02617 | AISTATS 2026 |
| TurboQuant | arXiv:2504.19874 | ICLR 2026 (4월 23~25일) |
세 논문이 시간차를 두고 발표되면서 하나의 시스템으로 합쳐진 형태다. QJL이 먼저 나왔고, PolarQuant가 정규화 오버헤드를 제거했으며, TurboQuant가 둘을 결합해서 최종 성능을 달성했다.
시장 반응과 전망
클라우드플레어 CEO 매튜 프린스가 "구글의 딥시크 모먼트"라고 부른 건 과장이 아닐 수도 있다. 소프트웨어 알고리즘 하나로 메모리 요구량을 6분의 1로 줄일 수 있다면, HBM(고대역폭 메모리)에 대한 수요 전망이 흔들릴 수 있으니까. 실제로 발표 직후 마이크론, 웨스턴디지털 주가가 하락했고, 국내에서도 삼성전자·SK하이닉스 주가에 영향이 있었다.
다만 이걸 단순히 "메모리 수요 감소"로만 해석하는 시각에 대한 반론도 있다. 메모리 효율이 좋아지면 같은 하드웨어에서 더 긴 문맥을 처리할 수 있게 되고, 그러면 지금까지 메모리 한계 때문에 시도하지 못했던 활용 사례들이 열린다. 결국 전체 AI 인프라의 파이가 커지면서 메모리 수요가 오히려 늘어날 수 있다는 분석이다.
어떤 방향이든, 터보퀀트가 LLM 추론 효율화라는 영역에서 의미 있는 진전을 보여준 건 분명하다. ICLR 2026에서의 정식 발표와 오픈소스 코드 공개 이후의 커뮤니티 반응이 다음 관전 포인트가 될 거다.
이 글은 구글 리서치 블로그, arXiv 논문, 그리고 여러 기술 매체의 보도를 기반으로 작성됐습니다. 특정 투자 판단이나 기술적 의사결정의 근거로 사용하지 마시고, 참고 자료로만 활용해 주세요.