Skip to content

Commit 4086a8d

Browse files
unamedkrclaude
andcommitted
docs: concise project intro (EN/KO, <500 chars each)
Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>
1 parent 55bc078 commit 4086a8d

2 files changed

Lines changed: 20 additions & 0 deletions

File tree

docs/pr/2026-04-01-intro-ko.md

Lines changed: 11 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,11 @@
1+
# TurboQuant.cpp
2+
3+
TurboQuant 논문(ICLR 2026)의 KV 캐시 압축을 순수 C로 구현한 LLM 추론 엔진입니다.
4+
5+
Randomized Hadamard Transform과 부호 해싱으로 key 벡터를 1비트로 압축합니다. Attention은 XOR + popcount로 수행됩니다. Value 벡터는 Q4 또는 Q2로 독립 양자화됩니다. Gemma 3 4B 기준 총 K+V 압축률 4.9x–7.1x, 32K 컨텍스트에서 3.4–3.7 GB 절약.
6+
7+
1-bit key attention의 코사인 유사도는 0.634로, 부호 양자화의 이론적 한계 2/pi와 일치합니다. 모든 NEON 경로를 스칼라 참조와 비교 검증하였고, ASan 클린, 26개 테스트 스위트를 통과합니다.
8+
9+
Gemma 3 (4B, 270M)과 Qwen3.5 (0.8B)를 지원합니다. 외부 의존성 없음.
10+
11+
https://github.com/quantumaikr/TurboQuant.cpp

docs/pr/2026-04-01-intro.md

Lines changed: 9 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,9 @@
1+
# TurboQuant.cpp
2+
3+
Pure C implementation of the TurboQuant paper (ICLR 2026) for KV cache compression in LLM inference.
4+
5+
Key vectors compressed to 1 bit via randomized Hadamard transform + sign hashing. Attention via XOR + popcount. Values independently quantized to Q4 or Q2. Total K+V: 4.9x–7.1x compression on Gemma 3 4B, saving up to 3.7 GB at 32K context.
6+
7+
1-bit attention cosine = 0.634, matching the 2/pi theoretical limit. All NEON paths verified against scalar reference. ASan clean, 26 test suites. No external dependencies.
8+
9+
https://github.com/quantumaikr/TurboQuant.cpp

0 commit comments

Comments
 (0)