docs: concise project intro (EN/KO, <500 chars each)

unamedkr · claude · unamedkr · commit 4086a8d7adc5 · 2026-04-01T17:36:51.000+09:00
Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/docs/pr/2026-04-01-intro-ko.md b/docs/pr/2026-04-01-intro-ko.md
@@ -0,0 +1,11 @@
+# TurboQuant.cpp
+
+TurboQuant 논문(ICLR 2026)의 KV 캐시 압축을 순수 C로 구현한 LLM 추론 엔진입니다.
+
+Randomized Hadamard Transform과 부호 해싱으로 key 벡터를 1비트로 압축합니다. Attention은 XOR + popcount로 수행됩니다. Value 벡터는 Q4 또는 Q2로 독립 양자화됩니다. Gemma 3 4B 기준 총 K+V 압축률 4.9x–7.1x, 32K 컨텍스트에서 3.4–3.7 GB 절약.
+
+1-bit key attention의 코사인 유사도는 0.634로, 부호 양자화의 이론적 한계 2/pi와 일치합니다. 모든 NEON 경로를 스칼라 참조와 비교 검증하였고, ASan 클린, 26개 테스트 스위트를 통과합니다.
+
+Gemma 3 (4B, 270M)과 Qwen3.5 (0.8B)를 지원합니다. 외부 의존성 없음.
+
+https://github.com/quantumaikr/TurboQuant.cpp
diff --git a/docs/pr/2026-04-01-intro.md b/docs/pr/2026-04-01-intro.md
@@ -0,0 +1,9 @@
+# TurboQuant.cpp
+
+Pure C implementation of the TurboQuant paper (ICLR 2026) for KV cache compression in LLM inference.
+
+Key vectors compressed to 1 bit via randomized Hadamard transform + sign hashing. Attention via XOR + popcount. Values independently quantized to Q4 or Q2. Total K+V: 4.9x–7.1x compression on Gemma 3 4B, saving up to 3.7 GB at 32K context.
+
+1-bit attention cosine = 0.634, matching the 2/pi theoretical limit. All NEON paths verified against scalar reference. ASan clean, 26 test suites. No external dependencies.
+
+https://github.com/quantumaikr/TurboQuant.cpp