quantumaikr
diff --git a/‎README.ko.md‎
Lines changed: 20 additions & 8 deletions b/‎README.ko.md‎
Lines changed: 20 additions & 8 deletions
diff --git a/‎README.md‎
Lines changed: 20 additions & 10 deletions b/‎README.md‎
Lines changed: 20 additions & 10 deletions
diff --git a/‎docs/prd_v0.1.md‎ ‎docs/plan/prd/prd_v0.1.md‎docs/prd_v0.1.md renamed to docs/plan/prd/prd_v0.1.md b/‎docs/prd_v0.1.md‎ ‎docs/plan/prd/prd_v0.1.md‎docs/prd_v0.1.md renamed to docs/plan/prd/prd_v0.1.md
diff --git a/‎docs/prd_v0.2.md‎ ‎docs/plan/prd/prd_v0.2.md‎docs/prd_v0.2.md renamed to docs/plan/prd/prd_v0.2.md b/‎docs/prd_v0.2.md‎ ‎docs/plan/prd/prd_v0.2.md‎docs/prd_v0.2.md renamed to docs/plan/prd/prd_v0.2.md
diff --git a/‎docs/prd_v0.3.md‎ ‎docs/plan/prd/prd_v0.3.md‎docs/prd_v0.3.md renamed to docs/plan/prd/prd_v0.3.md b/‎docs/prd_v0.3.md‎ ‎docs/plan/prd/prd_v0.3.md‎docs/prd_v0.3.md renamed to docs/plan/prd/prd_v0.3.md
diff --git a/‎docs/prd_v0.4.md‎ ‎docs/plan/prd/prd_v0.4.md‎docs/prd_v0.4.md renamed to docs/plan/prd/prd_v0.4.md b/‎docs/prd_v0.4.md‎ ‎docs/plan/prd/prd_v0.4.md‎docs/prd_v0.4.md renamed to docs/plan/prd/prd_v0.4.md
diff --git a/‎docs/prd_v0.5.md‎ ‎docs/plan/prd/prd_v0.5.md‎docs/prd_v0.5.md renamed to docs/plan/prd/prd_v0.5.md b/‎docs/prd_v0.5.md‎ ‎docs/plan/prd/prd_v0.5.md‎docs/prd_v0.5.md renamed to docs/plan/prd/prd_v0.5.md
diff --git a/‎docs/prd_v0.6.md‎ ‎docs/plan/prd/prd_v0.6.md‎docs/prd_v0.6.md renamed to docs/plan/prd/prd_v0.6.md b/‎docs/prd_v0.6.md‎ ‎docs/plan/prd/prd_v0.6.md‎docs/prd_v0.6.md renamed to docs/plan/prd/prd_v0.6.md
diff --git a/‎docs/wbs_v0.1.md‎ ‎docs/plan/wbs/wbs_v0.1.md‎docs/wbs_v0.1.md renamed to docs/plan/wbs/wbs_v0.1.md b/‎docs/wbs_v0.1.md‎ ‎docs/plan/wbs/wbs_v0.1.md‎docs/wbs_v0.1.md renamed to docs/plan/wbs/wbs_v0.1.md
diff --git a/‎docs/wbs_v0.2.md‎ ‎docs/plan/wbs/wbs_v0.2.md‎docs/wbs_v0.2.md renamed to docs/plan/wbs/wbs_v0.2.md b/‎docs/wbs_v0.2.md‎ ‎docs/plan/wbs/wbs_v0.2.md‎docs/wbs_v0.2.md renamed to docs/plan/wbs/wbs_v0.2.md
@@ -166,14 +166,26 @@ scores = tq.attention(query, quantized, 512, 128, TurboQuant.UNIFORM_4B)
 
 ## 양자화 타입
 
-| 타입 | 비트 | 알고리즘 | 압축률 | 품질 | 추천 용도 |
-|------|------|----------|--------|------|----------|
-| `uniform_4b` | 4 | Min-Max | 7.5x | A+ (0.995) | **프로덕션 (커뮤니티 추천)** |
-| `mixed_4b8` | ~5 | 4bit + fp16 아웃라이어 | 6.4x | A+ | 아웃라이어 많은 데이터 |
-| `uniform_2b` | 2 | Min-Max | 14.2x | B+ (0.855) | 극한 압축 |
-| `turbo_3b` | 3 | Polar+QJL | 4.6x | B+ (0.917) | 균형 |
-| `polar_4b` | 4 | PolarQuant | 7.1x | B (0.827) | 연구용 |
-| `qjl_1b` | 1 | QJL 부호 해시 | 12.8x | C (0.702) | 초극한 압축 |
+**실제 Qwen3.5-0.8B A/B 테스트 결과** 기반 순위 (합성 데이터 아님):
+
+| 순위 | 타입 | 비트 | 압축률 | 실제 코사인 | 등급 | 추천 용도 |
+|------|------|------|--------|------------|------|----------|
+| 1 | **`uniform_4b`** | 4 | 7.5x | **0.994** | **A+** | **프로덕션 기본 선택** |
+| 2 | **`mixed_4b8`** | ~5 | 6.4x | **0.994** | **A+** | 아웃라이어 심한 모델 |
+| 3 | **`uniform_2b`** | 2 | 14.2x | **0.953** | **A** | 극한 압축 (의외로 우수) |
+| 4 | `turbo_3b` | 3 | 4.6x | 0.934 | B+ | 연구용 |
+| 5 | `polar_4b` | 4 | 7.1x | 0.893 | B | 연구용 |
+| 6 | `qjl_1b` | 1 | 25.6x | 0.744 | C | 비추천 |
+
+**추천 설정:**
+```
+최고 품질:    uniform_4b                (코사인 0.994, 7.5배)
+최적 가성비:  K4V2 (key=4b, value=2b)  (코사인 ~0.97, 9.8배)
+극한 압축:    uniform_2b               (코사인 0.953, 14.2배)
+RHT 적용:    RHT + uniform_4b         (MSE 1.8배 추가 개선)
+```
+
+> **커뮤니티 검증** (r/LocalLLaMA, llama.cpp #20969): 단순 min-max(`uniform_4b`)가 QJL/PolarQuant보다 실전에서 우수. `uniform_2b`도 14배 압축에서 실제 모델에서 A등급 달성.
 
 > **커뮤니티 검증** (r/LocalLLaMA, llama.cpp #20969): `uniform_4b`가 QJL 기반 방법보다 실전에서 우수. QJL은 분산을 증가시켜 attention softmax에 불리.
 
 
@@ -172,16 +172,26 @@ Measured on Apple M-series (ARM NEON):
 
 ## Quantization Types
 
-| Type | Bits | Algorithm | Compression | Quality | Best For |
-|------|------|-----------|-------------|---------|----------|
-| `uniform_4b` | 4 | Min-Max | 7.5x | A+ (0.995) | **Production (recommended)** |
-| `mixed_4b8` | ~5 | 4-bit + fp16 outliers | 6.4x | A+ | Data with outliers |
-| `uniform_2b` | 2 | Min-Max | 14.2x | B+ (0.855) | Max compression |
-| `turbo_3b` | 3 | Polar+QJL | 4.6x | B+ (0.917) | Balanced |
-| `polar_4b` | 4 | PolarQuant | 7.1x | B (0.827) | Research |
-| `qjl_1b` | 1 | QJL Sign Hash | 12.8x | C (0.702) | Extreme compression |
-
-> **Community finding** (r/LocalLLaMA, llama.cpp #20969): `uniform_4b` with bin-centered reconstruction outperforms QJL-based methods in practice. QJL increases variance which hurts attention softmax.
+Ranked by **real Qwen3.5-0.8B A/B test results** (not synthetic data):
+
+| Rank | Type | Bits | Compression | Real Cosine | Grade | Recommended For |
+|------|------|------|-------------|-------------|-------|-----------------|
+| 1 | **`uniform_4b`** | 4 | 7.5x | **0.994** | **A+** | **Default production choice** |
+| 2 | **`mixed_4b8`** | ~5 | 6.4x | **0.994** | **A+** | Models with extreme outliers |
+| 3 | **`uniform_2b`** | 2 | 14.2x | **0.953** | **A** | Max compression (surprisingly good) |
+| 4 | `turbo_3b` | 3 | 4.6x | 0.934 | B+ | Research |
+| 5 | `polar_4b` | 4 | 7.1x | 0.893 | B | Research |
+| 6 | `qjl_1b` | 1 | 25.6x | 0.744 | C | Not recommended |
+
+**Recommended configurations:**
+```
+Best quality:    uniform_4b                (cosine 0.994, 7.5x)
+Best balance:    K4V2 (key=4b, value=2b)  (cosine ~0.97, 9.8x)
+Max compression: uniform_2b               (cosine 0.953, 14.2x)
+With RHT:        RHT + uniform_4b         (MSE 1.8x better)
+```
+
+> **Community validated** (r/LocalLLaMA, llama.cpp #20969): Simple min-max (`uniform_4b`) outperforms QJL and PolarQuant in practice. QJL increases variance which hurts attention softmax. `uniform_2b` at 14x compression achieves A grade on real models.
 
 ---