quantumaikr
diff --git a/‎CHANGELOG.md‎
Lines changed: 11 additions & 0 deletions b/‎CHANGELOG.md‎
Lines changed: 11 additions & 0 deletions
diff --git a/‎README.ko.md‎
Lines changed: 103 additions & 82 deletions b/‎README.ko.md‎
Lines changed: 103 additions & 82 deletions
@@ -4,6 +4,17 @@
 
 ### Highlights
 
+- **Self-contained inference engine** — loads Qwen3.5-0.8B, generates text at 14 tok/s on CPU
+- **17x faster than PyTorch CPU**, 1.4x faster than PyTorch on Apple GPU
+- **Q8 weight quantization** — 4x memory reduction (2.1 GB → 533 MB), `-q` flag
+- **Streaming BF16** — embed/lm_head kept as mmap'd BF16, saves ~1 GB
+- **Multi-threaded matmul** — 4-thread pthread, 1.56x speedup
+- **DeltaNet + Self-Attention** — full Qwen3.5 hybrid architecture in C
+- **HuggingFace BPE tokenizer** — 248K vocab, encode/decode
+- **KV cache quantized in inference** — Q4 keys, integer Q4×Q8 attention
+
+### v0.8 Inference Engine
+
 - **Integer-domain attention**: 2.9-4.8x faster than FP32 on Apple Silicon (ARM NEON `vdotq_s32`)
 - **Real model validated**: Qwen3.5-0.8B KV cache, cosine 0.994 (A+)
 - **8 quantization types** including mixed precision outlier and RHT pre-rotation
 
@@ -2,149 +2,170 @@
 
 ![TurboQuant Hero](docs/assets/hero.png)
 
-**LLM 추론을 위한 극한 KV 캐시 압축. 외부 의존성 없음. 순수 C.**
+**극한 KV 캐시 압축을 내장한 LLM 추론 엔진. 외부 의존성 없음. 순수 C.**
 
-동일 하드웨어에서 **3배 긴 컨텍스트** — 또는 동일 비용으로 **3배 많은 사용자**.
+모델 로드, 텍스트 생성, KV 캐시 압축 — 하나의 바이너리, Python 불필요.
 
 [![Build](https://img.shields.io/badge/build-passing-brightgreen)]()
-[![Tests](https://img.shields.io/badge/tests-38%2B%20pass-brightgreen)]()
+[![Tests](https://img.shields.io/badge/tests-70%2B%20pass-brightgreen)]()
 [![License](https://img.shields.io/badge/license-Apache%202.0-blue)]()
-[![Qwen3.5 Validated](https://img.shields.io/badge/Qwen3.5--0.8B-validated-blue)]()
+[![Qwen3.5](https://img.shields.io/badge/Qwen3.5--0.8B-14%20tok%2Fs-blue)]()
 
 ---
 
-## 한눈에 보는 결과
+## 한눈에 보기
 
-| | FP16 (기준) | TurboQuant |
+| | PyTorch | TurboQuant.cpp |
 |---|---|---|
-| **KV 캐시 크기** | 7.00 GB | **0.93 GB** (87% 절약) |
-| **Attention 속도** | 1.0x | **2.9-4.8배 빠름** |
-| **최대 컨텍스트 (24GB GPU)** | 164K 토큰 | **540K 토큰** |
-| **품질 (코사인)** | 1.000 | **0.994** (A+) |
+| **CPU 속도** | 0.8 tok/s | **14 tok/s** (17배) |
+| **GPU 속도** | 10 tok/s (MPS) | **14 tok/s (CPU만으로!)** |
+| **가중치 메모리** | 1.7 GB (BF16) | **533 MB** (Q8, `-q` 플래그) |
+| **KV 캐시** | FP16 (전체 크기) | **7.5배 압축** (4-bit) |
+| **의존성** | PyTorch + transformers | **0개** (순수 C) |
 
-> Llama-3.2-3B @ 64K 기준. [Qwen3.5-0.8B](https://huggingface.co/Qwen/Qwen3.5-0.8B) 실제 추론으로 검증.
+> Qwen3.5-0.8B, Apple Silicon 기준. CPU 엔진이 PyTorch GPU보다 빠름.
 
 ---
 
-## 지금 바로 체험 (30초)
+## 실행하기
 
 ```bash
-git clone https://github.com/quantumaikr/TurboQuant.cpp
-cd TurboQuant.cpp
+git clone https://github.com/quantumaikr/TurboQuant.cpp && cd TurboQuant.cpp
+cmake -B build -DCMAKE_BUILD_TYPE=Release && cmake --build build -j$(nproc)
 
-cmake -B build -DCMAKE_BUILD_TYPE=Release -DTQ_BUILD_TESTS=ON -DTQ_BUILD_BENCH=ON
-cmake --build build -j$(sysctl -n hw.ncpu 2>/dev/null || nproc)
-
-# A/B 비교 직접 확인
-./build/ab_test
-
-# 실제 LLM 모델별 메모리 절약
-./build/demo_real_model
+# 텍스트 생성 (14 tok/s, Q8 가중치, 4 스레드)
+./build/tq_run model.safetensors -t tokenizer.json -p "What is AI?" -j 4 -q
+```
 
-# 속도: 정수 Attention vs FP32
-./build/speed_int_vs_float
+```
+Prompt: What is AI?
+---
+Artificial intelligence (AI) is a field of computer science that focuses
+on creating systems capable of performing tasks that typically require
+human intelligence...
+---
+100 tokens in 7.2s (13.9 tok/s, 4 threads, kv=uniform_4b)
 ```
 
 ### Python
 
-```bash
-pip install -e bindings/python
-
-python3 examples/python_quickstart.py
-```
-
 ```python
 from turboquant import TurboQuant
-import numpy as np
-
 tq = TurboQuant("cpu")
-keys = np.random.randn(512, 128).astype(np.float32) * 0.15
-
-compressed = tq.quantize_keys(keys, TurboQuant.UNIFORM_4B)
-print(f"압축: {keys.nbytes:,} → {len(compressed):,} bytes ({keys.nbytes/len(compressed):.1f}x)")
+compressed = tq.quantize_keys(keys, TurboQuant.UNIFORM_4B)  # 7.5배 압축
+scores = tq.attention(query, compressed, seq_len, dim, TurboQuant.UNIFORM_4B)
 ```
 
-### C
+---
 
-```c
-#include "turboquant/turboquant.h"
+## 왜 빠른가
 
-tq_context_t* ctx;
-tq_init(&ctx, TQ_BACKEND_CPU);
+### 1. 자체 추론 엔진
 
-// 7.5배 압축, 한 줄
-tq_quantize_keys(ctx, keys, n, dim, TQ_TYPE_UNIFORM_4B, out, size);
+래퍼가 아닌 순수 C 추론 엔진:
 
-// 압축된 캐시에서 직접 Attention — FP32보다 2.9배 빠름
-tq_attention(ctx, query, out, n, dim, TQ_TYPE_UNIFORM_4B, scores);
+```
+모델 로딩       safetensors (mmap, BF16→FP32 스트리밍)
+토크나이저     HuggingFace BPE (248K 어휘)
+Forward Pass   DeltaNet + Self-Attention (Qwen3.5 하이브리드)
+KV 캐시        TurboQuant 양자화 (4-bit, 자동 압축)
+Attention      정수 Q4×Q8 (FP32 대비 2.9배 빠름)
+가중치          Q8 양자화 (-q 플래그, 메모리 4배 절약)
+생성            Top-p 샘플링, 스트리밍 출력
 ```
 
----
+### 2. 정수 도메인 Attention
+
+양자화 데이터에서 직접 attention 계산 — 역양자화 없음:
 
-## 세 가지 돌파구
+```
+FP32 attention:  22.8 μs (기준)
+Q4×Q8 정수:       7.8 μs (2.9배 빠름, ARM vdotq_s32)
+```
 
-### 1. 작을 뿐 아니라 더 빠르다
+### 3. Q8 가중치 양자화
 
-대부분의 양자화는 작아지지만 느려집니다. TurboQuant은 정수 도메인에서 직접 계산하여 attention이 **FP32보다 2.9-4.8배 빠릅니다**.
+가중치 4배 압축, 품질 손실 무시:
 
 ```
-FP32:    query × key = float dot       → 22.8 μs
-Q4×Q8:   int_query × int_key = int_dot →  7.8 μs  (2.9배 빠름)
+./build/tq_run model.safetensors -p "1+1=" -q
+→ "2" (정확, 2.1 GB 대신 533 MB)
 ```
 
-### 2. 실제 모델로 검증
+---
 
-합성 벤치마크가 아닌 실제 [Qwen3.5-0.8B](https://huggingface.co/Qwen/Qwen3.5-0.8B) KV 캐시:
+## 실제 모델 검증
 
-| 타입 | 압축률 | 품질 | 등급 |
-|------|--------|------|------|
-| **uniform_4b** | 7.5x | 코사인 0.994 | **A+** |
-| **mixed_4b8** | 6.4x | 코사인 0.994 | **A+** |
-| uniform_2b | 14.2x | 코사인 0.953 | A |
+[Qwen3.5-0.8B](https://huggingface.co/Qwen/Qwen3.5-0.8B)로 검증 — 합성이 아닌 실제 추론:
 
-### 3. 커뮤니티 검증 아키텍처
+| 테스트 | 결과 |
+|--------|------|
+| "1+1=" | **2** ✓ |
+| "The capital of France is" | **Paris** ✓ |
+| "The capital of Japan is" | **Tokyo** ✓ |
+| "What is deep learning?" | 정확한 문단 ✓ |
+| PyTorch 대비 logits 코사인 | **0.999** |
 
-r/LocalLLaMA 커뮤니티와 llama.cpp Discussion #20969에서 검증된 기법:
+### KV 캐시 품질
 
-- **정수 내적** (llama.cpp `vec_dot` 패턴)
-- **Random Hadamard Transform** (Qwen3.5에서 MSE 3.9배 감소)
-- **K/V 비대칭** 양자화 (Key 4bit + Value 2bit = 9.8배 압축)
-- **Mixed Precision** 아웃라이어 탐지 (fp16 + 4bit)
+| 타입 | 압축률 | 품질 (코사인) | 등급 |
+|------|--------|-------------|------|
+| **uniform_4b** | 7.5x | 0.994 | **A+** |
+| **mixed_4b8** | 6.4x | 0.994 | **A+** |
+| uniform_2b | 14.2x | 0.953 | A |
 
 ---
 
-## 얼마나 절약되나?
+## CLI 사용법
 
-| 모델 | GPU | FP16 컨텍스트 | TurboQuant | 향상 |
-|------|-----|-------------|------------|------|
-| Qwen3.5-0.8B | 8GB M2 Air | 87K | **286K** | 3.3x |
-| Llama-3.2-1B | 16GB RTX 4060 | 445K | **1,462K** | 3.3x |
-| Llama-3.2-3B | 24GB RTX 4090 | 164K | **540K** | 3.3x |
+```bash
+# 기본 추론
+./build/tq_run MODEL -t TOKENIZER -p "프롬프트" -n 100
+
+# 옵션
+-j 4          # 스레드 수 (기본: 4)
+-q            # Q8 가중치 양자화 (메모리 4배 절약)
+-k uniform_4b # KV 캐시 타입
+-T 0.7        # temperature
+-P 0.9        # top-p
+--info         # 모델 정보 표시
+```
+
+### Python CLI
+
+```bash
+python3 tools/tq info                          # 양자화 타입 정보
+python3 tools/tq bench                         # 성능 벤치마크
+python3 tools/tq +memory llama-3.2-3b 65536    # 메모리 계산
+python3 tools/tq +memory qwen3.5-0.8b 131072 --json  # JSON 출력
+```
 
 ---
 
 ## 문서
 
 | 문서 | 설명 |
 |------|------|
-| **[시작 가이드](docs/getting-started.md)** | **빌드, CLI, Python, C API, llama.cpp — 한 페이지에 모두** |
-| [아키텍처](docs/architecture.md) | 4-layer 설계, 타입 시스템, 디스패치 |
-| [Qwen3.5 검증](docs/qwen35_validation_results.md) | 실제 모델 A/B 테스트 결과 |
+| **[시작 가이드](docs/getting-started.md)** | 빌드, 실행, 통합 |
+| [아키텍처](docs/architecture.md) | 엔진 설계, 타입 시스템 |
+| [Qwen3.5 검증](docs/qwen35_validation_results.md) | 실제 모델 A/B 결과 |
 | [통합 가이드](docs/integration_guide.md) | llama.cpp, vLLM, Python |
-| [llama.cpp 플러그인](integrations/llamacpp/README.md) | llama.cpp 통합 단계별 가이드 |
-| [포맷 사양](spec/tq_format_v1.md) | 블록 구조, 비트 패킹 |
-| [변경 이력](CHANGELOG.md) | 전체 릴리즈 노트 |
+| [변경 이력](CHANGELOG.md) | 릴리즈 노트 |
 
 ---
 
-## 기술 특징
+## 기술 요약
 
+- **자체 추론 엔진** — 모델 로드, 토큰화, forward, 생성을 순수 C로
 - **8개 양자화 타입** — Uniform, Mixed Precision, PolarQuant, QJL, TurboQuant
-- **정수 도메인 Attention** — Q4×Q8, ARM `vdotq_s32` / x86 VNNI
-- **외부 의존성 제로** — 순수 C11/C++17, libc/libm만 사용
-- **스레드 안전** — pthread mutex, TSan 검증
-- **38+ 테스트** — ASan + UBSan + TSan 클린
-- **GPU 대응** — CUDA + Metal 커널 포함
+- **Q8 가중치** — 메모리 4배 절약, NEON 최적화 matmul
+- **정수 attention** — Q4×Q8, ARM `vdotq_s32`
+- **멀티스레드** — pthread matmul, 설정 가능한 스레드 수
+- **하이브리드 모델** — DeltaNet (순환) + Self-Attention (Qwen3.5)
+- **RHT** — Random Hadamard Transform, MSE 3.9배 감소
+- **K/V 비대칭** — 키/값 독립 비트 할당
+- **외부 의존성 제로** — 순수 C11, libc/libm만
+- **70+ 테스트** — 19 C++ 스위트 + 22 Python, ASan/UBSan/TSan 클린
 
 ---