quantumaikr
diff --git a/‎CMakeLists.txt‎
Lines changed: 7 additions & 0 deletions b/‎CMakeLists.txt‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎docs/plan/prd/prd_v0.8.md‎
Lines changed: 142 additions & 0 deletions b/‎docs/plan/prd/prd_v0.8.md‎
Lines changed: 142 additions & 0 deletions
diff --git a/‎docs/plan/wbs/wbs_v0.8.md‎
Lines changed: 117 additions & 0 deletions b/‎docs/plan/wbs/wbs_v0.8.md‎
Lines changed: 117 additions & 0 deletions
@@ -13,11 +13,13 @@ option(TQ_BUILD_METAL "Build Metal backend" OFF)
 file(GLOB TQ_CORE_SOURCES src/core/*.c)
 file(GLOB TQ_CACHE_SOURCES src/cache/*.c)
 file(GLOB TQ_CPU_SOURCES src/backend/cpu/*.c)
+file(GLOB TQ_ENGINE_SOURCES src/engine/*.c)
 
 add_library(turboquant STATIC
     ${TQ_CORE_SOURCES}
     ${TQ_CACHE_SOURCES}
     ${TQ_CPU_SOURCES}
+    ${TQ_ENGINE_SOURCES}
 )
 target_include_directories(turboquant PUBLIC include)
 target_link_libraries(turboquant PRIVATE m)
@@ -27,6 +29,7 @@ add_library(turboquant_shared SHARED
     ${TQ_CORE_SOURCES}
     ${TQ_CACHE_SOURCES}
     ${TQ_CPU_SOURCES}
+    ${TQ_ENGINE_SOURCES}
 )
 target_include_directories(turboquant_shared PUBLIC include)
 target_link_libraries(turboquant_shared PRIVATE m)
@@ -82,6 +85,10 @@ if(TQ_BUILD_BENCH)
     endforeach()
 endif()
 
+# CLI inference tool
+add_executable(tq_run tools/tq_run.c)
+target_link_libraries(tq_run turboquant)
+
 # Examples (always built)
 file(GLOB EXAMPLE_C_SOURCES examples/*.c)
 file(GLOB EXAMPLE_CXX_SOURCES examples/*.cpp)
 
@@ -0,0 +1,142 @@
+# TurboQuant.cpp — Product Requirements Document v0.8
+
+**Version**: 0.8
+**Date**: 2026-03-29
+**Focus**: 자체 추론 엔진 — 모델 로드부터 토큰 생성까지, 외부 의존성 없이
+
+---
+
+## 1. Problem
+
+현재 TurboQuant.cpp는 KV 캐시 압축 **라이브러리**일 뿐이다. 실제 추론은 PyTorch에 의존하며, CPU에서 0.8 tok/s로 매우 느리다.
+
+refs/ 프로젝트들의 강점을 융합한 **자체 추론 엔진**이 필요하다:
+
+| refs/ 프로젝트 | 가져올 강점 | 현재 구현 |
+|---------------|-----------|----------|
+| **llama.cpp** | 순수 C 추론, GGUF 로더, NEON matmul | ❌ 없음 |
+| **vLLM** | PagedAttention, 퓨전 커널 | ⚠️ 캐시만 |
+| **ONNX** | 표준 연산자, 포맷 호환 | ⚠️ 비트패킹만 |
+
+## 2. Goal
+
+**순수 C로 구현된 최소 추론 엔진** — Qwen3.5-0.8B를 외부 의존성 없이 CPU에서 **10+ tok/s**로 실행.
+
+참조: Karpathy의 llama2.c (순수 C, ~700줄, 외부 의존성 없음)
+
+## 3. Architecture
+
+```
+┌─────────────────────────────────────────────┐
+│ tq_generate()  — Autoregressive decode loop │
+├─────────────────────────────────────────────┤
+│ tq_forward()   — Single forward pass        │
+│   ├── RMSNorm                               │
+│   ├── QKV Projection (matmul)               │
+│   ├── RoPE (rotary position embedding)      │
+│   ├── KV Cache (TurboQuant quantized!)      │
+│   ├── Attention (integer Q4×Q8!)            │
+│   ├── Output Projection (matmul)            │
+│   ├── FFN: gate/up → SiLU → down           │
+│   └── Residual connections                  │
+├─────────────────────────────────────────────┤
+│ tq_load_model() — Weight loader             │
+│   ├── safetensors / GGUF / custom format    │
+│   └── Weight quantization (Q4/Q8)           │
+├─────────────────────────────────────────────┤
+│ tq_tokenize()  — BPE tokenizer              │
+├─────────────────────────────────────────────┤
+│ tq_sample()    — Top-p, temperature         │
+└─────────────────────────────────────────────┘
+```
+
+핵심: **KV 캐시에 TurboQuant 양자화가 내장**된 추론 엔진. 기존 라이브러리의 모든 기능(정수 attention, RHT, mixed precision, progressive compression)이 추론 파이프라인 안에서 동작.
+
+## 4. Requirements
+
+### FR-V8-1: 텐서 연산 (src/engine/tq_ops.c)
+
+llama.cpp GGML 패턴 참조:
+- `tq_matmul()` — 행렬-벡터 곱 (가중치 × 활성화), NEON 최적화
+- `tq_rmsnorm()` — RMS normalization
+- `tq_rope()` — Rotary Position Embedding
+- `tq_silu()` — SiLU activation (x * sigmoid(x))
+- `tq_softmax()` — Softmax (attention scores)
+- `tq_add()` — 잔차 연결
+
+### FR-V8-2: 모델 로더 (src/engine/tq_model.c)
+
+- safetensors 포맷 읽기 (Qwen3.5-0.8B 호환)
+- 가중치를 FP32 또는 Q8로 로드
+- 모델 구조 자동 감지 (config.json 파싱)
+- mmap 지원 (대용량 모델 메모리 효율)
+
+### FR-V8-3: Transformer 블록 (src/engine/tq_transformer.c)
+
+Qwen3.5-0.8B의 Gated Attention 레이어:
+```
+input → RMSNorm → QKV_proj → RoPE → Attention → O_proj → residual
+      → RMSNorm → gate_proj + up_proj → SiLU → down_proj → residual
+```
+
+KV 캐시에 TurboQuant 양자화 자동 적용:
+- 새 키 생성 → `tq_quantize_keys()` → 양자화 캐시에 저장
+- Attention 계산 → `tq_attention_int()` → 정수 도메인에서 직접 계산
+
+### FR-V8-4: 토크나이저 (src/engine/tq_tokenizer.c)
+
+- BPE 토크나이저 (tokenizer.json 로드)
+- encode: 문자열 → 토큰 ID
+- decode: 토큰 ID → 문자열
+
+### FR-V8-5: 생성 루프 (src/engine/tq_generate.c)
+
+- Autoregressive decode: 한 토큰씩 생성
+- Prefill: 프롬프트 전체를 한번에 처리
+- Sampling: temperature, top-p, top-k
+- 스트리밍 출력 (토큰 생성 즉시 출력)
+
+### FR-V8-6: CLI (tools/tq_run)
+
+```bash
+# 모델 실행
+tq_run --model qwen3.5-0.8b.safetensors --prompt "What is deep learning?"
+
+# 옵션
+tq_run --model MODEL --prompt TEXT \
+       --kv-type uniform_4b \       # KV 캐시 양자화 타입
+       --max-tokens 100 \
+       --temperature 0.7 \
+       --threads 4
+```
+
+## 5. Success Criteria
+
+| 지표 | 목표 |
+|------|------|
+| CPU 추론 속도 | **10+ tok/s** (현재 PyTorch: 0.8 tok/s) |
+| MPS 추론 속도 | **30+ tok/s** |
+| 메모리 사용량 | **< 2 GB** (Qwen3.5-0.8B Q8 가중치 + KV 캐시) |
+| 외부 의존성 | **0개** (libc/libm만) |
+| KV 캐시 압축 | 기존 TurboQuant 전체 기능 내장 |
+| 정확도 | PyTorch FP32 대비 동일 텍스트 생성 |
+
+## 6. Scope
+
+### v0.8.0 (최소 동작)
+- Qwen3.5-0.8B Gated Attention 레이어만 지원
+- safetensors 로더
+- FP32 가중치 + TurboQuant KV 캐시
+- CPU 추론 (NEON 최적화)
+- 기본 BPE 토크나이저
+
+### v0.8.1 (최적화)
+- Q8 가중치 양자화 (메모리 절반)
+- NEON matmul 최적화
+- 멀티스레드 prefill
+
+### v0.9+ (확장)
+- DeltaNet 레이어 지원 (Qwen3.5 전체)
+- Metal GPU 추론
+- GGUF 호환
+- 다른 모델 아키텍처 (Llama, Phi)
@@ -0,0 +1,117 @@
+# TurboQuant.cpp — Work Breakdown Structure v0.8
+
+**Version**: 0.8
+**Date**: 2026-03-29
+**Focus**: 자체 추론 엔진 구현
+
+---
+
+## Phase 1: 텐서 연산 커널
+
+- [ ] `src/engine/tq_ops.c` — 핵심 연산
+  - [ ] `tq_matmul(out, x, w, n, d)` — 행렬-벡터 곱 (w[n,d] × x[d] → out[n])
+  - [ ] `tq_matmul_neon()` — ARM NEON 최적화 (vfmaq_f32, 4-wide)
+  - [ ] `tq_rmsnorm(out, x, weight, n, eps)` — RMS normalization
+  - [ ] `tq_rope(q, k, pos, head_dim, freq_base)` — Rotary Position Embedding
+  - [ ] `tq_silu(x, n)` — SiLU activation (in-place)
+  - [ ] `tq_softmax(x, n)` — Softmax
+  - [ ] `tq_add(out, a, b, n)` — 벡터 덧셈
+  - [ ] `tq_mul(out, a, b, n)` — 벡터 곱셈 (element-wise)
+- [ ] `include/turboquant/tq_engine.h` — 추론 엔진 헤더
+- [ ] `tests/test_ops.cpp` — 연산 단위 테스트
+
+---
+
+## Phase 2: 모델 로더
+
+- [ ] `src/engine/tq_model.c` — safetensors 로더
+  - [ ] safetensors 헤더 파싱 (JSON 메타데이터)
+  - [ ] 텐서 데이터 mmap 로드
+  - [ ] 모델 구조 정의 (tq_model_t)
+    ```c
+    typedef struct {
+        int n_layers, n_heads, n_kv_heads, head_dim;
+        int hidden_dim, intermediate_dim, vocab_size;
+        float rope_freq_base;
+        float* token_embedding;  // [vocab_size, hidden_dim]
+        struct { // per layer
+            float* attn_norm, *ffn_norm;
+            float* wq, *wk, *wv, *wo;
+            float* w_gate, *w_up, *w_down;
+        } layers[];
+    } tq_model_t;
+    ```
+  - [ ] `tq_load_model(path)` → `tq_model_t*`
+  - [ ] `tq_free_model(model)`
+- [ ] `tests/test_model_load.cpp` — 로더 테스트
+
+---
+
+## Phase 3: Transformer Forward Pass
+
+- [ ] `src/engine/tq_transformer.c` — forward pass
+  - [ ] `tq_forward(model, token, pos, kv_cache)` → logits
+  - [ ] Attention 블록:
+    ```
+    x → RMSNorm → Q,K,V projection (matmul)
+    Q,K → RoPE
+    K,V → TurboQuant KV cache (quantize + store)
+    Q × KV_cache → attention scores (integer Q4×Q8!)
+    scores → softmax → weighted sum of V
+    → output projection → residual add
+    ```
+  - [ ] FFN 블록:
+    ```
+    x → RMSNorm → gate_proj + up_proj (matmul)
+    gate → SiLU
+    gate × up → down_proj (matmul) → residual add
+    ```
+  - [ ] KV 캐시 통합: `tq_quantize_keys()` 자동 호출
+- [ ] `tests/test_forward.cpp` — forward pass 정확도 테스트
+
+---
+
+## Phase 4: 토크나이저
+
+- [ ] `src/engine/tq_tokenizer.c` — BPE 토크나이저
+  - [ ] tokenizer.json 파싱 (vocab + merges)
+  - [ ] `tq_encode(text, tokens, max_tokens)` → token count
+  - [ ] `tq_decode(token_id)` → string
+  - [ ] 특수 토큰 처리 (BOS, EOS, PAD)
+- [ ] `tests/test_tokenizer.cpp` — 토크나이저 테스트
+
+---
+
+## Phase 5: 생성 루프 + CLI
+
+- [ ] `src/engine/tq_generate.c` — autoregressive 생성
+  - [ ] `tq_generate(model, prompt, config)` → generated text
+  - [ ] Prefill: 프롬프트 전체 forward
+  - [ ] Decode: 한 토큰씩 생성
+  - [ ] Sampling: temperature, top-p
+  - [ ] 스트리밍: 토큰 생성 즉시 콜백
+- [ ] `tools/tq_run.c` — CLI 실행 파일
+  ```bash
+  tq_run --model model.safetensors --prompt "Hello" --kv-type uniform_4b
+  ```
+- [ ] 벤치마크: tok/s 측정
+
+---
+
+## Phase 6: 검증
+
+- [ ] PyTorch 대비 출력 비교 (동일 프롬프트 → 유사 로짓)
+- [ ] 속도: CPU 10+ tok/s 달성 확인
+- [ ] 메모리: < 2 GB 확인
+- [ ] KV 캐시: TurboQuant 양자화 동작 확인
+- [ ] 정수 attention: 실제 추론에서 사용 확인
+
+---
+
+## 완료 기준
+
+- [ ] `tq_run --model qwen3.5-0.8b --prompt "What is AI?"` 실행 → 텍스트 생성
+- [ ] CPU 10+ tok/s
+- [ ] 외부 의존성 0 (libc/libm만)
+- [ ] KV 캐시에 TurboQuant uniform_4b 자동 적용
+- [ ] 정수 Q4×Q8 attention이 실제 추론에서 동작