set max_model_len: 65536

ArneBinder · ArneBinder · commit e3f43c4ad7d5 · 2026-04-27T13:53:52.000+02:00
diff --git a/configs/extractor/llm/qwen3_30b_in_process.yaml b/configs/extractor/llm/qwen3_30b_in_process.yaml
@@ -30,7 +30,7 @@ vllm_kwargs:
   tensor_parallel_size: 1  # shard across N GPUs
   # Supports up to 256K tokens (max size for https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507).
   # Use lower value to save memory and improve performance
-  max_model_len: 131072
+  max_model_len: 65536
   # This model requires the deepseek_r1 reasoning parser (see HF model card).
   reasoning_parser: "deepseek_r1"
   gpu_memory_utilization: 0.95 # fraction of GPU memory reserved (impacts KV cache size)