fix: add config for enabling thinking

ChenZiHong-Gavin · ChenZiHong-Gavin · commit 9ec8d73c2c58 · 2026-02-10T13:37:22.000+08:00
diff --git a/graphgen/models/llm/local/vllm_wrapper.py b/graphgen/models/llm/local/vllm_wrapper.py
@@ -51,7 +51,8 @@ def _build_inputs(self, prompt: str, history: Optional[List[dict]] = None) -> An
         return self.tokenizer.apply_chat_template(
             messages,
             tokenize=False,
-            add_generation_prompt=True
+            add_generation_prompt=True,
+            enable_thinking=False
         )
 
     async def _consume_generator(self, generator):
@@ -72,7 +73,7 @@ async def generate_answer(
             temperature=self.temperature if self.temperature >= 0 else 1.0,
             top_p=self.top_p if self.top_p >= 0 else 1.0,
             max_tokens=extra.get("max_new_tokens", 2048),
-            repetition_penalty=extra.get("repetition_penalty", 1.05),
+            repetition_penalty=extra.get("repetition_penalty", 1.05)
         )
 
         try:
@@ -101,8 +102,7 @@ async def generate_topk_per_token(
         sp = self.SamplingParams(
             temperature=0,
             max_tokens=1,
-            logprobs=self.top_k,
-            chat_template_kwargs={"enable_thinking": False}
+            logprobs=self.top_k
         )
 
         try: