Introduce DeepSeekR1Qwen model and integrate with Qwen2ModelLoader

orionpapadakis · orionpapadakis · commit a3f145093d24 · 2026-03-27T12:57:09.000+02:00
diff --git a/src/main/java/org/beehive/gpullama3/model/format/Qwen3ChatFormat.java b/src/main/java/org/beehive/gpullama3/model/format/Qwen3ChatFormat.java
@@ -101,7 +101,12 @@ public List<Integer> encodeMessage(Message message) {
 
     @Override
     public int getBeginOfText() {
-        return beginOfText;
+        if (beginOfText == -1) {
+            // deepseek-r1
+            return startHeader;
+        } else {
+            return beginOfText;
+        }
     }
 
     @Override
diff --git a/src/main/java/org/beehive/gpullama3/model/loader/Qwen2ModelLoader.java b/src/main/java/org/beehive/gpullama3/model/loader/Qwen2ModelLoader.java
@@ -12,6 +12,7 @@
 import org.beehive.gpullama3.inference.weights.tornado.Qwen2TornadoWeights;
 import org.beehive.gpullama3.model.format.ChatFormat;
 import org.beehive.gpullama3.model.format.ChatFormat.ChatTokens;
+import org.beehive.gpullama3.model.qwen2.DeepSeekR1Qwen;
 import org.beehive.gpullama3.model.qwen2.Qwen2;
 import org.beehive.gpullama3.model.qwen2.Qwen2Configuration;
 import org.beehive.gpullama3.tokenizer.Qwen3Tokenizer;
@@ -85,7 +86,9 @@ protected Qwen2 createModel(Qwen2Configuration config, Tokenizer tokenizer, Weig
         // Qwen2.5-Coder uses <|endoftext|> as stop-token.
         ChatTokens chatTokens = isDeepSeekR1DistillQwen ? new ChatTokens("<｜begin▁of▁sentence｜>", "", "", "<｜end▁of▁sentence｜>", "")
                 : new ChatTokens("<|im_start|>", "<|im_end|>", "", "<|end_of_text|>", "<|endoftext|>");
-        return new Qwen2(config, tokenizer, weights, ChatFormat.create(tokenizer, chatTokens));
+        return isDeepSeekR1DistillQwen
+                ? new DeepSeekR1Qwen(config, tokenizer, weights, ChatFormat.create(tokenizer, chatTokens))
+                : new Qwen2(config, tokenizer, weights, ChatFormat.create(tokenizer, chatTokens));
     }
     // @formatter:on
 
diff --git a/src/main/java/org/beehive/gpullama3/model/qwen2/DeepSeekR1Qwen.java b/src/main/java/org/beehive/gpullama3/model/qwen2/DeepSeekR1Qwen.java
@@ -0,0 +1,23 @@
+package org.beehive.gpullama3.model.qwen2;
+
+import org.beehive.gpullama3.inference.weights.Weights;
+import org.beehive.gpullama3.model.ModelType;
+import org.beehive.gpullama3.model.format.ChatFormat;
+import org.beehive.gpullama3.tokenizer.Tokenizer;
+
+public class DeepSeekR1Qwen extends Qwen2 {
+
+    public DeepSeekR1Qwen(Qwen2Configuration configuration, Tokenizer tokenizer, Weights weights, ChatFormat chatFormat) {
+        super(configuration, tokenizer, weights, chatFormat);
+    }
+
+    @Override
+    public ModelType getModelType() {
+        return ModelType.DEEPSEEK_R1_DISTILL_QWEN;
+    }
+
+    @Override
+    public boolean shouldAddBeginOfText() {
+        return true;
+    }
+}