fix arg: embeddings\n_min\reuse\model-draft\spec-type

lvyichen · lvyichen · commit a0c02aeaa1ce · 2026-04-07T18:01:35.000+08:00
diff --git a/common/arg.cpp b/common/arg.cpp
@@ -3525,6 +3525,7 @@ common_params_context common_params_parser_init(common_params & params, llama_ex
                 params.speculative.type = COMMON_SPECULATIVE_TYPE_NGRAM_MOD;
             } else if (value == "mtp") {
                 params.speculative.type = COMMON_SPECULATIVE_TYPE_MTP;
+                params.mtp = true;
             } else {
                 throw std::invalid_argument("unknown speculative decoding type without draft model");
             }
diff --git a/common/common.cpp b/common/common.cpp
@@ -1450,6 +1450,7 @@ struct llama_model_params common_model_params_to_llama(common_params & params) {
 
 struct llama_context_params common_context_params_to_llama(const common_params & params) {
     auto cparams = llama_context_default_params();
+    const bool mtp_needs_hidden_states = params.speculative.type == COMMON_SPECULATIVE_TYPE_MTP;
 
     cparams.n_ctx             = params.n_ctx;
     cparams.n_seq_max         = params.n_parallel;
@@ -1458,7 +1459,7 @@ struct llama_context_params common_context_params_to_llama(const common_params &
     cparams.n_threads         = params.cpuparams.n_threads;
     cparams.n_threads_batch   = params.cpuparams_batch.n_threads == -1 ?
                                 params.cpuparams.n_threads : params.cpuparams_batch.n_threads;
-    cparams.embeddings        = params.embedding;
+    cparams.embeddings        = params.embedding || mtp_needs_hidden_states;
     cparams.rope_scaling_type = params.rope_scaling_type;
     cparams.rope_freq_base    = params.rope_freq_base;
     cparams.rope_freq_scale   = params.rope_freq_scale;
diff --git a/common/common.h b/common/common.h
@@ -356,10 +356,6 @@ struct common_params_speculative {
     bool has_dft() const {
         return !mparams_dft.path.empty() || !mparams_dft.hf_repo.empty();
     }
-
-    bool requires_dft() const {
-        return type == COMMON_SPECULATIVE_TYPE_DRAFT || type == COMMON_SPECULATIVE_TYPE_EAGLE3;
-    }
 };
 
 struct common_params_vocoder {
diff --git a/common/speculative.cpp b/common/speculative.cpp
@@ -1563,6 +1563,7 @@ common_speculative * common_speculative_init(
                     cparams.n_threads_batch = llama_n_threads_batch(ctx_tgt);
                 }
 
+                llama_set_embeddings(ctx_tgt, true);
                 cparams.embeddings = true;
 
                 llama_context * ctx_mtp = llama_init_from_model(const_cast<llama_model *>(llama_get_model(ctx_tgt)), cparams);
diff --git a/examples/speculative-simple/speculative-simple.cpp b/examples/speculative-simple/speculative-simple.cpp
@@ -55,26 +55,23 @@ int main(int argc, char ** argv) {
     {
         const auto & params_spec = params.speculative;
 
-        auto params_dft = params;
-
-        params_dft.n_parallel   = 1;
-        params_dft.n_ctx        = params_spec.n_ctx == 0 ? (int32_t) llama_n_ctx_seq(ctx_tgt) : params_spec.n_ctx;
-        params_dft.n_batch      = llama_n_ctx_seq(ctx_tgt);
-        params_dft.cache_type_k = params_spec.cache_type_k;
-        params_dft.cache_type_v = params_spec.cache_type_v;
-        params_dft.devices      = params_spec.devices;
-        params_dft.n_gpu_layers = params_spec.n_gpu_layers;
-
-        if (params_spec.cpuparams.n_threads > 0) {
-            params_dft.cpuparams.n_threads       = params.speculative.cpuparams.n_threads;
-            params_dft.cpuparams_batch.n_threads = params.speculative.cpuparams_batch.n_threads;
-        }
-
-        params_dft.tensor_buft_overrides = params.speculative.tensor_buft_overrides;
-
-        params.speculative.cparams_dft = common_context_params_to_llama(params_dft);
+        if (params_spec.has_dft()) {
+            auto params_dft = params;
+
+            params_dft.n_parallel   = 1;
+            params_dft.n_ctx        = params_spec.n_ctx == 0 ? (int32_t) llama_n_ctx_seq(ctx_tgt) : params_spec.n_ctx;
+            params_dft.n_batch      = llama_n_ctx_seq(ctx_tgt);
+            params_dft.cache_type_k = params_spec.cache_type_k;
+            params_dft.cache_type_v = params_spec.cache_type_v;
+            params_dft.devices      = params_spec.devices;
+            params_dft.n_gpu_layers = params_spec.n_gpu_layers;
+
+            if (params_spec.cpuparams.n_threads > 0) {
+                params_dft.cpuparams.n_threads       = params.speculative.cpuparams.n_threads;
+                params_dft.cpuparams_batch.n_threads = params.speculative.cpuparams_batch.n_threads;
+            }
 
-        if (params_spec.requires_dft()) {
+            params_dft.tensor_buft_overrides = params.speculative.tensor_buft_overrides;
             params_dft.model = params_spec.mparams_dft;
 
             auto mparams_dft = common_model_params_to_llama(params_dft);
@@ -86,6 +83,25 @@ int main(int argc, char ** argv) {
             }
 
             params.speculative.model_dft = model_dft.get();
+            params.speculative.cparams_dft = common_context_params_to_llama(params_dft);
+        } else if (params_spec.type == COMMON_SPECULATIVE_TYPE_MTP) {
+            auto params_dft = params;
+
+            params_dft.n_parallel   = 1;
+            params_dft.n_ctx        = params_spec.n_ctx == 0 ? (int32_t) llama_n_ctx_seq(ctx_tgt) : params_spec.n_ctx;
+            params_dft.n_batch      = llama_n_ctx_seq(ctx_tgt);
+            params_dft.cache_type_k = params_spec.cache_type_k;
+            params_dft.cache_type_v = params_spec.cache_type_v;
+            params_dft.devices      = params_spec.devices;
+            params_dft.n_gpu_layers = params_spec.n_gpu_layers;
+
+            if (params_spec.cpuparams.n_threads > 0) {
+                params_dft.cpuparams.n_threads       = params.speculative.cpuparams.n_threads;
+                params_dft.cpuparams_batch.n_threads = params.speculative.cpuparams_batch.n_threads;
+            }
+
+            params_dft.tensor_buft_overrides = params.speculative.tensor_buft_overrides;
+            params.speculative.cparams_dft = common_context_params_to_llama(params_dft);
         }
     }
 
diff --git a/src/llama-graph.cpp b/src/llama-graph.cpp
@@ -340,6 +340,18 @@ void llm_graph_input_mtp_hidden_state::set_input(const llama_ubatch * ubatch) {
     }
 }
 
+bool llm_graph_input_mtp_hidden_state::can_reuse(const llm_graph_params & params) {
+    data = params.mtp_hidden_state;
+
+    bool res = true;
+
+    res &= hidden_state != nullptr;
+    res &= data != nullptr;
+    res &= hidden_state->ne[1] == params.ubatch.n_tokens;
+
+    return res;
+}
+
 void llm_graph_input_cross_embd::set_input(const llama_ubatch * ubatch) {
     GGML_UNUSED(ubatch);
 
diff --git a/src/llama-graph.h b/src/llama-graph.h
@@ -270,6 +270,8 @@ class llm_graph_input_mtp_hidden_state : public llm_graph_input_i {
 
     void set_input(const llama_ubatch * ubatch) override;
 
+    bool can_reuse(const llm_graph_params & params) override;
+
     ggml_tensor * hidden_state = nullptr; // F32 [n_embd, n_tokens]
 
     const float * data = nullptr;
diff --git a/tools/server/server-context.cpp b/tools/server/server-context.cpp
@@ -716,7 +716,7 @@ struct server_context_impl {
 
         add_bos_token = llama_vocab_get_add_bos(vocab);
 
-        if (params_base.speculative.type == COMMON_SPECULATIVE_TYPE_MTP || params_base.speculative.has_dft()) {
+        if (params_base.speculative.has_dft()) {
             const auto & params_spec = params_base.speculative;
 
             auto params_dft = params_base;
@@ -736,23 +736,39 @@ struct server_context_impl {
             }
 
             params_dft.tensor_buft_overrides = params_spec.tensor_buft_overrides;
-            params_base.speculative.cparams_dft = common_context_params_to_llama(params_dft);
 
-            if (params_base.speculative.requires_dft() && params_base.speculative.has_dft()) {
-                SRV_INF("loading draft model '%s'\n", params_base.speculative.mparams_dft.path.c_str());
+            SRV_INF("loading draft model '%s'\n", params_base.speculative.mparams_dft.path.c_str());
 
-                params_dft.model = params_spec.mparams_dft;
+            auto mparams_dft = common_model_params_to_llama(params_dft);
 
-                auto mparams_dft = common_model_params_to_llama(params_dft);
+            model_dft.reset(llama_model_load_from_file(params_dft.model.path.c_str(), mparams_dft));
+            if (model_dft == nullptr) {
+                SRV_ERR("failed to load draft model, '%s'\n", params_dft.model.path.c_str());
+                return false;
+            }
 
-                model_dft.reset(llama_model_load_from_file(params_dft.model.path.c_str(), mparams_dft));
-                if (model_dft == nullptr) {
-                    SRV_ERR("failed to load draft model, '%s'\n", params_dft.model.path.c_str());
-                    return false;
-                }
+            params_base.speculative.model_dft = model_dft.get();
+            params_base.speculative.cparams_dft = common_context_params_to_llama(params_dft);
+        } else if (params_base.speculative.type == COMMON_SPECULATIVE_TYPE_MTP) {
+            const auto & params_spec = params_base.speculative;
+
+            auto params_dft = params_base;
+
+            params_dft.n_parallel   = 1;
+            params_dft.n_ctx        = params_spec.n_ctx == 0 ? llama_n_ctx_seq(ctx) : params_spec.n_ctx;
+            params_dft.n_batch      = llama_n_ctx_seq(ctx);
+            params_dft.devices      = params_spec.devices;
+            params_dft.n_gpu_layers = params_spec.n_gpu_layers;
+            params_dft.cache_type_k = params_spec.cache_type_k;
+            params_dft.cache_type_v = params_spec.cache_type_v;
 
-                params_base.speculative.model_dft = model_dft.get();
+            if (params_spec.cpuparams.n_threads > 0) {
+                params_dft.cpuparams.n_threads       = params_spec.cpuparams.n_threads;
+                params_dft.cpuparams_batch.n_threads = params_spec.cpuparams_batch.n_threads;
             }
+
+            params_dft.tensor_buft_overrides = params_spec.tensor_buft_overrides;
+            params_base.speculative.cparams_dft = common_context_params_to_llama(params_dft);
         }
 
         std::string & mmproj_path = params_base.mmproj.path;
@@ -2196,10 +2212,16 @@ struct server_context_impl {
 
                 if (slot.task->params.speculative.n_min > (int) draft.size()) {
                     SLT_DBG(slot, "ignoring small draft: %d < %d\n", (int) draft.size(), slot.task->params.speculative.n_min);
-                    // fallback to normal decoding
-                    slot.i_batch = slot.i_batch_dft[0];
                     slot.drafted.clear();
-                    slot.i_batch_dft.clear();
+                    if (slot.task->params.speculative.type != COMMON_SPECULATIVE_TYPE_MTP) {
+                        // Non-MTP speculation can safely fall back to plain decoding.
+                        slot.i_batch = slot.i_batch_dft[0];
+                        slot.i_batch_dft.clear();
+                    } else {
+                        // MTP still needs a 0-accept speculative round so accept() can stage
+                        // the frontier hidden state for the next shifted first pass.
+                        slot.i_batch = -1;
+                    }
                 } else {
                     // keep track of total number of drafted tokens tested
                     slot.n_draft_total += draft.size();

Original file line number	Diff line number	Diff line change
`@@ -3525,6 +3525,7 @@ common_params_context common_params_parser_init(common_params & params, llama_ex`
`3525`	`3525`	`params.speculative.type = COMMON_SPECULATIVE_TYPE_NGRAM_MOD;`
`3526`	`3526`	`} else if (value == "mtp") {`
`3527`	`3527`	`params.speculative.type = COMMON_SPECULATIVE_TYPE_MTP;`
	`3528`	`+ params.mtp = true;`
`3528`	`3529`	`} else {`
`3529`	`3530`	`throw std::invalid_argument("unknown speculative decoding type without draft model");`
`3530`	`3531`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1563,6 +1563,7 @@ common_speculative * common_speculative_init(`
`1563`	`1563`	`cparams.n_threads_batch = llama_n_threads_batch(ctx_tgt);`
`1564`	`1564`	`}`
`1565`	`1565`
	`1566`	`+ llama_set_embeddings(ctx_tgt, true);`
`1566`	`1567`	`cparams.embeddings = true;`
`1567`	`1568`
`1568`	`1569`	`llama_context * ctx_mtp = llama_init_from_model(const_cast<llama_model *>(llama_get_model(ctx_tgt)), cparams);`