fix arg: embeddings\n_min\reuse\model-draft\spec-type

lvyichen · lvyichen · commit f6a0283f22f3 · 2026-03-17T15:17:19.000+08:00
diff --git a/common/arg.cpp b/common/arg.cpp
@@ -3491,6 +3491,7 @@ common_params_context common_params_parser_init(common_params & params, llama_ex
                 params.speculative.type = COMMON_SPECULATIVE_TYPE_NGRAM_MOD;
             } else if (value == "mtp") {
                 params.speculative.type = COMMON_SPECULATIVE_TYPE_MTP;
+                params.mtp = true;
             } else {
                 throw std::invalid_argument("unknown speculative decoding type without draft model");
             }
diff --git a/common/common.cpp b/common/common.cpp
@@ -1350,6 +1350,7 @@ struct llama_model_params common_model_params_to_llama(common_params & params) {
 
 struct llama_context_params common_context_params_to_llama(const common_params & params) {
     auto cparams = llama_context_default_params();
+    const bool mtp_needs_hidden_states = params.speculative.type == COMMON_SPECULATIVE_TYPE_MTP;
 
     cparams.n_ctx             = params.n_ctx;
     cparams.n_seq_max         = params.n_parallel;
@@ -1358,7 +1359,7 @@ struct llama_context_params common_context_params_to_llama(const common_params &
     cparams.n_threads         = params.cpuparams.n_threads;
     cparams.n_threads_batch   = params.cpuparams_batch.n_threads == -1 ?
                                 params.cpuparams.n_threads : params.cpuparams_batch.n_threads;
-    cparams.embeddings        = params.embedding;
+    cparams.embeddings        = params.embedding || mtp_needs_hidden_states;
     cparams.rope_scaling_type = params.rope_scaling_type;
     cparams.rope_freq_base    = params.rope_freq_base;
     cparams.rope_freq_scale   = params.rope_freq_scale;
diff --git a/common/common.h b/common/common.h
@@ -312,10 +312,6 @@ struct common_params_speculative {
     bool has_dft() const {
         return !mparams_dft.path.empty() || !mparams_dft.hf_repo.empty();
     }
-
-    bool requires_dft() const {
-        return type == COMMON_SPECULATIVE_TYPE_DRAFT || type == COMMON_SPECULATIVE_TYPE_EAGLE3;
-    }
 };
 
 struct common_params_vocoder {
diff --git a/common/speculative.cpp b/common/speculative.cpp
@@ -1563,6 +1563,7 @@ common_speculative * common_speculative_init(
                     cparams.n_threads_batch = llama_n_threads_batch(ctx_tgt);
                 }
 
+                llama_set_embeddings(ctx_tgt, true);
                 cparams.embeddings = true;
 
                 llama_context * ctx_mtp = llama_init_from_model(const_cast<llama_model *>(llama_get_model(ctx_tgt)), cparams);
diff --git a/examples/speculative-simple/speculative-simple.cpp b/examples/speculative-simple/speculative-simple.cpp
@@ -27,11 +27,6 @@ int main(int argc, char ** argv) {
 
     common_init();
 
-    if (params.speculative.requires_dft() && !params.speculative.has_dft()) {
-        LOG_ERR("%s: --model-draft is required\n", __func__);
-        return 1;
-    }
-
     // init llama.cpp
     llama_backend_init();
     llama_numa_init(params.numa);
@@ -55,26 +50,23 @@ int main(int argc, char ** argv) {
     {
         const auto & params_spec = params.speculative;
 
-        auto params_dft = params;
+        if (params_spec.has_dft()) {
+            auto params_dft = params;
 
-        params_dft.n_parallel   = 1;
-        params_dft.n_ctx        = params_spec.n_ctx == 0 ? (int32_t) llama_n_ctx_seq(ctx_tgt) : params_spec.n_ctx;
-        params_dft.n_batch      = llama_n_ctx_seq(ctx_tgt);
-        params_dft.cache_type_k = params_spec.cache_type_k;
-        params_dft.cache_type_v = params_spec.cache_type_v;
-        params_dft.devices      = params_spec.devices;
-        params_dft.n_gpu_layers = params_spec.n_gpu_layers;
-
-        if (params_spec.cpuparams.n_threads > 0) {
-            params_dft.cpuparams.n_threads       = params.speculative.cpuparams.n_threads;
-            params_dft.cpuparams_batch.n_threads = params.speculative.cpuparams_batch.n_threads;
-        }
+            params_dft.n_parallel   = 1;
+            params_dft.n_ctx        = params_spec.n_ctx == 0 ? (int32_t) llama_n_ctx_seq(ctx_tgt) : params_spec.n_ctx;
+            params_dft.n_batch      = llama_n_ctx_seq(ctx_tgt);
+            params_dft.cache_type_k = params_spec.cache_type_k;
+            params_dft.cache_type_v = params_spec.cache_type_v;
+            params_dft.devices      = params_spec.devices;
+            params_dft.n_gpu_layers = params_spec.n_gpu_layers;
 
-        params_dft.tensor_buft_overrides = params.speculative.tensor_buft_overrides;
-
-        params.speculative.cparams_dft = common_context_params_to_llama(params_dft);
+            if (params_spec.cpuparams.n_threads > 0) {
+                params_dft.cpuparams.n_threads       = params.speculative.cpuparams.n_threads;
+                params_dft.cpuparams_batch.n_threads = params.speculative.cpuparams_batch.n_threads;
+            }
 
-        if (params_spec.requires_dft()) {
+            params_dft.tensor_buft_overrides = params.speculative.tensor_buft_overrides;
             params_dft.model = params_spec.mparams_dft;
 
             auto mparams_dft = common_model_params_to_llama(params_dft);
@@ -86,6 +78,25 @@ int main(int argc, char ** argv) {
             }
 
             params.speculative.model_dft = model_dft.get();
+            params.speculative.cparams_dft = common_context_params_to_llama(params_dft);
+        } else if (params_spec.type == COMMON_SPECULATIVE_TYPE_MTP) {
+            auto params_dft = params;
+
+            params_dft.n_parallel   = 1;
+            params_dft.n_ctx        = params_spec.n_ctx == 0 ? (int32_t) llama_n_ctx_seq(ctx_tgt) : params_spec.n_ctx;
+            params_dft.n_batch      = llama_n_ctx_seq(ctx_tgt);
+            params_dft.cache_type_k = params_spec.cache_type_k;
+            params_dft.cache_type_v = params_spec.cache_type_v;
+            params_dft.devices      = params_spec.devices;
+            params_dft.n_gpu_layers = params_spec.n_gpu_layers;
+
+            if (params_spec.cpuparams.n_threads > 0) {
+                params_dft.cpuparams.n_threads       = params.speculative.cpuparams.n_threads;
+                params_dft.cpuparams_batch.n_threads = params.speculative.cpuparams_batch.n_threads;
+            }
+
+            params_dft.tensor_buft_overrides = params.speculative.tensor_buft_overrides;
+            params.speculative.cparams_dft = common_context_params_to_llama(params_dft);
         }
     }
 
diff --git a/src/llama-graph.cpp b/src/llama-graph.cpp
@@ -321,6 +321,18 @@ void llm_graph_input_mtp_hidden_state::set_input(const llama_ubatch * ubatch) {
     }
 }
 
+bool llm_graph_input_mtp_hidden_state::can_reuse(const llm_graph_params & params) {
+    data = params.mtp_hidden_state;
+
+    bool res = true;
+
+    res &= hidden_state != nullptr;
+    res &= data != nullptr;
+    res &= hidden_state->ne[1] == params.ubatch.n_tokens;
+
+    return res;
+}
+
 void llm_graph_input_cross_embd::set_input(const llama_ubatch * ubatch) {
     GGML_UNUSED(ubatch);
 
diff --git a/src/llama-graph.h b/src/llama-graph.h
@@ -270,6 +270,8 @@ class llm_graph_input_mtp_hidden_state : public llm_graph_input_i {
 
     void set_input(const llama_ubatch * ubatch) override;
 
+    bool can_reuse(const llm_graph_params & params) override;
+
     ggml_tensor * hidden_state = nullptr; // F32 [n_embd, n_tokens]
 
     const float * data = nullptr;
diff --git a/tools/server/server-context.cpp b/tools/server/server-context.cpp
@@ -704,7 +704,7 @@ struct server_context_impl {
 
         add_bos_token = llama_vocab_get_add_bos(vocab);
 
-        if (params_base.speculative.type == COMMON_SPECULATIVE_TYPE_MTP || params_base.speculative.has_dft()) {
+        if (params_base.speculative.has_dft()) {
             const auto & params_spec = params_base.speculative;
 
             auto params_dft = params_base;
@@ -724,23 +724,39 @@ struct server_context_impl {
             }
 
             params_dft.tensor_buft_overrides = params_spec.tensor_buft_overrides;
-            params_base.speculative.cparams_dft = common_context_params_to_llama(params_dft);
 
-            if (params_base.speculative.requires_dft() && params_base.speculative.has_dft()) {
-                SRV_INF("loading draft model '%s'\n", params_base.speculative.mparams_dft.path.c_str());
+            SRV_INF("loading draft model '%s'\n", params_base.speculative.mparams_dft.path.c_str());
 
-                params_dft.model = params_spec.mparams_dft;
+            auto mparams_dft = common_model_params_to_llama(params_dft);
 
-                auto mparams_dft = common_model_params_to_llama(params_dft);
+            model_dft.reset(llama_model_load_from_file(params_dft.model.path.c_str(), mparams_dft));
+            if (model_dft == nullptr) {
+                SRV_ERR("failed to load draft model, '%s'\n", params_dft.model.path.c_str());
+                return false;
+            }
 
-                model_dft.reset(llama_model_load_from_file(params_dft.model.path.c_str(), mparams_dft));
-                if (model_dft == nullptr) {
-                    SRV_ERR("failed to load draft model, '%s'\n", params_dft.model.path.c_str());
-                    return false;
-                }
+            params_base.speculative.model_dft = model_dft.get();
+            params_base.speculative.cparams_dft = common_context_params_to_llama(params_dft);
+        } else if (params_base.speculative.type == COMMON_SPECULATIVE_TYPE_MTP) {
+            const auto & params_spec = params_base.speculative;
+
+            auto params_dft = params_base;
+
+            params_dft.n_parallel   = 1;
+            params_dft.n_ctx        = params_spec.n_ctx == 0 ? llama_n_ctx_seq(ctx) : params_spec.n_ctx;
+            params_dft.n_batch      = llama_n_ctx_seq(ctx);
+            params_dft.devices      = params_spec.devices;
+            params_dft.n_gpu_layers = params_spec.n_gpu_layers;
+            params_dft.cache_type_k = params_spec.cache_type_k;
+            params_dft.cache_type_v = params_spec.cache_type_v;
 
-                params_base.speculative.model_dft = model_dft.get();
+            if (params_spec.cpuparams.n_threads > 0) {
+                params_dft.cpuparams.n_threads       = params_spec.cpuparams.n_threads;
+                params_dft.cpuparams_batch.n_threads = params_spec.cpuparams_batch.n_threads;
             }
+
+            params_dft.tensor_buft_overrides = params_spec.tensor_buft_overrides;
+            params_base.speculative.cparams_dft = common_context_params_to_llama(params_dft);
         }
 
         std::string & mmproj_path = params_base.mmproj.path;
@@ -2162,10 +2178,16 @@ struct server_context_impl {
 
                 if (slot.task->params.speculative.n_min > (int) draft.size()) {
                     SLT_DBG(slot, "ignoring small draft: %d < %d\n", (int) draft.size(), slot.task->params.speculative.n_min);
-                    // fallback to normal decoding
-                    slot.i_batch = slot.i_batch_dft[0];
                     slot.drafted.clear();
-                    slot.i_batch_dft.clear();
+                    if (slot.task->params.speculative.type != COMMON_SPECULATIVE_TYPE_MTP) {
+                        // Non-MTP speculation can safely fall back to plain decoding.
+                        slot.i_batch = slot.i_batch_dft[0];
+                        slot.i_batch_dft.clear();
+                    } else {
+                        // MTP still needs a 0-accept speculative round so accept() can stage
+                        // the frontier hidden state for the next shifted first pass.
+                        slot.i_batch = -1;
+                    }
                 } else {
                     // keep track of total number of drafted tokens tested
                     slot.n_draft_total += draft.size();

Original file line number	Diff line number	Diff line change
`@@ -3491,6 +3491,7 @@ common_params_context common_params_parser_init(common_params & params, llama_ex`
`3491`	`3491`	`params.speculative.type = COMMON_SPECULATIVE_TYPE_NGRAM_MOD;`
`3492`	`3492`	`} else if (value == "mtp") {`
`3493`	`3493`	`params.speculative.type = COMMON_SPECULATIVE_TYPE_MTP;`
	`3494`	`+ params.mtp = true;`
`3494`	`3495`	`} else {`
`3495`	`3496`	`throw std::invalid_argument("unknown speculative decoding type without draft model");`
`3496`	`3497`	`}`
Original file line number	Diff line number	Diff line change
`@@ -1563,6 +1563,7 @@ common_speculative * common_speculative_init(`
`1563`	`1563`	`cparams.n_threads_batch = llama_n_threads_batch(ctx_tgt);`
`1564`	`1564`	`}`
`1565`	`1565`
	`1566`	`+ llama_set_embeddings(ctx_tgt, true);`
`1566`	`1567`	`cparams.embeddings = true;`
`1567`	`1568`
`1568`	`1569`	`llama_context * ctx_mtp = llama_init_from_model(const_cast<llama_model *>(llama_get_model(ctx_tgt)), cparams);`