llama-server: fix model params not propagated (ggml-org#21509)

taronaeo · iamwavecut · commit 2f6513ee7804 · 2026-04-08T13:39:21.000+02:00
Signed-off-by: Aaron Teo &lt;aaron.teo1@ibm.com&gt;
diff --git a/tools/server/server-context.cpp b/tools/server/server-context.cpp
@@ -632,7 +632,7 @@ struct server_context_impl {
 
     // load the model and initialize llama_context
     // this may also be called to resume from sleeping state
-    bool load_model(const common_params & params) {
+    bool load_model(common_params & params) {
         bool is_resume = sleeping;
 
         SRV_INF("loading model '%s'\n", params.model.path.c_str());
@@ -641,6 +641,9 @@ struct server_context_impl {
 
         llama_init = common_init_from_params(params_base);
 
+        // propagate model-metadata sampling defaults back to caller
+        params.sampling = params_base.sampling;
+
         model = llama_init->model();
         ctx   = llama_init->context();
 
@@ -2978,7 +2981,7 @@ struct server_context_impl {
 server_context::server_context() : impl(new server_context_impl()) {}
 server_context::~server_context() = default;
 
-bool server_context::load_model(const common_params & params) {
+bool server_context::load_model(common_params & params) {
     return impl->load_model(params);
 }
 
diff --git a/tools/server/server-context.h b/tools/server/server-context.h
@@ -56,7 +56,7 @@ struct server_context {
 
     // load the model and initialize llama_context
     // returns true on success
-    bool load_model(const common_params & params);
+    bool load_model(common_params & params);
 
     // this function will block main thread until termination
     void start_loop();