slop: scope reasoning options

meh · meh · commit 2cda56f632b3 · 2026-04-25T05:46:31.000+02:00
diff --git a/tools/server/server-context.cpp b/tools/server/server-context.cpp
@@ -3604,6 +3604,11 @@ void server_routes::init_routes() {
         if (meta_resolved->model_path == ctx_server_ref.get_current_model_path()) return;
         common_params swap_params = params;
         swap_params.model.path = meta_resolved->model_path;
+        // Apply model preset (e.g. --reasoning, --chat-template-kwargs, etc.)
+        auto preset = model_manager->get_preset(requested_model);
+        if (preset.has_value()) {
+            preset->apply_to_params(swap_params);
+        }
         SRV_INF("swapping to model '%s' (path: %s)\n", requested_model.c_str(), swap_params.model.path.c_str());
         ctx_server_ref.swap_model(swap_params);
         meta = std::make_unique<server_context_meta>(get_ctx_meta());
diff --git a/tools/server/server-model-manager.cpp b/tools/server/server-model-manager.cpp
@@ -183,6 +183,13 @@ void server_model_manager::load_locked(const std::string& name, server_context&
     info.status = SERVER_MODEL_STATUS_LOADING;
     info.last_used = ggml_time_ms();
 
+    // Apply model preset to params (e.g. --reasoning, --chat-template-kwargs, etc.)
+    // This is a safety net: the caller may have already applied the preset,
+    // but we ensure it's applied here if the caller didn't.
+    if (!info.preset.options.empty()) {
+        info.preset.apply_to_params(params);
+    }
+
     // Use this model's path, not the global params path
     std::string saved_path = params.model.path;
     params.model.path = info.model_path;
@@ -312,6 +319,19 @@ void server_model_manager::cache_all() {
     }
 }
 
+std::optional<common_preset> server_model_manager::get_preset(const std::string& name) const {
+    std::lock_guard<std::mutex> lk(mutex_);
+    std::string canonical = resolve_model_name(name);
+    if (canonical.empty()) {
+        return std::nullopt;
+    }
+    auto it = mapping_.find(canonical);
+    if (it == mapping_.end()) {
+        return std::nullopt;
+    }
+    return it->second.preset;
+}
+
 void server_model_manager::unload_lru(server_context& ctx) {
     std::string lru = find_lru_model();
     if (!lru.empty()) {
diff --git a/tools/server/server-model-manager.h b/tools/server/server-model-manager.h
@@ -34,6 +34,7 @@ struct server_model_info {
     int64_t last_used = 0;      // for LRU eviction (milliseconds since epoch)
     int exit_code = 0;          // exit code if failed
     bool cached = false;        // GGUF file is cached in page cache for fast swapping
+    common_preset preset;       // per-model preset for applying to common_params at load/swap time
 
     bool is_ready() const {
         return status == SERVER_MODEL_STATUS_LOADED;
@@ -99,6 +100,10 @@ class server_model_manager {
     // Cache all models' GGUF files in page cache
     void cache_all();
 
+    // Get the per-model preset for a given model name (resolves aliases)
+    // Returns empty optional if model not found or no preset set
+    std::optional<common_preset> get_preset(const std::string& name) const;
+
 private:
     // Find the LRU model name (must be called with mutex_ held)
     // Returns empty string if no model to evict
diff --git a/tools/server/server.cpp b/tools/server/server.cpp
@@ -400,6 +400,7 @@ int main(int argc, char ** argv) {
             base_info.tags = params.model_tags;
             base_info.status = SERVER_MODEL_STATUS_LOADED;
             base_info.last_used = ggml_time_ms();
+            base_info.preset = cli_load_result.base_preset;
             if (!base_info.name.empty()) {
                 model_manager->add_model(std::move(base_info));
             }
@@ -453,6 +454,7 @@ int main(int argc, char ** argv) {
                         }
                     }
 
+                    info.preset = mp;
                     SRV_INF("registering model '%s' (status=%d)\n", info.name.c_str(), (int)info.status);
                     model_manager->add_model(std::move(info));
                 }
@@ -703,6 +705,7 @@ int main(int argc, char ** argv) {
                     }
                 }
 
+                info.preset = preset;
                 model_manager->add_model(std::move(info));
 
                 // Check autoload
@@ -723,6 +726,7 @@ int main(int argc, char ** argv) {
                 base_info.tags = params.model_tags;
                 base_info.status = SERVER_MODEL_STATUS_LOADED;
                 base_info.last_used = ggml_time_ms();
+                base_info.preset = base_preset;
                 model_manager->add_model(std::move(base_info));
             }
 
@@ -851,6 +855,12 @@ int main(int argc, char ** argv) {
                     load_params.model.path = path;
                 }
 
+                // Apply model preset (e.g. --reasoning, --chat-template-kwargs, etc.)
+                auto preset = model_mgr->get_preset(name);
+                if (preset.has_value()) {
+                    preset->apply_to_params(load_params);
+                }
+
                 // Load the model via model manager (handles LRU eviction)
                 model_mgr->load(name, ctx_server, load_params);
                 res_ok(res, {{"success", true}});

Original file line number	Diff line number	Diff line change
`@@ -400,6 +400,7 @@ int main(int argc, char ** argv) {`
`400`	`400`	`base_info.tags = params.model_tags;`
`401`	`401`	`base_info.status = SERVER_MODEL_STATUS_LOADED;`
`402`	`402`	`base_info.last_used = ggml_time_ms();`
	`403`	`+ base_info.preset = cli_load_result.base_preset;`
`403`	`404`	`if (!base_info.name.empty()) {`
`404`	`405`	`model_manager->add_model(std::move(base_info));`
`405`	`406`	`}`
`@@ -453,6 +454,7 @@ int main(int argc, char ** argv) {`
`453`	`454`	`}`
`454`	`455`	`}`
`455`	`456`
	`457`	`+ info.preset = mp;`
`456`	`458`	`SRV_INF("registering model '%s' (status=%d)\n", info.name.c_str(), (int)info.status);`
`457`	`459`	`model_manager->add_model(std::move(info));`
`458`	`460`	`}`
`@@ -703,6 +705,7 @@ int main(int argc, char ** argv) {`
`703`	`705`	`}`
`704`	`706`	`}`
`705`	`707`
	`708`	`+ info.preset = preset;`
`706`	`709`	`model_manager->add_model(std::move(info));`
`707`	`710`
`708`	`711`	`// Check autoload`
`@@ -723,6 +726,7 @@ int main(int argc, char ** argv) {`
`723`	`726`	`base_info.tags = params.model_tags;`
`724`	`727`	`base_info.status = SERVER_MODEL_STATUS_LOADED;`
`725`	`728`	`base_info.last_used = ggml_time_ms();`
	`729`	`+ base_info.preset = base_preset;`
`726`	`730`	`model_manager->add_model(std::move(base_info));`
`727`	`731`	`}`
`728`	`732`
`@@ -851,6 +855,12 @@ int main(int argc, char ** argv) {`
`851`	`855`	`load_params.model.path = path;`
`852`	`856`	`}`
`853`	`857`
	`858`	`+ // Apply model preset (e.g. --reasoning, --chat-template-kwargs, etc.)`
	`859`	`+ auto preset = model_mgr->get_preset(name);`
	`860`	`+ if (preset.has_value()) {`
	`861`	`+ preset->apply_to_params(load_params);`
	`862`	`+ }`
	`863`	`+`
`854`	`864`	`// Load the model via model manager (handles LRU eviction)`
`855`	`865`	`model_mgr->load(name, ctx_server, load_params);`
`856`	`866`	`res_ok(res, {{"success", true}});`