common : only load backends when required (ggml-org#22290)

angt · web-flow · commit bf76ac77bed3 · 2026-05-05T09:23:50.000+02:00
* common : only load backends when required

Signed-off-by: Adrien Gallouët &lt;angt@huggingface.co&gt;

* llama : call ggml_backend_load_all() directly from llama_backend_init()

Signed-off-by: Adrien Gallouët &lt;angt@huggingface.co&gt;

* Add ggml_backend_load_all() where llama_backend_init() is not used

Signed-off-by: Adrien Gallouët &lt;angt@huggingface.co&gt;

---------

Signed-off-by: Adrien Gallouët &lt;angt@huggingface.co&gt;
diff --git a/common/arg.cpp b/common/arg.cpp
@@ -248,6 +248,8 @@ std::vector<std::string> common_arg::get_env() const {
 
 // Helper function to parse tensor buffer override strings
 static void parse_tensor_buffer_overrides(const std::string & value, std::vector<llama_model_tensor_buft_override> & overrides) {
+    ggml_backend_load_all();
+
     std::map<std::string, ggml_backend_buffer_type_t> buft_list;
     for (size_t i = 0; i < ggml_backend_dev_count(); ++i) {
         auto * dev = ggml_backend_dev_get(i);
@@ -803,6 +805,7 @@ static std::vector<ggml_backend_dev_t> parse_device_list(const std::string & val
     if (dev_names.size() == 1 && dev_names[0] == "none") {
         devices.push_back(nullptr);
     } else {
+        ggml_backend_load_all();
         for (const auto & device : dev_names) {
             auto * dev = ggml_backend_dev_by_name(device.c_str());
             if (!dev || ggml_backend_dev_type(dev) == GGML_BACKEND_DEVICE_TYPE_CPU) {
@@ -820,6 +823,7 @@ static void add_rpc_devices(const std::string & servers) {
     if (rpc_servers.empty()) {
         throw std::invalid_argument("no RPC servers specified");
     }
+    ggml_backend_load_all();
     ggml_backend_reg_t rpc_reg = ggml_backend_reg_by_name("RPC");
     if (!rpc_reg) {
         throw std::invalid_argument("failed to find RPC backend");
@@ -1016,9 +1020,6 @@ common_params_context common_params_parser_init(common_params & params, llama_ex
 
     params.use_color = tty_can_use_colors();
 
-    // load dynamic backends
-    ggml_backend_load_all();
-
     common_params_context ctx_arg(params);
     ctx_arg.print_usage = print_usage;
     ctx_arg.ex          = ex;
@@ -2275,6 +2276,7 @@ common_params_context common_params_parser_init(common_params & params, llama_ex
         {"--list-devices"},
         "print list of available devices and exit",
         [](common_params &) {
+            ggml_backend_load_all();
             std::vector<ggml_backend_dev_t> devices;
             for (size_t i = 0; i < ggml_backend_dev_count(); ++i) {
                 auto * dev = ggml_backend_dev_get(i);
diff --git a/examples/save-load-state/save-load-state.cpp b/examples/save-load-state/save-load-state.cpp
@@ -41,6 +41,9 @@ int main(int argc, char ** argv) {
     std::string result3;
 
     // init
+
+    ggml_backend_load_all();
+
     auto llama_init = common_init_from_params(params);
 
     auto * model = llama_init->model();
diff --git a/src/llama.cpp b/src/llama.cpp
@@ -89,6 +89,10 @@ void llama_backend_init(void) {
         struct ggml_context * ctx = ggml_init(params);
         ggml_free(ctx);
     }
+
+    if (!ggml_backend_reg_count()) {
+        ggml_backend_load_all();
+    }
 }
 
 void llama_numa_init(enum ggml_numa_strategy numa) {
diff --git a/tests/test-state-restore-fragmented.cpp b/tests/test-state-restore-fragmented.cpp
@@ -29,6 +29,9 @@ int main(int argc, char ** argv) {
     }
 
     // init
+
+    ggml_backend_load_all();
+
     common_init_result_ptr llama_init = common_init_from_params(params);
 
     llama_model * model = llama_init->model();
diff --git a/tools/mtmd/debug/mtmd-debug.cpp b/tools/mtmd/debug/mtmd-debug.cpp
@@ -68,6 +68,8 @@ int main(int argc, char ** argv) {
         return 1;
     }
 
+    ggml_backend_load_all();
+
     LOG_INF("%s: loading model: %s\n", __func__, params.model.path.c_str());
 
     mtmd::context_ptr ctx_mtmd;
diff --git a/tools/mtmd/mtmd-cli.cpp b/tools/mtmd/mtmd-cli.cpp
@@ -295,6 +295,8 @@ int main(int argc, char ** argv) {
         return 1;
     }
 
+    ggml_backend_load_all();
+
     mtmd_cli_context ctx(params);
     LOG_INF("%s: loading model: %s\n", __func__, params.model.path.c_str());
 

Original file line number	Diff line number	Diff line change
`@@ -89,6 +89,10 @@ void llama_backend_init(void) {`
`89`	`89`	`struct ggml_context * ctx = ggml_init(params);`
`90`	`90`	`ggml_free(ctx);`
`91`	`91`	`}`
	`92`	`+`
	`93`	`+ if (!ggml_backend_reg_count()) {`
	`94`	`+ ggml_backend_load_all();`
	`95`	`+ }`
`92`	`96`	`}`
`93`	`97`
`94`	`98`	`void llama_numa_init(enum ggml_numa_strategy numa) {`
Original file line number	Diff line number	Diff line change
`@@ -29,6 +29,9 @@ int main(int argc, char ** argv) {`
`29`	`29`	`}`
`30`	`30`
`31`	`31`	`// init`
	`32`	`+`
	`33`	`+ ggml_backend_load_all();`
	`34`	`+`
`32`	`35`	`common_init_result_ptr llama_init = common_init_from_params(params);`
`33`	`36`
`34`	`37`	`llama_model * model = llama_init->model();`
Original file line number	Diff line number	Diff line change
`@@ -68,6 +68,8 @@ int main(int argc, char ** argv) {`
`68`	`68`	`return 1;`
`69`	`69`	`}`
`70`	`70`
	`71`	`+ ggml_backend_load_all();`
	`72`	`+`
`71`	`73`	`LOG_INF("%s: loading model: %s\n", __func__, params.model.path.c_str());`
`72`	`74`
`73`	`75`	`mtmd::context_ptr ctx_mtmd;`
Original file line number	Diff line number	Diff line change
`@@ -295,6 +295,8 @@ int main(int argc, char ** argv) {`
`295`	`295`	`return 1;`
`296`	`296`	`}`
`297`	`297`
	`298`	`+ ggml_backend_load_all();`
	`299`	`+`
`298`	`300`	`mtmd_cli_context ctx(params);`
`299`	`301`	`LOG_INF("%s: loading model: %s\n", __func__, params.model.path.c_str());`
`300`	`302`