server: expose prompt token counts in /slots endpoint (#23454)

ScrewTSW · web-flow · commit b65bb4baaeae · 2026-05-21T13:29:13.000+02:00
Add n_prompt_tokens, n_prompt_tokens_processed, and n_prompt_tokens_cache
to the /slots JSON response. These fields are already tracked internally
but were not exposed, making it impossible for clients to monitor prompt
evaluation progress during processing.
diff --git a/tools/server/server-context.cpp b/tools/server/server-context.cpp
@@ -506,6 +506,9 @@ struct server_slot {
 
         if (ptask) {
             res["id_task"] = ptask->id;
+            res["n_prompt_tokens"]           = (int32_t) prompt.tokens.size();
+            res["n_prompt_tokens_processed"] = n_prompt_tokens_processed;
+            res["n_prompt_tokens_cache"]     = n_prompt_tokens_cache;
             res["params"] = ptask->params.to_json(only_metrics);
             res["next_token"] = {
                 {

Original file line number	Diff line number	Diff line change
`@@ -506,6 +506,9 @@ struct server_slot {`
`506`	`506`
`507`	`507`	`if (ptask) {`
`508`	`508`	`res["id_task"] = ptask->id;`
	`509`	`+ res["n_prompt_tokens"] = (int32_t) prompt.tokens.size();`
	`510`	`+ res["n_prompt_tokens_processed"] = n_prompt_tokens_processed;`
	`511`	`+ res["n_prompt_tokens_cache"] = n_prompt_tokens_cache;`
`509`	`512`	`res["params"] = ptask->params.to_json(only_metrics);`
`510`	`513`	`res["next_token"] = {`
`511`	`514`	`{`