Print structured perf stats in Qwen3.5 MoE runner

digantdesai · digantdesai · commit 2cb04c395cef · 2026-04-06T12:27:44.000-07:00
Add a stats_callback to generate() that prints prefill/decode rates,
model load time, TTFT, and sampling time via printf, mirroring the
format in extension/llm/runner/stats.h print_report.
diff --git a/examples/models/qwen3_5_moe/main.cpp b/examples/models/qwen3_5_moe/main.cpp
@@ -13,6 +13,8 @@
 #include <executorch/runtime/platform/log.h>
 #include <pytorch/tokenizers/hf_tokenizer.h>
 
+#include <cinttypes>
+#include <cstdio>
 #include <string>
 #include <vector>
 
@@ -67,7 +69,43 @@ int main(int argc, char** argv) {
   config.temperature = FLAGS_temperature;
   config.max_new_tokens = FLAGS_max_new_tokens;
 
-  auto error = runner->generate(FLAGS_prompt.c_str(), config);
+  auto error = runner->generate(
+      FLAGS_prompt.c_str(),
+      config,
+      /*token_callback=*/{},
+      [](const llm::Stats& stats) {
+        double scale = stats.SCALING_FACTOR_UNITS_PER_SECOND;
+        double model_load_s =
+            (stats.model_load_end_ms - stats.model_load_start_ms) / scale;
+        double inference_s =
+            (stats.inference_end_ms - stats.inference_start_ms) / scale;
+        double prefill_s =
+            (stats.prompt_eval_end_ms - stats.inference_start_ms) / scale;
+        double decode_s =
+            (stats.inference_end_ms - stats.prompt_eval_end_ms) / scale;
+        double ttft_s =
+            (stats.first_token_ms - stats.inference_start_ms) / scale;
+        double sampling_s = stats.aggregate_sampling_time_ms / scale;
+
+        printf("\n\tPrompt Tokens: %" PRIu64 "    Generated Tokens: %" PRIu64,
+            stats.num_prompt_tokens, stats.num_generated_tokens);
+        printf("\n\tModel Load Time:\t\t%f (seconds)", model_load_s);
+        printf(
+            "\n\tTotal inference time:\t\t%f (seconds)\t\t Rate: \t%f (tokens/second)",
+            inference_s, stats.num_generated_tokens / inference_s);
+        printf(
+            "\n\t\tPrompt evaluation:\t%f (seconds)\t\t Rate: \t%f (tokens/second)",
+            prefill_s, stats.num_prompt_tokens / prefill_s);
+        printf(
+            "\n\t\tGenerated %" PRIu64
+            " tokens:\t%f (seconds)\t\t Rate: \t%f (tokens/second)",
+            stats.num_generated_tokens, decode_s,
+            stats.num_generated_tokens / decode_s);
+        printf("\n\tTime to first generated token:\t%f (seconds)", ttft_s);
+        printf(
+            "\n\tSampling time over %" PRIu64 " tokens:\t%f (seconds)\n",
+            stats.num_prompt_tokens + stats.num_generated_tokens, sampling_s);
+      });
   if (error != executorch::runtime::Error::Ok) {
     ET_LOG(Error, "Generation failed");
     return 1;