fix(metrics): rename Prometheus metrics from mlx_server_ to swiftlm_ prefix

solderzzc · solderzzc · commit 60cc3e3abc53 · 2026-03-30T12:40:31.000-07:00
diff --git a/Sources/SwiftLM/Server.swift b/Sources/SwiftLM/Server.swift
@@ -548,30 +548,30 @@ struct MLXServer: AsyncParsableCommand {
             let snapshot = await stats.snapshot()
             let uptime = snapshot.uptimeSeconds
             var lines: [String] = []
-            lines.append("# HELP mlx_server_requests_total Total requests processed")
-            lines.append("# TYPE mlx_server_requests_total counter")
-            lines.append("mlx_server_requests_total \(snapshot.requestsTotal)")
-            lines.append("# HELP mlx_server_requests_active Currently active requests")
-            lines.append("# TYPE mlx_server_requests_active gauge")
-            lines.append("mlx_server_requests_active \(snapshot.requestsActive)")
-            lines.append("# HELP mlx_server_tokens_generated_total Total tokens generated")
-            lines.append("# TYPE mlx_server_tokens_generated_total counter")
-            lines.append("mlx_server_tokens_generated_total \(snapshot.tokensGenerated)")
-            lines.append("# HELP mlx_server_tokens_per_second Average token generation rate")
-            lines.append("# TYPE mlx_server_tokens_per_second gauge")
-            lines.append("mlx_server_tokens_per_second \(String(format: "%.2f", snapshot.avgTokensPerSec))")
-            lines.append("# HELP mlx_server_memory_active_bytes Active GPU memory usage")
-            lines.append("# TYPE mlx_server_memory_active_bytes gauge")
-            lines.append("mlx_server_memory_active_bytes \(activeMemBytes)")
-            lines.append("# HELP mlx_server_memory_peak_bytes Peak GPU memory usage")
-            lines.append("# TYPE mlx_server_memory_peak_bytes gauge")
-            lines.append("mlx_server_memory_peak_bytes \(peakMemBytes)")
-            lines.append("# HELP mlx_server_memory_cache_bytes Cached GPU memory")
-            lines.append("# TYPE mlx_server_memory_cache_bytes gauge")
-            lines.append("mlx_server_memory_cache_bytes \(cacheMemBytes)")
-            lines.append("# HELP mlx_server_uptime_seconds Server uptime")
-            lines.append("# TYPE mlx_server_uptime_seconds gauge")
-            lines.append("mlx_server_uptime_seconds \(String(format: "%.0f", uptime))")
+            lines.append("# HELP swiftlm_requests_total Total requests processed")
+            lines.append("# TYPE swiftlm_requests_total counter")
+            lines.append("swiftlm_requests_total \(snapshot.requestsTotal)")
+            lines.append("# HELP swiftlm_requests_active Currently active requests")
+            lines.append("# TYPE swiftlm_requests_active gauge")
+            lines.append("swiftlm_requests_active \(snapshot.requestsActive)")
+            lines.append("# HELP swiftlm_tokens_generated_total Total tokens generated")
+            lines.append("# TYPE swiftlm_tokens_generated_total counter")
+            lines.append("swiftlm_tokens_generated_total \(snapshot.tokensGenerated)")
+            lines.append("# HELP swiftlm_tokens_per_second Average token generation rate")
+            lines.append("# TYPE swiftlm_tokens_per_second gauge")
+            lines.append("swiftlm_tokens_per_second \(String(format: "%.2f", snapshot.avgTokensPerSec))")
+            lines.append("# HELP swiftlm_memory_active_bytes Active GPU memory usage")
+            lines.append("# TYPE swiftlm_memory_active_bytes gauge")
+            lines.append("swiftlm_memory_active_bytes \(activeMemBytes)")
+            lines.append("# HELP swiftlm_memory_peak_bytes Peak GPU memory usage")
+            lines.append("# TYPE swiftlm_memory_peak_bytes gauge")
+            lines.append("swiftlm_memory_peak_bytes \(peakMemBytes)")
+            lines.append("# HELP swiftlm_memory_cache_bytes Cached GPU memory")
+            lines.append("# TYPE swiftlm_memory_cache_bytes gauge")
+            lines.append("swiftlm_memory_cache_bytes \(cacheMemBytes)")
+            lines.append("# HELP swiftlm_uptime_seconds Server uptime")
+            lines.append("# TYPE swiftlm_uptime_seconds gauge")
+            lines.append("swiftlm_uptime_seconds \(String(format: "%.0f", uptime))")
             lines.append("")
             let metrics = lines.joined(separator: "\n")
             return Response(
diff --git a/tests/test-server.sh b/tests/test-server.sh
@@ -496,28 +496,28 @@ log "Test 19: /metrics Prometheus endpoint"
 
 METRICS_RESP=$(curl -sf "$URL/metrics")
 
-if echo "$METRICS_RESP" | grep -q "mlx_server_requests_total"; then
-    pass "Metrics: contains mlx_server_requests_total"
+if echo "$METRICS_RESP" | grep -q "swiftlm_requests_total"; then
+    pass "Metrics: contains swiftlm_requests_total"
 else
-    fail "Metrics: missing mlx_server_requests_total"
+    fail "Metrics: missing swiftlm_requests_total"
 fi
 
-if echo "$METRICS_RESP" | grep -q "mlx_server_memory_active_bytes"; then
-    pass "Metrics: contains mlx_server_memory_active_bytes"
+if echo "$METRICS_RESP" | grep -q "swiftlm_memory_active_bytes"; then
+    pass "Metrics: contains swiftlm_memory_active_bytes"
 else
-    fail "Metrics: missing mlx_server_memory_active_bytes"
+    fail "Metrics: missing swiftlm_memory_active_bytes"
 fi
 
-if echo "$METRICS_RESP" | grep -q "mlx_server_tokens_per_second"; then
-    pass "Metrics: contains mlx_server_tokens_per_second"
+if echo "$METRICS_RESP" | grep -q "swiftlm_tokens_per_second"; then
+    pass "Metrics: contains swiftlm_tokens_per_second"
 else
-    fail "Metrics: missing mlx_server_tokens_per_second"
+    fail "Metrics: missing swiftlm_tokens_per_second"
 fi
 
-if echo "$METRICS_RESP" | grep -q "mlx_server_uptime_seconds"; then
-    pass "Metrics: contains mlx_server_uptime_seconds"
+if echo "$METRICS_RESP" | grep -q "swiftlm_uptime_seconds"; then
+    pass "Metrics: contains swiftlm_uptime_seconds"
 else
-    fail "Metrics: missing mlx_server_uptime_seconds"
+    fail "Metrics: missing swiftlm_uptime_seconds"
 fi
 
 # Verify Prometheus format (TYPE and HELP comments)
@@ -895,15 +895,15 @@ log "Test 29: Metrics counter accumulation"
 
 # Get baseline token count before test requests
 METRICS_BEFORE=$(curl -sf "$URL/metrics")
-TOKENS_BEFORE=$(echo "$METRICS_BEFORE" | grep "mlx_server_tokens_generated_total" | grep -v "^#" | awk '{print $2}' || echo 0)
+TOKENS_BEFORE=$(echo "$METRICS_BEFORE" | grep "swiftlm_tokens_generated_total" | grep -v "^#" | awk '{print $2}' || echo 0)
 
 # Make a request to generate tokens
 curl -sf -X POST "$URL/v1/chat/completions" \
     -H "Content-Type: application/json" \
     -d "{\"model\":\"$MODEL\",\"max_tokens\":20,\"messages\":[{\"role\":\"user\",\"content\":\"Count to five.\"}]}" > /dev/null
 
 METRICS_AFTER=$(curl -sf "$URL/metrics")
-TOKENS_AFTER=$(echo "$METRICS_AFTER" | grep "mlx_server_tokens_generated_total" | grep -v "^#" | awk '{print $2}' || echo 0)
+TOKENS_AFTER=$(echo "$METRICS_AFTER" | grep "swiftlm_tokens_generated_total" | grep -v "^#" | awk '{print $2}' || echo 0)
 
 if [ "${TOKENS_AFTER:-0}" -gt "${TOKENS_BEFORE:-0}" ] 2>/dev/null; then
     pass "Metrics counter: tokens_generated increased ($TOKENS_BEFORE → $TOKENS_AFTER)"