feat(pricing): add prod pricing and rate limits for documented models

bowtiedbluefin · claude · bowtiedbluefin · commit 72fb77c424b7 · 2026-05-17T02:16:10.000-04:00
Sync prod_model_price.json and prod_rate_limit.json with the model
catalog documented in api-gateway-docs and the active blockchain
registry. Adds entries (including :web and capitalized registry-ID
variants) for: glm-5.1, glm-5.1-non-thinking, kimi-k2.6, MiniMax-M2.7,
deepseek-v4-pro, deepseek-v4-flash, plus :web/casing aliases for
existing models so every registered blockchain ID resolves without
falling back to the default price.

Co-Authored-By: Claude Opus 4.7 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/models/prod_model_price.json b/models/prod_model_price.json
@@ -2,38 +2,78 @@
   "default_input_price_per_million": "0.50",
   "default_output_price_per_million": "2.00",
   "models": {
+    "glm-5.1": { "input": "1.50", "output": "5.00" },
+    "glm-5.1:web": { "input": "1.50", "output": "5.00" },
+    "GLM-5.1": { "input": "1.50", "output": "5.00" },
+    "glm-5.1-non-thinking": { "input": "1.50", "output": "5.00" },
+    "glm-5.1-non-thinking:web": { "input": "1.50", "output": "5.00" },
+
     "glm-5": { "input": "1.00", "output": "3.20" },
+    "glm-5:web": { "input": "1.00", "output": "3.20" },
+    "GLM-5": { "input": "1.00", "output": "3.20" },
     "glm-4.7": { "input": "0.50", "output": "2.25" },
+    "glm-4.7:web": { "input": "0.50", "output": "2.25" },
     "glm-4.7-thinking": { "input": "0.45", "output": "2.00" },
+    "glm-4.7-thinking:web": { "input": "0.45", "output": "2.00" },
     "glm-4.7-flash": { "input": "0.10", "output": "0.50" },
+    "glm-4.7-flash:web": { "input": "0.10", "output": "0.50" },
 
+    "kimi-k2.6": { "input": "0.50", "output": "3.25" },
+    "kimi-k2.6:web": { "input": "0.50", "output": "3.25" },
     "kimi-k2.5": { "input": "0.60", "output": "3.00" },
+    "kimi-k2.5:web": { "input": "0.60", "output": "3.00" },
+    "Kimi-K2.5": { "input": "0.60", "output": "3.00" },
     "kimi-k2-thinking": { "input": "0.60", "output": "3.00" },
 
     "gemma-4-31b": { "input": "0.15", "output": "0.40" },
+    "Gemma-4-31b": { "input": "0.15", "output": "0.40" },
+    "Gemma-4-31b:web": { "input": "0.15", "output": "0.40" },
     "gemma-4-26b-a4b": { "input": "0.15", "output": "0.40" },
+    "Gemma-4-26b-a4b": { "input": "0.15", "output": "0.40" },
+    "Gemma-4-26b-a4b:web": { "input": "0.15", "output": "0.40" },
 
     "qwen3-235b": { "input": "0.40", "output": "3.00" },
+    "qwen3-235b:web": { "input": "0.40", "output": "3.00" },
     "qwen-3-235b": { "input": "0.40", "output": "3.00" },
     "qwen3-coder-480b-a35b-instruct": { "input": "0.70", "output": "2.80" },
+    "qwen3-coder-480b-a35b-instruct:web": { "input": "0.70", "output": "2.80" },
     "qwen3-coder-480b-a35b": { "input": "0.70", "output": "2.80" },
     "qwen3-next-80b": { "input": "0.15", "output": "1.50" },
+    "qwen3-next-80b:web": { "input": "0.15", "output": "1.50" },
     "qwen35-35b-a3b": { "input": "0.30", "output": "1.25" },
+    "qwen35-35b-a3b:web": { "input": "0.30", "output": "1.25" },
     "qwen35-9b": { "input": "0.05", "output": "0.15" },
+    "qwen35-9b:web": { "input": "0.05", "output": "0.15" },
 
     "arcee-trinity-large-thinking": { "input": "0.30", "output": "1.00" },
+    "Arcee-Trinity-Large-Thinking": { "input": "0.30", "output": "1.00" },
+    "Arcee-Trinity-Large-Thinking:web": { "input": "0.30", "output": "1.00" },
 
     "minimax-m2.5": { "input": "0.30", "output": "1.20" },
+    "MiniMax-M2.5": { "input": "0.30", "output": "1.20" },
+    "MiniMax-M2.5:web": { "input": "0.30", "output": "1.20" },
+    "MiniMax-M2.7": { "input": "0.35", "output": "1.50" },
+    "MiniMax-M2.7:web": { "input": "0.35", "output": "1.50" },
+
+    "deepseek-v4-pro": { "input": "1.60", "output": "3.50" },
+    "deepseek-v4-pro:web": { "input": "1.60", "output": "3.50" },
+    "deepseek-v4-flash": { "input": "0.15", "output": "0.30" },
+    "deepseek-v4-flash:web": { "input": "0.15", "output": "0.30" },
 
     "gpt-oss-120b": { "input": "0.07", "output": "0.28" },
+    "gpt-oss-120b:web": { "input": "0.07", "output": "0.28" },
 
     "hermes-3-llama-3.1-405b": { "input": "1.00", "output": "3.00" },
+    "hermes-3-llama-3.1-405b:web": { "input": "1.00", "output": "3.00" },
     "llama-3.3-70b": { "input": "0.70", "output": "2.50" },
+    "llama-3.3-70b:web": { "input": "0.70", "output": "2.50" },
     "llama-3-3-70b": { "input": "0.70", "output": "2.50" },
     "llama-3.2-3b": { "input": "0.10", "output": "0.50" },
+    "llama-3.2-3b:web": { "input": "0.10", "output": "0.50" },
     "llama-3-2-3b": { "input": "0.10", "output": "0.50" },
 
     "mistral-31-24b": { "input": "0.50", "output": "2.00" },
+    "mistral-31-24b:web": { "input": "0.50", "output": "2.00" },
     "mistral-small-24b": { "input": "0.50", "output": "2.00" },
 
     "venice-uncensored": { "input": "0.20", "output": "0.90" },
diff --git a/models/prod_rate_limit.json b/models/prod_rate_limit.json
@@ -38,7 +38,9 @@
         "qwen35-9b",
         "qwen35-9b:web",
         "venice-uncensored",
-        "venice-uncensored:web"
+        "venice-uncensored:web",
+        "deepseek-v4-flash",
+        "deepseek-v4-flash:web"
       ],
       "priority": 50,
       "description": "Medium models with moderate limits"
@@ -50,6 +52,12 @@
       "models": [
         "glm-5",
         "glm-5:web",
+        "GLM-5",
+        "glm-5.1",
+        "glm-5.1:web",
+        "GLM-5.1",
+        "glm-5.1-non-thinking",
+        "glm-5.1-non-thinking:web",
         "glm-4.7",
         "glm-4.7:web",
         "glm-4.7-thinking",
@@ -58,20 +66,35 @@
         "glm-4.7-flash:web",
         "kimi-k2.5",
         "kimi-k2.5:web",
+        "Kimi-K2.5",
+        "kimi-k2.6",
+        "kimi-k2.6:web",
         "kimi-k2-thinking",
         "kimi-k2-thinking:web",
         "gemma-4-31b",
         "gemma-4-31b:web",
+        "Gemma-4-31b",
+        "Gemma-4-31b:web",
         "gemma-4-26b-a4b",
         "gemma-4-26b-a4b:web",
+        "Gemma-4-26b-a4b",
+        "Gemma-4-26b-a4b:web",
         "arcee-trinity-large-thinking",
         "arcee-trinity-large-thinking:web",
+        "Arcee-Trinity-Large-Thinking",
+        "Arcee-Trinity-Large-Thinking:web",
         "qwen3-235b",
         "qwen3-235b:web",
         "qwen3-coder-480b-a35b-instruct",
         "qwen3-coder-480b-a35b-instruct:web",
         "minimax-m2.5",
         "minimax-m2.5:web",
+        "MiniMax-M2.5",
+        "MiniMax-M2.5:web",
+        "MiniMax-M2.7",
+        "MiniMax-M2.7:web",
+        "deepseek-v4-pro",
+        "deepseek-v4-pro:web",
         "gpt-oss-120b",
         "gpt-oss-120b:web",
         "hermes-3-llama-3.1-405b",