fix: OpenRouter + DeepSeek V3.2 as primary LLM, CSV/Metrics layout overlay

CreatmanCEO · claude · CreatmanCEO · commit 5daafa076be6 · 2026-04-20T07:04:16.000-04:00
LLM Provider Migration:
- Primary (Pool A+B): DeepSeek V3.2 via OpenRouter ($0.26/$0.42 per 1M tokens)
- Pool A fallback: Gemini Flash direct (free)
- Pool B fallback: NVIDIA Nemotron 3 Super via OpenRouter (free)
- Pool B upgrade: Claude Haiku 4.5 via OpenRouter
- Added openrouter_api_key to config, made cerebras/anthropic keys optional

UI Layout:
- CSV and Metrics panels now overlay above chat messages (not replace them)
- Messages always visible below panel

Updated: model_adaptors (DeepSeek style), eval pricing, sample metrics

Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/.env.example b/.env.example
@@ -1,15 +1,14 @@
-# LLM Providers (get keys from respective consoles)
+# LLM Providers
 GEMINI_API_KEY=your-gemini-key-from-aistudio.google.com
-CEREBRAS_API_KEY=your-cerebras-key-from-cloud.cerebras.ai
-ANTHROPIC_API_KEY=your-anthropic-key-from-console.anthropic.com
+OPENROUTER_API_KEY=your-openrouter-key-from-openrouter.ai
 
-# Model routing — Pool A (simple/medium tasks, mutual fallback)
-MODEL_POOL_A_PRIMARY=gemini/gemini-2.5-flash
-MODEL_POOL_A_FALLBACK=cerebras/llama-3.3-70b
+# Model routing — Pool A (DeepSeek primary, Gemini fallback)
+MODEL_POOL_A_PRIMARY=openrouter/deepseek/deepseek-chat-v3-0324
+MODEL_POOL_A_FALLBACK=gemini/gemini-2.5-flash
 
-# Model routing — Pool B (complex tasks)
-MODEL_POOL_B_DEFAULT=anthropic/claude-haiku-4-5-20251001
-MODEL_POOL_B_COMPLEX=anthropic/claude-sonnet-4-5-20250514
+# Model routing — Pool B (DeepSeek primary, Haiku upgrade)
+MODEL_POOL_B_DEFAULT=openrouter/deepseek/deepseek-chat-v3-0324
+MODEL_POOL_B_COMPLEX=openrouter/anthropic/claude-haiku-4-5-20251001
 
 # LLM Settings
 LLM_TEMPERATURE=0.1
diff --git a/backend/config.py b/backend/config.py
@@ -7,16 +7,17 @@
 class Settings(BaseSettings):
     # LLM Provider Keys
     gemini_api_key: SecretStr
-    cerebras_api_key: SecretStr
-    anthropic_api_key: SecretStr
+    cerebras_api_key: SecretStr = SecretStr("")
+    anthropic_api_key: SecretStr = SecretStr("")
+    openrouter_api_key: SecretStr = SecretStr("")
 
-    # Model routing — Pool A (simple/medium, mutual fallback)
-    model_pool_a_primary: str = "gemini/gemini-2.5-flash"
-    model_pool_a_fallback: str = "cerebras/llama-3.3-70b"
+    # Model routing — Pool A (simple/medium)
+    model_pool_a_primary: str = "openrouter/deepseek/deepseek-chat-v3-0324"
+    model_pool_a_fallback: str = "gemini/gemini-2.5-flash"
 
     # Model routing — Pool B (complex tasks)
-    model_pool_b_default: str = "anthropic/claude-haiku-4-5-20251001"
-    model_pool_b_complex: str = "anthropic/claude-sonnet-4-5-20250514"
+    model_pool_b_default: str = "openrouter/deepseek/deepseek-chat-v3-0324"
+    model_pool_b_complex: str = "openrouter/anthropic/claude-haiku-4-5-20251001"
 
     llm_temperature: float = 0.1
 
diff --git a/backend/eval/batch_runner.py b/backend/eval/batch_runner.py
@@ -177,11 +177,10 @@ def estimate_cost(model: str, tokens_in: int, tokens_out: int, response=None) ->
 
     # Fallback: manual approximate pricing (USD per 1M tokens)
     pricing = {
+        "openrouter/deepseek/deepseek-chat-v3-0324": {"input": 0.26, "output": 0.42},
+        "openrouter/nvidia/nemotron-3-super": {"input": 0.0, "output": 0.0},
+        "openrouter/anthropic/claude-haiku-4-5-20251001": {"input": 0.80, "output": 4.00},
         "gemini/gemini-2.5-flash": {"input": 0.15, "output": 0.60},
-        "gemini/gemini-2.5-pro": {"input": 1.25, "output": 5.00},
-        "cerebras/llama-3.3-70b": {"input": 0.60, "output": 0.60},
-        "anthropic/claude-haiku-4-5-20251001": {"input": 0.80, "output": 4.00},
-        "anthropic/claude-sonnet-4-5-20250514": {"input": 3.00, "output": 15.00},
     }
 
     rates = pricing.get(model, {"input": 1.0, "output": 3.0})
diff --git a/backend/eval/metrics_api.py b/backend/eval/metrics_api.py
@@ -10,9 +10,21 @@
 
 # Sample metrics for demo (used when no eval has been run yet)
 SAMPLE_METRICS = {
+    "openrouter/deepseek/deepseek-chat-v3-0324": {
+        "model": "openrouter/deepseek/deepseek-chat-v3-0324",
+        "pool": "pool-a + pool-b",
+        "total_cases": 48,
+        "accuracy": 0.896,
+        "schema_compliance": 0.875,
+        "latency_p50": 380,
+        "latency_p95": 950,
+        "cost_per_request": 0.000052,
+        "avg_tokens_per_request": 900,
+        "error_rate": 0.0,
+    },
     "gemini/gemini-2.5-flash": {
         "model": "gemini/gemini-2.5-flash",
-        "pool": "pool-a",
+        "pool": "pool-a (fallback)",
         "total_cases": 48,
         "accuracy": 0.875,
         "schema_compliance": 0.812,
@@ -22,21 +34,21 @@
         "avg_tokens_per_request": 850,
         "error_rate": 0.021,
     },
-    "cerebras/llama-3.3-70b": {
-        "model": "cerebras/llama-3.3-70b",
-        "pool": "pool-a (fallback)",
+    "openrouter/nvidia/nemotron-3-super": {
+        "model": "openrouter/nvidia/nemotron-3-super",
+        "pool": "pool-b (fallback)",
         "total_cases": 48,
-        "accuracy": 0.833,
-        "schema_compliance": 0.854,
-        "latency_p50": 280,
-        "latency_p95": 680,
-        "cost_per_request": 0.000062,
-        "avg_tokens_per_request": 920,
+        "accuracy": 0.812,
+        "schema_compliance": 0.792,
+        "latency_p50": 520,
+        "latency_p95": 1400,
+        "cost_per_request": 0.0,
+        "avg_tokens_per_request": 1050,
         "error_rate": 0.042,
     },
-    "anthropic/claude-haiku-4-5-20251001": {
-        "model": "anthropic/claude-haiku-4-5-20251001",
-        "pool": "pool-b",
+    "openrouter/anthropic/claude-haiku-4-5-20251001": {
+        "model": "openrouter/anthropic/claude-haiku-4-5-20251001",
+        "pool": "pool-b-upgrade",
         "total_cases": 48,
         "accuracy": 0.938,
         "schema_compliance": 0.917,
@@ -46,26 +58,14 @@
         "avg_tokens_per_request": 1100,
         "error_rate": 0.0,
     },
-    "anthropic/claude-sonnet-4-5-20250514": {
-        "model": "anthropic/claude-sonnet-4-5-20250514",
-        "pool": "pool-b-upgrade",
-        "total_cases": 48,
-        "accuracy": 0.958,
-        "schema_compliance": 0.938,
-        "latency_p50": 1200,
-        "latency_p95": 3500,
-        "cost_per_request": 0.00145,
-        "avg_tokens_per_request": 1450,
-        "error_rate": 0.0,
-    },
 }
 
 
 POOL_MAP = {
-    "gemini/gemini-2.5-flash": "pool-a",
-    "cerebras/llama-3.3-70b": "pool-a (fallback)",
-    "anthropic/claude-haiku-4-5-20251001": "pool-b",
-    "anthropic/claude-sonnet-4-5-20250514": "pool-b-upgrade",
+    "openrouter/deepseek/deepseek-chat-v3-0324": "pool-a + pool-b",
+    "gemini/gemini-2.5-flash": "pool-a (fallback)",
+    "openrouter/nvidia/nemotron-3-super": "pool-b (fallback)",
+    "openrouter/anthropic/claude-haiku-4-5-20251001": "pool-b-upgrade",
 }
 
 
diff --git a/backend/prompts/model_adaptors.py b/backend/prompts/model_adaptors.py
@@ -1,35 +1,30 @@
 """Model-specific adaptors — tailored instructions per LLM provider.
 
 Each provider has different strengths. We optimize prompt style accordingly:
-- Gemini Flash: fast, good at structured output with concise prompts
-- Cerebras Llama: needs explicit format examples, simpler vocabulary
-- Anthropic Haiku: benefits from chain-of-thought permission
-- Anthropic Sonnet: full reasoning freedom, comprehensive analysis
+- DeepSeek V3: strong structured output, good reasoning, cost-effective
+- Gemini Flash: fast, good at concise responses
+- NVIDIA Nemotron: free tier, needs explicit format guidance
+- Anthropic Haiku: excellent tool calling, chain-of-thought
 """
 
 MODEL_ADAPTORS = {
     "pool-a": {
-        "gemini_flash": """## Response Style (Gemini Flash)
+        "deepseek": """## Response Style (DeepSeek — Efficient)
 - Be concise: respond in under 150 words unless detailed analysis is explicitly requested
 - When using tools, summarize results in 2-3 sentences
 - For structured output, use exact JSON format — no markdown wrapping
 - Prefer bullet points over paragraphs
 - Include well IDs and numeric values, skip verbose explanations
 - Example anomaly summary: "AUH-01-003: debit declined 32% (12.1→8.2 L/s). Recommend pump inspection."
 """,
-        "cerebras_llama": """## Response Style (Llama)
-- Use clear, simple language. Avoid complex nested sentences.
-- When returning structured data, follow this exact format:
-  ```json
-  {"type": "anomaly_card", "severity": "high", "well_id": "AUH-01-003", ...}
-  ```
-- Always state findings before recommendations
-- List items with numbered steps: 1. Finding, 2. Cause, 3. Action
-- When uncertain, say "Based on available data..." rather than speculating
-- Keep responses under 200 words for simple queries
+        "gemini_flash": """## Response Style (Gemini Flash — Concise)
+- Be very concise: under 100 words for simple queries
+- Use bullet points, not paragraphs
+- Include well IDs and numeric values with units
+- For structured output, return exact JSON — no wrapping
 """,
     },
-    "pool-b": """## Response Style (Haiku — Analytical)
+    "pool-b": """## Response Style (Analytical)
 - Think step by step before concluding. Consider multiple hypotheses.
 - Structure your analysis:
   1. Observation: what the data shows
@@ -41,7 +36,7 @@
 - Compare with neighboring wells when relevant
 - Cite specific values and well IDs throughout
 """,
-    "pool-b-upgrade": """## Response Style (Sonnet — Comprehensive)
+    "pool-b-upgrade": """## Response Style (Comprehensive Analysis)
 - Provide comprehensive analysis with evidence and reasoning
 - You have full freedom to reason at length — use it for complex cases
 - Consider geological, operational, and seasonal factors holistically
@@ -63,7 +58,7 @@ def get_model_adaptor(model_pool: str, model_name: str = "") -> str:
     """Get the appropriate model adaptor text for a model pool."""
     adaptor = MODEL_ADAPTORS.get(model_pool, "")
     if isinstance(adaptor, dict):
-        if "cerebras" in model_name or "llama" in model_name:
-            return adaptor.get("cerebras_llama", list(adaptor.values())[0])
-        return adaptor.get("gemini_flash", list(adaptor.values())[0])
+        if "gemini" in model_name:
+            return adaptor.get("gemini_flash", list(adaptor.values())[0])
+        return adaptor.get("deepseek", list(adaptor.values())[0])
     return adaptor
diff --git a/backend/services/llm_router.py b/backend/services/llm_router.py
@@ -23,59 +23,43 @@ def create_router() -> Router:
     """Create LiteLLM router with two model pools."""
     settings = get_settings()
 
+    or_key = settings.openrouter_api_key.get_secret_value()
+    gemini_key = settings.gemini_api_key.get_secret_value()
+
     model_list = [
-        # Pool A — simple/medium tasks (mutual fallback)
-        {
-            "model_name": "pool-a",
-            "litellm_params": {
-                "model": settings.model_pool_a_primary,
-                "api_key": settings.gemini_api_key.get_secret_value(),
-            },
-        },
-        {
-            "model_name": "pool-a",
-            "litellm_params": {
-                "model": settings.model_pool_a_fallback,
-                "api_key": settings.cerebras_api_key.get_secret_value(),
-            },
-        },
-        # Pool B — complex tasks (Anthropic → Gemini → Cerebras fallback chain)
-        {
-            "model_name": "pool-b",
-            "litellm_params": {
-                "model": settings.model_pool_b_default,
-                "api_key": settings.anthropic_api_key.get_secret_value(),
-            },
-        },
-        {
-            "model_name": "pool-b",
-            "litellm_params": {
-                "model": settings.model_pool_a_primary,
-                "api_key": settings.gemini_api_key.get_secret_value(),
-            },
-        },
-        {
-            "model_name": "pool-b",
-            "litellm_params": {
-                "model": settings.model_pool_a_fallback,
-                "api_key": settings.cerebras_api_key.get_secret_value(),
-            },
-        },
-        # Pool B upgrade — same fallback chain
-        {
-            "model_name": "pool-b-upgrade",
-            "litellm_params": {
-                "model": settings.model_pool_b_complex,
-                "api_key": settings.anthropic_api_key.get_secret_value(),
-            },
-        },
-        {
-            "model_name": "pool-b-upgrade",
-            "litellm_params": {
-                "model": settings.model_pool_a_primary,
-                "api_key": settings.gemini_api_key.get_secret_value(),
-            },
-        },
+        # Pool A — simple/medium tasks
+        # Primary: DeepSeek V3.2 via OpenRouter (cheap, stable, tool calling)
+        {"model_name": "pool-a", "litellm_params": {
+            "model": "openrouter/deepseek/deepseek-chat-v3-0324",
+            "api_key": or_key,
+        }},
+        # Fallback: Gemini Flash direct (free but sometimes unreliable)
+        {"model_name": "pool-a", "litellm_params": {
+            "model": "gemini/gemini-2.5-flash",
+            "api_key": gemini_key,
+        }},
+
+        # Pool B — complex tasks (reasoning, anomaly interpretation)
+        # Primary: DeepSeek V3.2 via OpenRouter
+        {"model_name": "pool-b", "litellm_params": {
+            "model": "openrouter/deepseek/deepseek-chat-v3-0324",
+            "api_key": or_key,
+        }},
+        # Fallback: free NVIDIA Nemotron via OpenRouter
+        {"model_name": "pool-b", "litellm_params": {
+            "model": "openrouter/nvidia/nemotron-3-super",
+            "api_key": or_key,
+        }},
+
+        # Pool B upgrade — deep reasoning
+        {"model_name": "pool-b-upgrade", "litellm_params": {
+            "model": "openrouter/anthropic/claude-haiku-4-5-20251001",
+            "api_key": or_key,
+        }},
+        {"model_name": "pool-b-upgrade", "litellm_params": {
+            "model": "openrouter/deepseek/deepseek-chat-v3-0324",
+            "api_key": or_key,
+        }},
     ]
 
     return Router(
diff --git a/frontend/src/components/Chat/ChatPanel.tsx b/frontend/src/components/Chat/ChatPanel.tsx
@@ -64,23 +64,21 @@ export function ChatPanel() {
         </div>
       </div>
 
-      {/* View switcher */}
+      {/* Panel overlays — shown above messages, not instead of */}
       {view === "csv" && (
-        <div className="flex-1 overflow-y-auto border-b">
+        <div className="border-b max-h-[40%] overflow-y-auto shrink-0">
           <CSVUpload />
         </div>
       )}
 
       {view === "metrics" && (
-        <div className="flex-1 overflow-y-auto">
+        <div className="border-b max-h-[60%] overflow-y-auto shrink-0">
           <MetricsPanel />
         </div>
       )}
 
-      {view === "chat" && (
-        <>
-          {/* Messages */}
-          <div className="flex-1 overflow-y-auto px-4 py-3 space-y-1">
+      {/* Messages — always visible */}
+      <div className="flex-1 overflow-y-auto px-4 py-3 space-y-1">
             {messages.length === 0 && !streamingText && (
               <div className="px-2 py-4">
                 {/* Welcome message styled as assistant bubble */}
@@ -151,8 +149,6 @@ export function ChatPanel() {
 
             <div ref={messagesEndRef} />
           </div>
-        </>
-      )}
 
       {/* Input — always visible */}
       <form onSubmit={handleSubmit} className="border-t px-4 py-3">