feat: make LLM model and rate limits configurable via env vars

GeneralJerel · claude · GeneralJerel · commit 66603a0798fd · 2026-03-24T11:46:57.000-07:00
- LLM_MODEL env var in agent (defaults to gpt-5.4-2026-03-05)
- RATE_LIMIT_WINDOW_MS and RATE_LIMIT_MAX env vars (defaults 60s/40 req)
- README callout: strong models required for generative UI (GPT-5.4,
  Claude Opus 4.6, Gemini 3.1 Pro)

Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/.env.example b/.env.example
@@ -1 +1,9 @@
-OPENAI_API_KEY=
+OPENAI_API_KEY=
+
+# LLM model — strong models are required for reliable UI generation
+# Recommended: gpt-5.4, gpt-5.4-pro, claude-opus-4-6, gemini-3.1-pro
+LLM_MODEL=gpt-5.4-2026-03-05
+
+# Rate limiting (per IP)
+RATE_LIMIT_WINDOW_MS=60000
+RATE_LIMIT_MAX=40
diff --git a/README.md b/README.md
@@ -23,6 +23,16 @@ make setup    # Install deps + create .env template
 make dev      # Start all services
 ```
 
+> **Strong models required.** Generative UI demands high-capability models that can produce complex, well-structured HTML/SVG in a single pass. Set `LLM_MODEL` in your `.env` to one of:
+>
+> | Model | Provider |
+> |-------|----------|
+> | `gpt-5.4` / `gpt-5.4-pro` | OpenAI |
+> | `claude-opus-4-6` | Anthropic |
+> | `gemini-3.1-pro` | Google |
+>
+> Smaller or weaker models will produce broken layouts, missing interactivity, or incomplete visualizations.
+
 - **App**: http://localhost:3000
 - **Agent**: http://localhost:8123
 
diff --git a/apps/agent/main.py b/apps/agent/main.py
@@ -3,6 +3,8 @@
 It defines the workflow graph, state, tools, nodes and edges.
 """
 
+import os
+
 from copilotkit import CopilotKitMiddleware
 from langchain.agents import create_agent
 from langchain_openai import ChatOpenAI
@@ -17,7 +19,7 @@
 _skills_text = load_all_skills()
 
 agent = create_agent(
-    model=ChatOpenAI(model="gpt-5.4-2026-03-05"),
+    model=ChatOpenAI(model=os.environ.get("LLM_MODEL", "gpt-5.4-2026-03-05")),
     tools=[query_data, *todo_tools, generate_form, *template_tools],
     middleware=[CopilotKitMiddleware()],
     state_schema=AgentState,
diff --git a/apps/app/src/app/api/copilotkit/route.ts b/apps/app/src/app/api/copilotkit/route.ts
@@ -7,8 +7,8 @@ import { LangGraphAgent } from "@copilotkit/runtime/langgraph";
 import { NextRequest } from "next/server";
 
 // Simple sliding-window rate limiter (per IP)
-const RATE_LIMIT_WINDOW_MS = 60_000; // 1 minute
-const RATE_LIMIT_MAX = 20;           // max requests per window
+const RATE_LIMIT_WINDOW_MS = Number(process.env.RATE_LIMIT_WINDOW_MS) || 60_000;
+const RATE_LIMIT_MAX = Number(process.env.RATE_LIMIT_MAX) || 40;
 const hits = new Map<string, number[]>();
 
 function isRateLimited(ip: string): boolean {