fix: update Ollama backend default URL to remove /v1 suffix and set chat mode default to True

NullPointerDepressiveDisorder · NullPointerDepressiveDisorder · commit 9ee796b1bb3f · 2026-04-17T07:00:15.000-07:00
diff --git a/docs/backends.md b/docs/backends.md
@@ -9,7 +9,7 @@
 | **mlx-lm**        | In-process | (local) | Local Apple Silicon inference with logprobs |
 | **llama-cpp**     | HTTP | `http://127.0.0.1:8080` | llama-server via `/completion` endpoint |
 | **vllm-mlx**      | HTTP | `http://127.0.0.1:8000` | Continuous batching on Apple Silicon |
-| **openai-compat** | HTTP | `http://127.0.0.1:11434/v1` | Any OpenAI-compatible server (vLLM, SGLang, Ollama) |
+| **openai-compat** | HTTP | `http://127.0.0.1:11434` | Any OpenAI-compatible server (vLLM, SGLang, Ollama) |
 
 ## mlx-lm
 
@@ -109,7 +109,7 @@ Generic backend for any server that implements the OpenAI API format. Works with
 
 | Model source | Default URL |
 |-------------|-------------|
-| Ollama tags (e.g., `llama3.1:8b`) | `http://127.0.0.1:11434/v1` |
+| Ollama tags (e.g., `llama3.1:8b`) | `http://127.0.0.1:11434` |
 | Custom server | Use `--base-url` |
 
 **Example with Ollama**:
diff --git a/src/infer_check/backends/base.py b/src/infer_check/backends/base.py
@@ -66,20 +66,20 @@ def get_backend(config: BackendConfig) -> BackendAdapter:
         return VLLMMLXBackend(
             model_id=config.model_id,
             base_url=url,
-            chat=config.extra.get("chat", False),
+            chat=config.extra.get("chat", True),
         )
     elif config.backend_type == "openai-compat":
         from infer_check.backends.openai_compat import OpenAICompatBackend
 
         if not config.base_url:
             raise ValueError(
-                "openai-compat backend requires --base-url. Example: --base-url http://127.0.0.1:11434/v1 (Ollama)"
+                "openai-compat backend requires --base-url. Example: --base-url http://127.0.0.1:11434 (Ollama)"
             )
         return OpenAICompatBackend(
             base_url=config.base_url,
             model_id=config.model_id,
             api_key=config.extra.get("api_key"),
-            chat=config.extra.get("chat", False),
+            chat=config.extra.get("chat", True),
         )
     else:
         supported = ", ".join(["mlx-lm", "llama-cpp", "vllm-mlx", "openai-compat"])
diff --git a/src/infer_check/cli.py b/src/infer_check/cli.py
@@ -384,14 +384,12 @@ def compare(
         model_id=resolved_a.model_id,
         quantization=resolved_a.label,
         base_url=resolved_a.base_url,
-        extra={"chat": False},
     )
     config_b = BackendConfig(
         backend_type=resolved_b.backend,
         model_id=resolved_b.model_id,
         quantization=resolved_b.label,
         base_url=resolved_b.base_url,
-        extra={"chat": False},
     )
     backend_a = get_backend(config_a)
     backend_b = get_backend(config_b)
diff --git a/src/infer_check/resolve.py b/src/infer_check/resolve.py
@@ -34,7 +34,7 @@
 
 # Default base URLs per backend (can be overridden via CLI).
 _DEFAULT_URLS: dict[BackendType, str] = {
-    "openai-compat": "http://127.0.0.1:11434/v1",  # Ollama
+    "openai-compat": "http://127.0.0.1:11434",  # Ollama (backend adds /v1/... paths)
     "llama-cpp": "http://127.0.0.1:8080",
     "vllm-mlx": "http://127.0.0.1:8000",
 }
diff --git a/tests/unit/test_resolve.py b/tests/unit/test_resolve.py
@@ -14,7 +14,7 @@ def test_ollama_prefix(self) -> None:
         r = resolve_model("ollama:llama3.1:8b-instruct-q4_K_M")
         assert r.backend == "openai-compat"
         assert r.model_id == "llama3.1:8b-instruct-q4_K_M"
-        assert r.base_url == "http://127.0.0.1:11434/v1"
+        assert r.base_url == "http://127.0.0.1:11434"
         assert r.label == "llama3.1:8b-instruct-q4_K_M"
 
     def test_mlx_prefix(self) -> None:
@@ -67,7 +67,7 @@ def test_mlx_keyword_heuristic(self) -> None:
     def test_ollama_style_tag(self) -> None:
         r = resolve_model("llama3.1:8b-instruct-q4_K_M")
         assert r.backend == "openai-compat"
-        assert r.base_url == "http://127.0.0.1:11434/v1"
+        assert r.base_url == "http://127.0.0.1:11434"
 
     def test_local_gguf_path(self, tmp_path: Path) -> None:
         gguf_file = tmp_path / "model-q4.gguf"

Original file line number	Diff line number	Diff line change
`@@ -34,7 +34,7 @@`
`34`	`34`
`35`	`35`	`# Default base URLs per backend (can be overridden via CLI).`
`36`	`36`	`_DEFAULT_URLS: dict[BackendType, str] = {`
`37`		`- "openai-compat": "http://127.0.0.1:11434/v1", # Ollama`
	`37`	`+ "openai-compat": "http://127.0.0.1:11434", # Ollama (backend adds /v1/... paths)`
`38`	`38`	`"llama-cpp": "http://127.0.0.1:8080",`
`39`	`39`	`"vllm-mlx": "http://127.0.0.1:8000",`
`40`	`40`	`}`