Merge branch 'main' into use-llamacpp-images

ilopezluna · ilopezluna · commit 4a4e6bc7bd30 · 2026-04-29T17:57:20.000+02:00
diff --git a/cmd/cli/desktop/api.go b/cmd/cli/desktop/api.go
@@ -47,10 +47,11 @@ type ImageURL struct {
 }
 
 type OpenAIChatRequest struct {
-	Model    string              `json:"model"`
-	Messages []OpenAIChatMessage `json:"messages"`
-	Stream   bool                `json:"stream"`
-	Tools    []Tool              `json:"tools,omitempty"`
+	Model     string              `json:"model"`
+	Messages  []OpenAIChatMessage `json:"messages"`
+	Stream    bool                `json:"stream"`
+	Tools     []Tool              `json:"tools,omitempty"`
+	MaxTokens *int                `json:"max_tokens,omitempty"`
 }
 
 type OpenAIChatResponse struct {
diff --git a/e2e/e2e_test.go b/e2e/e2e_test.go
@@ -316,13 +316,17 @@ func readSSE(t *testing.T, resp *http.Response) (content string, chunks int, got
 }
 
 // chatCompletion sends a non-streaming chat request and returns the response.
+// A small max_tokens cap is applied to prevent runaway generation from
+// causing test timeouts.
 func chatCompletion(t *testing.T, model, prompt string) desktop.OpenAIChatResponse {
 	t.Helper()
+	maxTokens := 64
 	status, body := doJSON(t, http.MethodPost, serverURL+"/engines/v1/chat/completions",
 		desktop.OpenAIChatRequest{
-			Model:    model,
-			Messages: []desktop.OpenAIChatMessage{{Role: "user", Content: prompt}},
-			Stream:   false,
+			Model:     model,
+			Messages:  []desktop.OpenAIChatMessage{{Role: "user", Content: prompt}},
+			Stream:    false,
+			MaxTokens: &maxTokens,
 		})
 	if status != http.StatusOK {
 		t.Fatalf("chat completion failed: status=%d body=%s", status, body)
@@ -335,12 +339,16 @@ func chatCompletion(t *testing.T, model, prompt string) desktop.OpenAIChatRespon
 }
 
 // streamingChatCompletion sends a streaming chat request and validates the SSE response.
+// A small max_tokens cap is applied to prevent runaway generation from
+// causing test timeouts.
 func streamingChatCompletion(t *testing.T, model, prompt string) string {
 	t.Helper()
+	maxTokens := 64
 	data, err := json.Marshal(desktop.OpenAIChatRequest{
-		Model:    model,
-		Messages: []desktop.OpenAIChatMessage{{Role: "user", Content: prompt}},
-		Stream:   true,
+		Model:     model,
+		Messages:  []desktop.OpenAIChatMessage{{Role: "user", Content: prompt}},
+		Stream:    true,
+		MaxTokens: &maxTokens,
 	})
 	if err != nil {
 		t.Fatalf("marshal: %v", err)
diff --git a/pkg/distribution/builder/from_directory.go b/pkg/distribution/builder/from_directory.go
@@ -233,6 +233,7 @@ func FromDirectory(dirPath string, opts ...DirectoryOption) (*Builder, error) {
 				config.GGUF = extracted.GGUF
 				config.Safetensors = extracted.Safetensors
 				config.Diffusers = extracted.Diffusers
+				config.ContextSize = extracted.ContextSize
 			}
 		}
 	}

Original file line number	Diff line number	Diff line change
`@@ -47,10 +47,11 @@ type ImageURL struct {`
`47`	`47`	`}`
`48`	`48`
`49`	`49`	`type OpenAIChatRequest struct {`
`50`		- Model string `json:"model"`
`51`		- Messages []OpenAIChatMessage `json:"messages"`
`52`		- Stream bool `json:"stream"`
`53`		- Tools []Tool `json:"tools,omitempty"`
	`50`	+ Model string `json:"model"`
	`51`	+ Messages []OpenAIChatMessage `json:"messages"`
	`52`	+ Stream bool `json:"stream"`
	`53`	+ Tools []Tool `json:"tools,omitempty"`
	`54`	+ MaxTokens *int `json:"max_tokens,omitempty"`
`54`	`55`	`}`
`55`	`56`
`56`	`57`	`type OpenAIChatResponse struct {`
Original file line number	Diff line number	Diff line change
`@@ -233,6 +233,7 @@ func FromDirectory(dirPath string, opts ...DirectoryOption) (*Builder, error) {`
`233`	`233`	`config.GGUF = extracted.GGUF`
`234`	`234`	`config.Safetensors = extracted.Safetensors`
`235`	`235`	`config.Diffusers = extracted.Diffusers`
	`236`	`+ config.ContextSize = extracted.ContextSize`
`236`	`237`	`}`
`237`	`238`	`}`
`238`	`239`	`}`