Add new cloud models and XAI reasoning support

Madzionator · Madzionator · commit aba6c2eca799 · 2026-04-14T14:12:26.000+02:00
Introduce multiple new cloud model definitions and update Groq model constants, plus implement streaming parsing in XaiService.

Changes include:
- Added Gemini NanoBanana and several xAI models (Grok 4.20/4.1 variants, GrokImagine image/pro) and new Groq models (Llama3_3_70b, GptOss120b). Renamed constant Llama3_1_8bInstant -&gt; Llama3_1_8b and added DeepSeek Chat; increased DeepSeek Reasoner token limit.
- Updated example and integration tests to use the renamed Groq model constant.
- Added ProcessChatCompletionChunk in XaiService to handle streaming content, incremental reasoning deltas, and encrypted reasoning blobs; added JSON helper types and System.Text.Json imports to support parsing.

These changes add support for new backends/models and improve handling of xAI streaming/ reasoning responses.
diff --git a/Examples/Examples/Chat/ChatExampleGroqCloud.cs b/Examples/Examples/Chat/ChatExampleGroqCloud.cs
@@ -12,7 +12,7 @@ public async Task Start()
         Console.WriteLine("(GroqCloud) ChatExample is running!");
 
         await AIHub.Chat()
-            .WithModel(Models.Groq.Llama3_1_8bInstant)
+            .WithModel(Models.Groq.Llama3_1_8b)
             .WithMessage("Which color do people like the most?")
             .CompleteAsync(interactive: true);
     }
diff --git a/MaIN.Core.IntegrationTests/BackendParamsTests.cs b/MaIN.Core.IntegrationTests/BackendParamsTests.cs
@@ -106,7 +106,7 @@ public async Task GroqCloud_Should_RespondWithParams()
         SkipIfMissingKey(LLMApiRegistry.GetEntry(BackendType.GroqCloud)?.ApiKeyEnvName!);
 
         var result = await AIHub.Chat()
-            .WithModel(Models.Groq.Llama3_1_8bInstant)
+            .WithModel(Models.Groq.Llama3_1_8b)
             .WithMessage(TestQuestion)
             .WithInferenceParams(new GroqCloudInferenceParams
             {
@@ -278,7 +278,7 @@ public async Task GroqCloud_Should_ThrowWhenGivenWrongParams()
     {
         await Assert.ThrowsAsync<InvalidBackendParamsException>(() =>
             AIHub.Chat()
-                .WithModel(Models.Groq.Llama3_1_8bInstant)
+                .WithModel(Models.Groq.Llama3_1_8b)
                 .WithMessage(TestQuestion)
                 .WithInferenceParams(new OpenAiInferenceParams())
                 .CompleteAsync());
diff --git a/src/MaIN.Domain/Models/Concrete/CloudModels.cs b/src/MaIN.Domain/Models/Concrete/CloudModels.cs
@@ -110,6 +110,13 @@ public sealed record GeminiImagen4_0FastGenerate() : CloudModel(
     4000,
     "Google's fast image generation model via Gemini API"), IImageGenerationModel;
 
+public sealed record GeminiNanoBanana() : CloudModel(
+    Models.Gemini.NanoBanana,
+    BackendType.Gemini,
+    "Gemini 2.5 Flash Image (NanoBanana)",
+    130000,
+    "Google’s high-speed, high-fidelity image generation via Gemini API."), IImageGenerationModel;
+
 // ===== Vertex AI Models =====
 
 public sealed record VertexGemini2_5Pro() : CloudModel(
@@ -148,6 +155,50 @@ public sealed record VertexImagen4_0Generate() : CloudModel(
 
 // ===== xAI Models =====
 
+public sealed record Grok4_20Reasoning() : CloudModel(
+    Models.Xai.Grok4_20Reasoning,
+    BackendType.Xai,
+    "Grok 4.20 reasoning",
+    2_000_000,
+    "A xai flagship model, offering fast, agentic tool use with low hallucination and strong prompt adherence for precise, reliable responses."), IVisionModel, IReasoningModel
+{
+    public string? MMProjectName => null;
+    public Func<string, ThinkingState, LLMTokenValue>? ReasonFunction => null;
+    public string? AdditionalPrompt => null;
+}
+
+public sealed record Grok4_20NonReasoning() : CloudModel(
+    Models.Xai.Grok4_20NonReasoning,
+    BackendType.Xai,
+    "Grok 4.20 non reasoning",
+    2_000_000,
+    "A xai flagship model, offering fast, agentic tool use with low hallucination and strong prompt adherence for precise, reliable responses."), IVisionModel
+{
+    public string? MMProjectName => null;
+}
+
+public sealed record Grok4_1FastReasoning() : CloudModel(
+    Models.Xai.Grok4_1FastReasoning,
+    BackendType.Xai,
+    "Grok 4.1 fast reasoning",
+    2_000_000,
+    "A xai multimodal model optimized specifically for high-performance agentic tool calling"), IVisionModel, IReasoningModel
+{
+    public string? MMProjectName => null;
+    public Func<string, ThinkingState, LLMTokenValue>? ReasonFunction => null;
+    public string? AdditionalPrompt => null;
+}
+
+public sealed record Grok4_1Fast() : CloudModel(
+    Models.Xai.Grok4_1FastNonReasoning,
+    BackendType.Xai,
+    "Grok 4.1 fast",
+    2_000_000,
+    "A xai multimodal model optimized specifically for high-performance agentic tool calling"), IVisionModel
+{
+    public string? MMProjectName => null;
+}
+
 public sealed record Grok3Beta() : CloudModel(
     Models.Xai.Grok3Beta,
     BackendType.Xai,
@@ -165,35 +216,76 @@ public sealed record GrokImage() : CloudModel(
     4000,
     "xAI image generation model"), IImageGenerationModel;
 
+public sealed record GrokImagineImage() : CloudModel(
+    Models.Xai.GrokImagineImage,
+    BackendType.Xai,
+    "Grok Imagine Image",
+    4000,
+    "xAI image generation model"), IImageGenerationModel, IVisionModel
+{
+    public string? MMProjectName => null;
+}
+
+public sealed record GrokImagineImagePro() : CloudModel(
+    Models.Xai.GrokImagineImagePro,
+    BackendType.Xai,
+    "Grok Imagine Image Pro",
+    4000,
+    "xAI image generation model"), IImageGenerationModel, IVisionModel
+{
+    public string? MMProjectName => null;
+}
+
 // ===== GroqCloud Models =====
 
 public sealed record Llama3_1_8bInstant() : CloudModel(
-    Models.Groq.Llama3_1_8bInstant,
+    Models.Groq.Llama3_1_8b,
     BackendType.GroqCloud,
     "Llama 3.1 8B Instant",
     8192,
     "Meta Llama 3.1 8B model optimized for fast inference on Groq hardware");
 
+public sealed record Llama3_3_70bVersatile() : CloudModel(
+    Models.Groq.Llama3_3_70b,
+    BackendType.GroqCloud,
+    "Llama 3.3 70B Versatile",
+    130_000,
+    "Meta's efficient, high-performance multilingual language model");
+
 public sealed record GptOss20b() : CloudModel(
     Models.Groq.GptOss20b,
     BackendType.GroqCloud,
     "GPT OSS 20B",
     8192,
     "Open-source 20B parameter GPT model running on Groq infrastructure");
 
+public sealed record GptOss120b() : CloudModel(
+    Models.Groq.GptOss120b,
+    BackendType.GroqCloud,
+    "GPT OSS 120B",
+    130_000,
+    "Open-source 120B parameter GPT model running on Groq infrastructure");
+
 // ===== DeepSeek Models =====
 
 public sealed record DeepSeekReasoner() : CloudModel(
     Models.DeepSeek.Reasoner,
     BackendType.DeepSeek,
     "DeepSeek Reasoner",
-    64000,
+    128_000,
     "DeepSeek reasoning-focused model for complex problem solving"), IReasoningModel
 {
     public Func<string, ThinkingState, LLMTokenValue>? ReasonFunction => null;
     public string? AdditionalPrompt => null;
 }
 
+public sealed record DeepSeekChat() : CloudModel(
+    Models.DeepSeek.Chat,
+    BackendType.DeepSeek,
+    "DeepSeek Chat",
+    128_000,
+    "DeepSeek model for complex problem solving");
+
 // ===== Ollama Models =====
 
 public sealed record OllamaGemma3_4b() : CloudModel(
diff --git a/src/MaIN.Domain/Models/Models.cs b/src/MaIN.Domain/Models/Models.cs
@@ -27,22 +27,32 @@ public static class Gemini
         public const string Gemini2_5Flash = "gemini-2.5-flash";
         public const string Gemini2_0Flash = "gemini-2.0-flash";
         public const string Imagen4_0_FastGenerate = "imagen-4.0-fast-generate-001";
+        public const string NanoBanana = "gemini-2.5-flash-image";
     }
 
     public static class Xai
     {
+        public const string Grok4_20Reasoning = "grok-4.20-reasoning";
+        public const string Grok4_20NonReasoning = "grok-4.20-non-reasoning";
+        public const string Grok4_1FastReasoning = "grok-4-1-fast-reasoning";
+        public const string Grok4_1FastNonReasoning = "grok-4-1-fast-non-reasoning";
+        public const string GrokImagineImage = "grok-imagine-image";
+        public const string GrokImagineImagePro = "grok-imagine-image-pro";
         public const string Grok3Beta = "grok-3-beta";
         public const string GrokImage = "grok-2-image";
     }
 
     public static class Groq
     {
-        public const string Llama3_1_8bInstant = "llama-3.1-8b-instant";
+        public const string Llama3_1_8b = "llama-3.1-8b-instant";
+        public const string Llama3_3_70b = "llama-3.3-70b-versatile";
         public const string GptOss20b = "openai/gpt-oss-20b";
+        public const string GptOss120b = "openai/gpt-oss-120b";
     }
 
     public static class DeepSeek
     {
+        public const string Chat = "deepseek-chat";
         public const string Reasoner = "deepseek-reasoner";
     }
 
diff --git a/src/MaIN.Services/Services/LLMService/XaiService.cs b/src/MaIN.Services/Services/LLMService/XaiService.cs
@@ -6,7 +6,11 @@
 using MaIN.Services.Services.LLMService.Memory;
 using Microsoft.Extensions.Logging;
 using System.Text;
+using System.Text.Json;
+using System.Text.Json.Serialization;
 using MaIN.Domain.Exceptions;
+using MaIN.Domain.Models;
+using MaIN.Domain.Models.Abstract;
 using MaIN.Domain.Models.Concrete;
 using MaIN.Domain.Configuration.BackendInferenceParams;
 
@@ -54,6 +58,30 @@ protected override void ApplyBackendParams(Dictionary<string, object> requestBod
         if (p.PresencePenalty.HasValue) requestBody["presence_penalty"] = p.PresencePenalty.Value;
     }
 
+    protected override LLMTokenValue? ProcessChatCompletionChunk(string data)
+    {
+        var chunk = JsonSerializer.Deserialize<XaiCompletionChunk>(data,
+            new JsonSerializerOptions { PropertyNameCaseInsensitive = true });
+
+        // Streaming delta — regular content
+        var content = chunk?.Choices?.FirstOrDefault()?.Delta?.Content;
+        if (!string.IsNullOrEmpty(content))
+            return new LLMTokenValue { Text = content, Type = TokenType.Message };
+
+        // Streaming delta — incremental reasoning (grok-4.20-reasoning style)
+        var deltaReasoning = chunk?.Choices?.FirstOrDefault()?.Delta?.ReasoningContent;
+        if (!string.IsNullOrEmpty(deltaReasoning))
+            return new LLMTokenValue { Text = deltaReasoning, Type = TokenType.Reason };
+
+        // Final completion event — encrypted reasoning blob (grok-4-1-fast-reasoning style)
+        // message.content is intentionally ignored (already assembled from streaming chunks above)
+        var encryptedReasoning = chunk?.Reasoning?.EncryptedContent;
+        if (!string.IsNullOrEmpty(encryptedReasoning))
+            return new LLMTokenValue { Text = encryptedReasoning, Type = TokenType.Reason };
+
+        return null;
+    }
+
     public override async Task<ChatResult?> AskMemory(
         Chat chat,
         ChatMemoryOptions memoryOptions,
@@ -91,4 +119,29 @@ private string ComposeMessage(Message lastMsg, string[] filePaths)
         stringBuilder.Append(lastMsg.Content);
         return stringBuilder.ToString();
     }
+}
+
+file class XaiCompletionChunk
+{
+    public List<XaiChoiceChunk>? Choices { get; set; }
+    public XaiReasoning? Reasoning { get; set; }
+}
+
+file class XaiChoiceChunk
+{
+    public XaiDelta? Delta { get; set; }
+}
+
+file class XaiDelta
+{
+    public string? Content { get; set; }
+
+    [JsonPropertyName("reasoning_content")]
+    public string? ReasoningContent { get; set; }
+}
+
+file class XaiReasoning
+{
+    [JsonPropertyName("encrypted_content")]
+    public string? EncryptedContent { get; set; }
 }

Original file line number	Diff line number	Diff line change
`@@ -12,7 +12,7 @@ public async Task Start()`
`12`	`12`	`Console.WriteLine("(GroqCloud) ChatExample is running!");`
`13`	`13`
`14`	`14`	`await AIHub.Chat()`
`15`		`- .WithModel(Models.Groq.Llama3_1_8bInstant)`
	`15`	`+ .WithModel(Models.Groq.Llama3_1_8b)`
`16`	`16`	`.WithMessage("Which color do people like the most?")`
`17`	`17`	`.CompleteAsync(interactive: true);`
`18`	`18`	`}`
Original file line number	Diff line number	Diff line change
`@@ -27,22 +27,32 @@ public static class Gemini`
`27`	`27`	`public const string Gemini2_5Flash = "gemini-2.5-flash";`
`28`	`28`	`public const string Gemini2_0Flash = "gemini-2.0-flash";`
`29`	`29`	`public const string Imagen4_0_FastGenerate = "imagen-4.0-fast-generate-001";`
	`30`	`+ public const string NanoBanana = "gemini-2.5-flash-image";`
`30`	`31`	`}`
`31`	`32`
`32`	`33`	`public static class Xai`
`33`	`34`	`{`
	`35`	`+ public const string Grok4_20Reasoning = "grok-4.20-reasoning";`
	`36`	`+ public const string Grok4_20NonReasoning = "grok-4.20-non-reasoning";`
	`37`	`+ public const string Grok4_1FastReasoning = "grok-4-1-fast-reasoning";`
	`38`	`+ public const string Grok4_1FastNonReasoning = "grok-4-1-fast-non-reasoning";`
	`39`	`+ public const string GrokImagineImage = "grok-imagine-image";`
	`40`	`+ public const string GrokImagineImagePro = "grok-imagine-image-pro";`
`34`	`41`	`public const string Grok3Beta = "grok-3-beta";`
`35`	`42`	`public const string GrokImage = "grok-2-image";`
`36`	`43`	`}`
`37`	`44`
`38`	`45`	`public static class Groq`
`39`	`46`	`{`
`40`		`- public const string Llama3_1_8bInstant = "llama-3.1-8b-instant";`
	`47`	`+ public const string Llama3_1_8b = "llama-3.1-8b-instant";`
	`48`	`+ public const string Llama3_3_70b = "llama-3.3-70b-versatile";`
`41`	`49`	`public const string GptOss20b = "openai/gpt-oss-20b";`
	`50`	`+ public const string GptOss120b = "openai/gpt-oss-120b";`
`42`	`51`	`}`
`43`	`52`
`44`	`53`	`public static class DeepSeek`
`45`	`54`	`{`
	`55`	`+ public const string Chat = "deepseek-chat";`
`46`	`56`	`public const string Reasoner = "deepseek-reasoner";`
`47`	`57`	`}`
`48`	`58`