perf: skip redundant openai request serialization (#160)

SasSwart · web-flow · commit 9e2857aaac8f · 2026-02-02T15:55:42.000+02:00
* use dannykopping/anthropic-sdk-go to avoid appendCompact

* make fmt

* perf: use the more efficient sasswart/openai-go

* perf: avoid an unncecessary json unmarshal when we intercept chat completions requests

* perf: reduce allocations when creating chat completions interceptors

* uncomment benchmark

* make fmt

* update openai-go dependency

* chore: document why we replace llm provider sdks
diff --git a/go.mod b/go.mod
@@ -18,6 +18,7 @@ require (
 	go.uber.org/goleak v1.3.0
 	go.uber.org/mock v0.6.0
 	golang.org/x/exp v0.0.0-20250819193227-8b4c13bb791b
+	golang.org/x/sync v0.16.0
 	golang.org/x/tools v0.36.0
 )
 
@@ -88,4 +89,9 @@ require (
 	gopkg.in/yaml.v3 v3.0.1 // indirect
 )
 
+// Replace sdks with our own optimized forks until relevant upstream PRs are merged.
+// https://github.com/anthropics/anthropic-sdk-go/pull/262
 replace github.com/anthropics/anthropic-sdk-go v1.13.0 => github.com/dannykopping/anthropic-sdk-go v0.0.0-20251230111224-88a4315810bd
+
+// https://github.com/openai/openai-go/pull/602
+replace github.com/openai/openai-go/v3 => github.com/SasSwart/openai-go/v3 v3.0.0-20260202093810-72af3b857f95
diff --git a/go.sum b/go.sum
@@ -7,6 +7,8 @@ cloud.google.com/go/logging v1.8.1 h1:26skQWPeYhvIasWKm48+Eq7oUqdcdbwsCVwz5Ys0Fv
 cloud.google.com/go/logging v1.8.1/go.mod h1:TJjR+SimHwuC8MZ9cjByQulAMgni+RkXeI3wwctHJEI=
 cloud.google.com/go/longrunning v0.5.1 h1:Fr7TXftcqTudoyRJa113hyaqlGdiBQkp0Gq7tErFDWI=
 cloud.google.com/go/longrunning v0.5.1/go.mod h1:spvimkwdz6SPWKEt/XBij79E9fiTkHSQl/fRUUQJYJc=
+github.com/SasSwart/openai-go/v3 v3.0.0-20260202093810-72af3b857f95 h1:HVJp3FanNaeFAlwg0/lkdkSnwFemHnwwjXBM8KRj540=
+github.com/SasSwart/openai-go/v3 v3.0.0-20260202093810-72af3b857f95/go.mod h1:cdufnVK14cWcT9qA1rRtrXx4FTRsgbDPW7Ia7SS5cZo=
 github.com/aws/aws-sdk-go-v2 v1.30.3 h1:jUeBtG0Ih+ZIFH0F4UkmL9w3cSpaMv9tYYDbzILP8dY=
 github.com/aws/aws-sdk-go-v2 v1.30.3/go.mod h1:nIQjQVp5sfpQcTc9mPSr1B0PaWK5ByX9MOoDadSN4lc=
 github.com/aws/aws-sdk-go-v2/aws/protocol/eventstream v1.6.3 h1:tW1/Rkad38LA15X4UQtjXZXNKsCgkshC3EbmcUmghTg=
@@ -94,8 +96,6 @@ github.com/muesli/termenv v0.15.2 h1:GohcuySI0QmI3wN8Ok9PtKGkgkFIk7y6Vpb5PvrY+Wo
 github.com/muesli/termenv v0.15.2/go.mod h1:Epx+iuz8sNs7mNKhxzH4fWXGNpZwUaJKRS1noLXviQ8=
 github.com/munnerz/goautoneg v0.0.0-20191010083416-a7dc8b61c822 h1:C3w9PqII01/Oq1c1nUAm88MOHcQC9l5mIlSMApZMrHA=
 github.com/munnerz/goautoneg v0.0.0-20191010083416-a7dc8b61c822/go.mod h1:+n7T8mK8HuQTcFwEeznm/DIxMOiR9yIdICNftLE1DvQ=
-github.com/openai/openai-go/v3 v3.15.0 h1:hk99rM7YPz+M99/5B/zOQcVwFRLLMdprVGx1vaZ8XMo=
-github.com/openai/openai-go/v3 v3.15.0/go.mod h1:cdufnVK14cWcT9qA1rRtrXx4FTRsgbDPW7Ia7SS5cZo=
 github.com/pmezard/go-difflib v1.0.1-0.20181226105442-5d4384ee4fb2 h1:Jamvg5psRIccs7FGNTlIRMkT8wgtp5eCXdBlqhYGL6U=
 github.com/pmezard/go-difflib v1.0.1-0.20181226105442-5d4384ee4fb2/go.mod h1:iKH77koFhYxTK1pcRnkKkqfTogsbg7gZNVY4sRDYZ/4=
 github.com/prometheus/client_golang v1.23.2 h1:Je96obch5RDVy3FDMndoUsjAhG5Edi49h0RJWRi/o0o=
@@ -155,6 +155,8 @@ golang.org/x/exp v0.0.0-20250819193227-8b4c13bb791b h1:DXr+pvt3nC887026GRP39Ej11
 golang.org/x/exp v0.0.0-20250819193227-8b4c13bb791b/go.mod h1:4QTo5u+SEIbbKW1RacMZq1YEfOBqeXa19JeshGi+zc4=
 golang.org/x/net v0.43.0 h1:lat02VYK2j4aLzMzecihNvTlJNQUq316m2Mr9rnM6YE=
 golang.org/x/net v0.43.0/go.mod h1:vhO1fvI4dGsIjh73sWfUVjj3N7CA9WkKJNQm2svM6Jg=
+golang.org/x/sync v0.16.0 h1:ycBJEhp9p4vXvUZNszeOq0kGTPghopOL8q0fq3vstxw=
+golang.org/x/sync v0.16.0/go.mod h1:1dzgHSNfp02xaA81J2MS99Qcpr2w7fw1gpm99rleRqA=
 golang.org/x/sys v0.6.0/go.mod h1:oPkhp1MJrh7nUepCBck5+mAzfO9JrbApNNgaTdGDITg=
 golang.org/x/sys v0.35.0 h1:vz1N37gP5bs89s7He8XuIYXpyY0+QlsKmzipCbUtyxI=
 golang.org/x/sys v0.35.0/go.mod h1:BJP2sWEmIv4KK5OTEluFJCKSidICx8ciO85XgH3Ak8k=
diff --git a/intercept/chatcompletions/paramswrap.go b/intercept/chatcompletions/paramswrap.go
@@ -6,6 +6,7 @@ import (
 	"github.com/coder/aibridge/utils"
 	"github.com/openai/openai-go/v3"
 	"github.com/openai/openai-go/v3/packages/param"
+	"github.com/tidwall/gjson"
 )
 
 // ChatCompletionNewParamsWrapper exists because the "stream" param is not included in openai.ChatCompletionNewParams.
@@ -27,14 +28,10 @@ func (c *ChatCompletionNewParamsWrapper) UnmarshalJSON(raw []byte) error {
 		return err
 	}
 
-	if stream := utils.ExtractJSONField[bool](raw, "stream"); stream {
-		c.Stream = stream
-		if c.Stream {
-			c.ChatCompletionNewParams.StreamOptions = openai.ChatCompletionStreamOptionsParam{
-				IncludeUsage: openai.Bool(true), // Always include usage when streaming.
-			}
-		} else {
-			c.ChatCompletionNewParams.StreamOptions = openai.ChatCompletionStreamOptionsParam{}
+	c.Stream = gjson.GetBytes(raw, "stream").Bool()
+	if c.Stream {
+		c.ChatCompletionNewParams.StreamOptions = openai.ChatCompletionStreamOptionsParam{
+			IncludeUsage: openai.Bool(true), // Always include usage when streaming.
 		}
 	} else {
 		c.ChatCompletionNewParams.StreamOptions = openai.ChatCompletionStreamOptionsParam{}
diff --git a/intercept/chatcompletions/paramswrap_test.go b/intercept/chatcompletions/paramswrap_test.go
@@ -1,6 +1,8 @@
 package chatcompletions
 
 import (
+	"fmt"
+	"strings"
 	"testing"
 
 	"github.com/openai/openai-go/v3"
@@ -130,3 +132,41 @@ func TestOpenAILastUserPrompt(t *testing.T) {
 		})
 	}
 }
+
+// generatePayload creates a JSON payload with the specified number of messages.
+// Messages alternate between user and assistant roles to simulate a conversation.
+func generatePayload(messageCount int) []byte {
+	var messages []string
+	for i := range messageCount {
+		role := "user"
+		if i%2 == 1 {
+			role = "assistant"
+		}
+		// Use realistic message content size
+		content := fmt.Sprintf("This is message number %d with some realistic content that might appear in a conversation.", i+1)
+		messages = append(messages, fmt.Sprintf(`{"role": "%s", "content": "%s"}`, role, content))
+	}
+
+	return []byte(fmt.Sprintf(`{
+		"model": "gpt-4",
+		"stream": true,
+		"messages": [%s]
+	}`, strings.Join(messages, ",")))
+}
+
+func BenchmarkChatCompletionNewParamsWrapper_UnmarshalJSON(b *testing.B) {
+	messageCounts := []int{1, 10, 20, 50}
+
+	for _, count := range messageCounts {
+		payload := generatePayload(count)
+
+		b.Run(fmt.Sprintf("messages=%d", count), func(b *testing.B) {
+			b.ReportAllocs()
+			b.ResetTimer()
+			for range b.N {
+				var wrapper ChatCompletionNewParamsWrapper
+				_ = wrapper.UnmarshalJSON(payload)
+			}
+		})
+	}
+}
diff --git a/provider/openai.go b/provider/openai.go
@@ -87,17 +87,12 @@ func (p *OpenAI) CreateInterceptor(w http.ResponseWriter, r *http.Request, trace
 	_, span := tracer.Start(r.Context(), "Intercept.CreateInterceptor")
 	defer tracing.EndSpanErr(span, &outErr)
 
-	payload, err := io.ReadAll(r.Body)
-	if err != nil {
-		return nil, fmt.Errorf("read body: %w", err)
-	}
-
 	var interceptor intercept.Interceptor
 
 	switch r.URL.Path {
 	case routeChatCompletions:
 		var req chatcompletions.ChatCompletionNewParamsWrapper
-		if err := json.Unmarshal(payload, &req); err != nil {
+		if err := json.NewDecoder(r.Body).Decode(&req); err != nil {
 			return nil, fmt.Errorf("unmarshal request body: %w", err)
 		}
 
@@ -108,6 +103,10 @@ func (p *OpenAI) CreateInterceptor(w http.ResponseWriter, r *http.Request, trace
 		}
 
 	case routeResponses:
+		payload, err := io.ReadAll(r.Body)
+		if err != nil {
+			return nil, fmt.Errorf("read body: %w", err)
+		}
 		var req responses.ResponsesNewParamsWrapper
 		if err := json.Unmarshal(payload, &req); err != nil {
 			return nil, fmt.Errorf("unmarshal request body: %w", err)
diff --git a/provider/openai_test.go b/provider/openai_test.go
@@ -0,0 +1,232 @@
+package provider
+
+import (
+	"bytes"
+	"encoding/json"
+	"fmt"
+	"net/http"
+	"net/http/httptest"
+	"strings"
+	"testing"
+
+	"github.com/coder/aibridge/config"
+	"go.opentelemetry.io/otel/trace/noop"
+	"golang.org/x/sync/errgroup"
+)
+
+type message struct {
+	Role    string
+	Content string
+}
+
+type providerStrategy interface {
+	DefaultModel() string
+	formatMessages(messages []message) []any
+	buildRequestBody(model string, messages []any, stream bool) map[string]any
+}
+type responsesProvider struct{}
+
+func (*responsesProvider) DefaultModel() string {
+	return "gpt-5"
+}
+
+func (*responsesProvider) formatMessages(messages []message) []any {
+	formatted := make([]any, 0, len(messages))
+	for _, msg := range messages {
+		formatted = append(formatted, map[string]any{
+			"type":    "message",
+			"role":    msg.Role,
+			"content": msg.Content,
+		})
+	}
+	return formatted
+}
+
+func (*responsesProvider) buildRequestBody(model string, messages []any, stream bool) map[string]any {
+	return map[string]any{
+		"model":  model,
+		"input":  messages,
+		"stream": stream,
+	}
+}
+
+type chatCompletionsProvider struct{}
+
+func (*chatCompletionsProvider) DefaultModel() string {
+	return "gpt-4"
+}
+
+func (*chatCompletionsProvider) formatMessages(messages []message) []any {
+	formatted := make([]any, 0, len(messages))
+	for _, msg := range messages {
+		formatted = append(formatted, map[string]string{
+			"role":    msg.Role,
+			"content": msg.Content,
+		})
+	}
+	return formatted
+}
+
+func (*chatCompletionsProvider) buildRequestBody(model string, messages []any, stream bool) map[string]any {
+	return map[string]any{
+		"model":    model,
+		"messages": messages,
+		"stream":   stream,
+	}
+}
+
+func generateConversation(provider providerStrategy, targetSize int, numMessages int) []any {
+	if targetSize <= 0 {
+		return nil
+	}
+	if numMessages < 1 {
+		numMessages = 1
+	}
+
+	roles := []string{"user", "assistant"}
+	messages := make([]message, numMessages)
+	for i := range messages {
+		messages[i].Role = roles[i%2]
+	}
+	// Ensure last message is from user (required for LLM APIs).
+	if messages[len(messages)-1].Role != "user" {
+		messages[len(messages)-1].Role = "user"
+	}
+
+	overhead := measureJSONSize(provider.formatMessages(messages))
+
+	bytesPerMessage := targetSize - overhead
+	if bytesPerMessage < 0 {
+		bytesPerMessage = 0
+	}
+
+	perMessage := bytesPerMessage / len(messages)
+	remainder := bytesPerMessage % len(messages)
+
+	for i := range messages {
+		size := perMessage
+		if i == len(messages)-1 {
+			size += remainder
+		}
+		messages[i].Content = strings.Repeat("x", size)
+	}
+
+	return provider.formatMessages(messages)
+}
+
+func measureJSONSize(v any) int {
+	data, err := json.Marshal(v)
+	if err != nil {
+		return 0
+	}
+	return len(data)
+}
+
+// generateChatCompletionsPayload creates a JSON payload with the specified number of messages.
+// Messages alternate between user and assistant roles to simulate a conversation.
+func generateChatCompletionsPayload(payloadSize int, messageCount int, stream bool) []byte {
+	provider := &chatCompletionsProvider{}
+	messages := generateConversation(provider, payloadSize, messageCount)
+
+	body := provider.buildRequestBody(provider.DefaultModel(), messages, stream)
+	bodyBytes, err := json.Marshal(body)
+	if err != nil {
+		panic(err)
+	}
+	return bodyBytes
+}
+
+// generateResponsesPayload creates a JSON payload for the responses API with the specified number of input items.
+// Input items alternate between user and assistant roles to simulate a conversation.
+func generateResponsesPayload(payloadSize int, inputCount int, stream bool) []byte {
+	provider := &responsesProvider{}
+	inputs := generateConversation(provider, payloadSize, inputCount)
+
+	body := provider.buildRequestBody(provider.DefaultModel(), inputs, stream)
+	bodyBytes, err := json.Marshal(body)
+	if err != nil {
+		panic(err)
+	}
+	return bodyBytes
+}
+
+func BenchmarkOpenAI_CreateInterceptor_ChatCompletions(b *testing.B) {
+	provider := NewOpenAI(config.OpenAI{
+		BaseURL: "https://api.openai.com/v1/",
+		Key:     "test-key",
+	})
+
+	tracer := noop.NewTracerProvider().Tracer("test")
+	messagesPerRequest := 50
+	requestCount := 100
+	maxConcurrentRequests := 10
+	payloadSizes := []int{2000, 10000, 50000, 100000, 2000000}
+	for _, payloadSize := range payloadSizes {
+		for _, stream := range []bool{true, false} {
+			payload := generateChatCompletionsPayload(payloadSize, messagesPerRequest, stream)
+			name := fmt.Sprintf("stream=%t/payloadSize=%d/requests=%d", stream, payloadSize, requestCount)
+
+			b.Run(name, func(b *testing.B) {
+				b.ResetTimer()
+				for range b.N {
+					eg := errgroup.Group{}
+					eg.SetLimit(maxConcurrentRequests)
+					for i := 0; i < requestCount; i++ {
+						eg.Go(func() error {
+							req := httptest.NewRequest(http.MethodPost, routeChatCompletions, bytes.NewReader(payload))
+							w := httptest.NewRecorder()
+							_, err := provider.CreateInterceptor(w, req, tracer)
+							if err != nil {
+								return err
+							}
+							return nil
+						})
+					}
+				}
+			})
+		}
+	}
+}
+
+func BenchmarkOpenAI_CreateInterceptor_Responses(b *testing.B) {
+	provider := NewOpenAI(config.OpenAI{
+		BaseURL: "https://api.openai.com/v1/",
+		Key:     "test-key",
+	})
+
+	tracer := noop.NewTracerProvider().Tracer("test")
+	messagesPerRequest := 50
+	requestCount := 100
+	maxConcurrentRequests := 10
+	// payloadSizes := []int{2000, 10000, 50000, 100000, 2000000}
+	payloadSizes := []int{2000000}
+	for _, payloadSize := range payloadSizes {
+		for _, stream := range []bool{true, false} {
+			payload := generateResponsesPayload(payloadSize, messagesPerRequest, stream)
+			name := fmt.Sprintf("stream=%t/payloadSize=%d/requests=%d", stream, payloadSize, requestCount)
+
+			b.Run(name, func(b *testing.B) {
+				b.ResetTimer()
+				for range b.N {
+					eg := errgroup.Group{}
+					eg.SetLimit(maxConcurrentRequests)
+					for i := 0; i < requestCount; i++ {
+						eg.Go(func() error {
+							req := httptest.NewRequest(http.MethodPost, routeResponses, bytes.NewReader(payload))
+							w := httptest.NewRecorder()
+							interceptor, err := provider.CreateInterceptor(w, req, tracer)
+							if err != nil {
+								return err
+							}
+							err = interceptor.ProcessRequest(w, req)
+							if err != nil {
+								return err
+							}
+							return nil
+						})
+					}
+				}
+			})
+		}
+	}
+}
diff --git a/utils/json.go b/utils/json.go
diff --git a/utils/json_test.go b/utils/json_test.go