fix: add base_url parameter to various model classes and update initialization logic

wxg0103 · wxg0103 · commit 2b7b519463dc · 2026-04-21T10:34:05.000+08:00
diff --git a/apps/models_provider/impl/aliyun_bai_lian_model_provider/credential/tts.py b/apps/models_provider/impl/aliyun_bai_lian_model_provider/credential/tts.py
@@ -4,11 +4,13 @@
 
 from django.utils.translation import gettext_lazy as _, gettext
 
+from common import forms
 from common.exception.app_exception import AppApiException
 from common.forms import BaseForm, PasswordInputField, SingleSelect, SliderField, TooltipLabel
 from models_provider.base_model_provider import BaseModelCredential, ValidCode
 from common.utils.logger import maxkb_logger
 
+
 class AliyunBaiLianTTSModelGeneralParams(BaseForm):
     """
     Parameters class for the Aliyun BaiLian TTS (Text-to-Speech) model.
@@ -60,17 +62,18 @@ class AliyunBaiLianTTSModelCredential(BaseForm, BaseModelCredential):
     Credential class for the Aliyun BaiLian TTS (Text-to-Speech) model.
     Provides validation and encryption for the model credentials.
     """
+    api_base = forms.TextInputField(_('API URL'), required=True, default_value='https://dashscope.aliyuncs.com/api/v1')
 
     api_key = PasswordInputField("API Key", required=True)
 
     def is_valid(
-        self,
-        model_type: str,
-        model_name: str,
-        model_credential: Dict[str, object],
-        model_params,
-        provider,
-        raise_exception: bool = False
+            self,
+            model_type: str,
+            model_name: str,
+            model_credential: Dict[str, object],
+            model_params,
+            provider,
+            raise_exception: bool = False
     ) -> bool:
         """
         Validate the model credentials.
@@ -90,7 +93,7 @@ def is_valid(
                 gettext('{model_type} Model type is not supported').format(model_type=model_type)
             )
 
-        required_keys = ['api_key']
+        required_keys = ['api_key', 'api_base']
         for key in required_keys:
             if key not in model_credential:
                 if raise_exception:
diff --git a/apps/models_provider/impl/aliyun_bai_lian_model_provider/credential/ttv.py b/apps/models_provider/impl/aliyun_bai_lian_model_provider/credential/ttv.py
@@ -4,12 +4,14 @@
 
 from django.utils.translation import gettext_lazy as _, gettext
 
+from common import forms
 from common.exception.app_exception import AppApiException
 from common.forms import BaseForm, PasswordInputField, SingleSelect, SliderField, TooltipLabel
 from common.forms.switch_field import SwitchField
 from models_provider.base_model_provider import BaseModelCredential, ValidCode
 from common.utils.logger import maxkb_logger
 
+
 class QwenModelParams(BaseForm):
     """
     Parameters class for the Qwen Text-to-Video model.
@@ -42,7 +44,7 @@ class TextToVideoModelCredential(BaseForm, BaseModelCredential):
     Credential class for the Qwen Text-to-Video model.
     Provides validation and encryption for the model credentials.
     """
-
+    api_base = forms.TextInputField(_('API URL'), required=True, default_value='https://dashscope.aliyuncs.com/api/v1')
     api_key = PasswordInputField('API Key', required=True)
 
     def is_valid(
@@ -72,7 +74,7 @@ def is_valid(
                 gettext('{model_type} Model type is not supported').format(model_type=model_type)
             )
 
-        required_keys = ['api_key']
+        required_keys = ['api_key', 'api_base']
         for key in required_keys:
             if key not in model_credential:
                 if raise_exception:
diff --git a/apps/models_provider/impl/aliyun_bai_lian_model_provider/model/tts.py b/apps/models_provider/impl/aliyun_bai_lian_model_provider/model/tts.py
@@ -11,12 +11,14 @@
 
 class AliyunBaiLianTextToSpeech(MaxKBBaseModel, BaseTextToSpeech):
     api_key: str
+    base_url: str
     model: str
     params: dict
 
     def __init__(self, **kwargs):
         super().__init__(**kwargs)
         self.api_key = kwargs.get('api_key')
+        self.base_url = kwargs.get('base_url')
         self.model = kwargs.get('model')
         self.params = kwargs.get('params')
 
@@ -34,6 +36,7 @@ def new_instance(model_type, model_name, model_credential: Dict[str, object], **
         return AliyunBaiLianTextToSpeech(
             model=model_name,
             api_key=model_credential.get('api_key'),
+            base_url=model_credential.get('api_base', "https://dashscope.aliyuncs.com/api/v1"),
             **optional_params,
         )
 
@@ -42,6 +45,7 @@ def check_auth(self):
 
     def text_to_speech(self, text):
         dashscope.api_key = self.api_key
+        dashscope.base_http_api_url = self.base_url
         text = _remove_empty_lines(text)
         if 'sambert' in self.model:
             from dashscope.audio.tts import SpeechSynthesizer
@@ -55,4 +59,3 @@ def text_to_speech(self, text):
         if type(audio) == str:
             raise Exception(audio)
         return audio
-
diff --git a/apps/models_provider/impl/aliyun_bai_lian_model_provider/model/ttv.py b/apps/models_provider/impl/aliyun_bai_lian_model_provider/model/ttv.py
@@ -12,6 +12,7 @@
 
 class GenerationVideoModel(MaxKBBaseModel, BaseGenerationVideo):
     api_key: str
+    api_base: str
     model_name: str
     params: dict
     max_retries: int = 3
@@ -20,6 +21,7 @@ class GenerationVideoModel(MaxKBBaseModel, BaseGenerationVideo):
     def __init__(self, **kwargs):
         super().__init__(**kwargs)
         self.api_key = kwargs.get('api_key')
+        self.api_base = kwargs.get('api_base')
         self.model_name = kwargs.get('model_name')
         self.params = kwargs.get('params', {})
         self.max_retries = kwargs.get('max_retries', 3)
@@ -35,9 +37,13 @@ def new_instance(model_type, model_name, model_credential: Dict[str, object], **
         for key, value in model_kwargs.items():
             if key not in ['model_id', 'use_local', 'streaming']:
                 optional_params['params'][key] = value
+        api_base = model_credential.get('api_base')
+        if api_base is None:
+            api_base = 'https://dashscope.aliyuncs.com/api/v1'
         return GenerationVideoModel(
             model_name=model_name,
             api_key=model_credential.get('api_key'),
+            api_base=api_base,
             **optional_params,
         )
 
@@ -66,6 +72,8 @@ def generate_video(self, prompt, negative_prompt=None, first_frame_url=None, las
             last_frame_url: 结束关键帧图片 URL (KF2V 必填)
             如果没有提供last_frame_url，则表示只提供了first_frame_url，生成的是单关键帧视频（KFV） 参数是img_url
             """
+        import dashscope
+        dashscope.base_http_api_url = self.api_base
 
         # 构建基础参数
         params = {"api_key": self.api_key, "prompt": prompt, "model": self.model_name,
diff --git a/apps/models_provider/impl/gemini_model_provider/model/stt.py b/apps/models_provider/impl/gemini_model_provider/model/stt.py
@@ -3,6 +3,7 @@
 from django.utils.translation import gettext as _
 from langchain_core.messages import HumanMessage
 from langchain_google_genai import ChatGoogleGenerativeAI
+from openai import base_url
 
 from common.config.tokenizer_manage_config import TokenizerManage
 from models_provider.base_model_provider import MaxKBBaseModel
diff --git a/apps/models_provider/impl/volcanic_engine_model_provider/credential/ttv.py b/apps/models_provider/impl/volcanic_engine_model_provider/credential/ttv.py
@@ -53,8 +53,7 @@ class VolcanicEngineTTVModelGeneralParams(BaseForm):
 
 
 class VolcanicEngineTTVModelCredential(BaseForm, BaseModelCredential):
-    api_base = forms.TextInputField('API URL', required=True,
-                                    default_value='https://ark.cn-beijing.volces.com/api/v3')
+    base_url = forms.TextInputField('Base URL', required=True, default_value='https://ark.cn-beijing.volces.com/api/v3')
     api_key = forms.PasswordInputField('Api key', required=True)
 
     def is_valid(self, model_type: str, model_name, model_credential: Dict[str, object], model_params, provider,
@@ -64,7 +63,7 @@ def is_valid(self, model_type: str, model_name, model_credential: Dict[str, obje
             raise AppApiException(ValidCode.valid_error.value,
                                   gettext('{model_type} Model type is not supported').format(model_type=model_type))
 
-        for key in ['api_key', 'api_base']:
+        for key in ['api_key', 'base_url']:
             if key not in model_credential:
                 if raise_exception:
                     raise AppApiException(ValidCode.valid_error.value, gettext('{key}  is required').format(key=key))
diff --git a/apps/models_provider/impl/volcanic_engine_model_provider/model/embedding.py b/apps/models_provider/impl/volcanic_engine_model_provider/model/embedding.py
@@ -10,7 +10,7 @@ class VolcanicEngineEmbeddingModel(MaxKBBaseModel):
     api_base: str
     params: Dict[str, object]
 
-    def __init__(self, api_key: str, model: str, api_base: str, params: Dict[str, object] = None):
+    def __init__(self, api_key: str, model: str, api_base: str, **params):
         self.client = Ark(
             api_key=api_key,
             base_url=api_base
@@ -37,25 +37,40 @@ def embed_query(self, text: str):
         return res[0]
 
     def embed_documents(
-            self, texts: List[str], chunk_size: int | None = None
+            self, texts: List[str]
     ) -> List[List[float]]:
         if self.model_name.startswith("doubao-embedding-vision-"):
-            multimodal_inputs = []
+            embeddings = []
             for text in texts:
-                multimodal_inputs.append({
-                    "type": "text",
-                    "text": text
-                })
-            resp = self.client.multimodal_embeddings.create(
-                model=self.model_name,
-                input=multimodal_inputs,
-                **(self.params or {})
-            )
-            return [resp.data.get('embedding')]
+                multimodal_input = {"type": "text", "text": text}
+                resp = self.client.multimodal_embeddings.create(
+                    model=self.model_name,
+                    input=[multimodal_input],
+                    encoding_format="float",
+                    **(self.params or {})
+                )
+                embedding = self._extract_embedding(resp.data)
+                if embedding is not None:
+                    embeddings.append(embedding)
+            return embeddings
         else:
             resp = self.client.embeddings.create(
                 model=self.model_name,
                 input=texts,
                 **(self.params or {})
             )
             return [e.embedding for e in resp.data]
+
+    def _extract_embedding(self, data):
+        if isinstance(data, list) and len(data) > 0:
+            item = data[0]
+        else:
+            item = data
+
+        if hasattr(item, 'embedding'):
+            return item.embedding
+        elif isinstance(item, dict):
+            return item.get('embedding')
+        elif isinstance(item, list):
+            return item
+        return None
diff --git a/apps/models_provider/impl/volcanic_engine_model_provider/model/ttv.py b/apps/models_provider/impl/volcanic_engine_model_provider/model/ttv.py
@@ -9,7 +9,7 @@
 
 class GenerationVideoModel(MaxKBBaseModel, BaseGenerationVideo):
     api_key: str
-    api_base: str
+    base_url: str
     model_name: str
     params: dict
     max_retries: int = 3
@@ -18,7 +18,7 @@ class GenerationVideoModel(MaxKBBaseModel, BaseGenerationVideo):
     def __init__(self, **kwargs):
         super().__init__(**kwargs)
         self.api_key = kwargs.get('api_key')
-        self.api_base = kwargs.get('api_base')
+        self.base_url = kwargs.get('base_url')
         self.model_name = kwargs.get('model_name')
         self.params = kwargs.get('params', {})
         self.retry_delay = 5
@@ -36,7 +36,7 @@ def new_instance(model_type, model_name, model_credential: Dict[str, object], **
         return GenerationVideoModel(
             model_name=model_name,
             api_key=model_credential.get('api_key'),
-            api_base=model_credential.get('api_base') or 'https://ark.cn-beijing.volces.com/api/v3',
+            base_url=model_credential.get('base_url', "https://ark.cn-beijing.volces.com/api/v3"),
             **optional_params,
         )
 
@@ -76,7 +76,7 @@ def _poll_task(self, client: Ark, task_id: str, max_wait: int = 60, interval: in
 
     # --- 通用异步生成函数 ---
     def generate_video(self, prompt, negative_prompt=None, first_frame_url=None, last_frame_url=None, **kwargs):
-        client = Ark(api_key=self.api_key, base_url=self.api_base)
+        client = Ark(api_key=self.api_key,base_url=self.base_url)
         # 根据params设置其他参数 豆包的参数和别的不一样  需要拼接在text里
         # --rt 16:9 --dur 5 --fps 24 --rs 720p --wm true --cf false
         prompt = self._build_prompt(prompt)
diff --git a/apps/models_provider/impl/zhipu_model_provider/credential/tti.py b/apps/models_provider/impl/zhipu_model_provider/credential/tti.py
@@ -29,6 +29,7 @@ class ZhiPuTTIModelParams(BaseForm):
 
 
 class ZhiPuTextToImageModelCredential(BaseForm, BaseModelCredential):
+    base_url = forms.TextInputField('Base URL', required=True, default_value='https://open.bigmodel.cn/api/paas/v4')
     api_key = forms.PasswordInputField('API Key', required=True)
 
     def is_valid(self, model_type: str, model_name, model_credential: Dict[str, object], model_params, provider,
@@ -38,7 +39,7 @@ def is_valid(self, model_type: str, model_name, model_credential: Dict[str, obje
             raise AppApiException(ValidCode.valid_error.value,
                                   gettext('{model_type} Model type is not supported').format(model_type=model_type))
 
-        for key in ['api_key']:
+        for key in ['api_key', 'base_url']:
             if key not in model_credential:
                 if raise_exception:
                     raise AppApiException(ValidCode.valid_error.value, gettext('{key}  is required').format(key=key))
diff --git a/apps/models_provider/impl/zhipu_model_provider/model/tti.py b/apps/models_provider/impl/zhipu_model_provider/model/tti.py
@@ -17,12 +17,14 @@ def custom_get_token_ids(text: str):
 
 class ZhiPuTextToImage(MaxKBBaseModel, BaseTextToImage):
     api_key: str
+    base_url: str
     model: str
     params: dict
 
     def __init__(self, **kwargs):
         super().__init__(**kwargs)
         self.api_key = kwargs.get('api_key')
+        self.base_url = kwargs.get('base_url')
         self.model = kwargs.get('model')
         self.params = kwargs.get('params')
 
@@ -39,6 +41,7 @@ def new_instance(model_type, model_name, model_credential: Dict[str, object], **
         return ZhiPuTextToImage(
             model=model_name,
             api_key=model_credential.get('api_key'),
+            base_url=model_credential.get('base_url', "https://open.bigmodel.cn/api/paas/v4"),
             **optional_params,
         )
 
@@ -48,7 +51,7 @@ def is_cache_model(self):
     def check_auth(self):
         chat = ChatOpenAI(
             api_key=self.api_key,
-            base_url='https://open.bigmodel.cn/api/paas/v4',
+            base_url=self.base_url,
             model=self.model,
         )
         chat.invoke([HumanMessage([{"type": "text", "text": gettext('Hello')}])])
@@ -60,7 +63,7 @@ def generate_image(self, prompt: str, negative_prompt: str = None):
         #     zhipuai_api_key=self.api_key,
         #     model_name=self.model,
         # )
-        chat = ZhipuAI(api_key=self.api_key)
+        chat = ZhipuAI(api_key=self.api_key, base_url=self.base_url)
         response = chat.images.generations(
             model=self.model,  # 填写需要调用的模型编码
             prompt=prompt,  # 填写需要生成图片的文本