Compatibility patch (transformers) (#1419)

Artiprocher · web-flow · commit 84a75de89838 · 2026-04-29T13:00:43.000+08:00
* fix compatibility issue with transformers
diff --git a/diffsynth/models/dinov3_image_encoder.py b/diffsynth/models/dinov3_image_encoder.py
@@ -1,12 +1,16 @@
-from transformers.models.dinov3_vit.modeling_dinov3_vit import DINOv3ViTModel, DINOv3ViTConfig
-from transformers import DINOv3ViTImageProcessor
-import torch
-
+import torch, warnings
+try:
+    from transformers.models.dinov3_vit.modeling_dinov3_vit import DINOv3ViTModel
+except:
+    warnings.warn(f"Cannot import `DINOv3ViTModel`. `DINOv3ImageEncoder` is not available. Please update `transformers` by `pip install -U transformers`.")
+    DINOv3ViTModel = torch.nn.Module
 from ..core.device.npu_compatible_device import get_device_type
 
 
 class DINOv3ImageEncoder(DINOv3ViTModel):
     def __init__(self):
+        from transformers.models.dinov3_vit.modeling_dinov3_vit import DINOv3ViTConfig
+        from transformers import DINOv3ViTImageProcessor
         config = DINOv3ViTConfig(
             architectures = [
                 "DINOv3ViTModel"
diff --git a/diffsynth/models/siglip2_image_encoder.py b/diffsynth/models/siglip2_image_encoder.py
@@ -1,12 +1,17 @@
-from transformers.models.siglip.modeling_siglip import SiglipVisionModel, SiglipVisionConfig
-from transformers import SiglipImageProcessor, Siglip2VisionModel, Siglip2VisionConfig, Siglip2ImageProcessor
-import torch
-
+import torch, warnings
+from transformers import Siglip2VisionModel
+try:
+    from transformers.models.siglip.modeling_siglip import SiglipVisionModel
+except:
+    warnings.warn(f"Cannot import `SiglipVisionModel`. `Siglip2ImageEncoder` is not available. Please update `transformers` by `pip install -U transformers`.")
+    SiglipVisionModel = torch.nn.Module
 from diffsynth.core.device.npu_compatible_device import get_device_type
 
 
 class Siglip2ImageEncoder(SiglipVisionModel):
     def __init__(self):
+        from transformers.models.siglip.modeling_siglip import SiglipVisionConfig
+        from transformers import SiglipImageProcessor
         config = SiglipVisionConfig(
             attention_dropout = 0.0,
             dtype = "float32",
@@ -74,6 +79,7 @@ def forward(self, image, torch_dtype=torch.bfloat16, device=get_device_type()):
 
 class Siglip2ImageEncoder428M(Siglip2VisionModel):
     def __init__(self):
+        from transformers import Siglip2VisionConfig, Siglip2ImageProcessor
         config = Siglip2VisionConfig(
             attention_dropout = 0.0,
             dtype = "bfloat16",
diff --git a/pyproject.toml b/pyproject.toml
@@ -4,7 +4,7 @@ build-backend = "setuptools.build_meta"
 
 [project]
 name = "diffsynth"
-version = "2.0.10"
+version = "2.0.11"
 description = "Enjoy the magic of Diffusion models!"
 authors = [{name = "ModelScope Team"}]
 license = {text = "Apache-2.0"}