[fix] CLIPTextModel with transformers >= 5.6 and from_single_file (#13843)

asomoza · web-flow · commit b95637a98dda · 2026-06-01T22:30:12.000+05:30
* fix

* code quality
diff --git a/src/diffusers/loaders/single_file_utils.py b/src/diffusers/loaders/single_file_utils.py
@@ -1702,7 +1702,10 @@ def create_diffusers_clip_model_from_ldm(
     with ctx():
         model = cls(model_config)
 
-    position_embedding_dim = model.text_model.embeddings.position_embedding.weight.shape[-1]
+    # `CLIPTextModel` was flattened in transformers >=5.6; `CLIPTextModelWithProjection` still wraps via `text_model`.
+    has_text_model_wrapper = hasattr(model, "text_model")
+    text_model = model.text_model if has_text_model_wrapper else model
+    position_embedding_dim = text_model.embeddings.position_embedding.weight.shape[-1]
 
     if is_clip_model(checkpoint):
         diffusers_format_checkpoint = convert_ldm_clip_checkpoint(checkpoint)
@@ -1744,6 +1747,11 @@ def create_diffusers_clip_model_from_ldm(
     else:
         raise ValueError("The provided checkpoint does not seem to contain a valid CLIP model.")
 
+    if not has_text_model_wrapper:
+        diffusers_format_checkpoint = {
+            k.removeprefix("text_model."): v for k, v in diffusers_format_checkpoint.items()
+        }
+
     if is_accelerate_available():
         load_model_dict_into_meta(model, diffusers_format_checkpoint, dtype=torch_dtype)
         empty_device_cache()