2.1

hlky · hlky · commit 24f454ced2ca · 2025-12-17T11:42:47.000Z
diff --git a/src/diffusers/loaders/single_file_model.py b/src/diffusers/loaders/single_file_model.py
@@ -54,7 +54,6 @@
     create_controlnet_diffusers_config_from_ldm,
     create_unet_diffusers_config_from_ldm,
     create_vae_diffusers_config_from_ldm,
-    create_z_image_controlnet_config,
     fetch_diffusers_config,
     fetch_original_config,
     load_single_file_checkpoint,
@@ -176,7 +175,6 @@
     },
     "ZImageControlNetModel": {
         "checkpoint_mapping_fn": convert_z_image_controlnet_checkpoint_to_diffusers,
-        "config_create_fn": create_z_image_controlnet_config,
     },
 }
 
@@ -379,10 +377,6 @@ def from_single_file(cls, pretrained_model_link_or_path_or_dict: Optional[str] =
             diffusers_model_config = config_mapping_fn(
                 original_config=original_config, checkpoint=checkpoint, **config_mapping_kwargs
             )
-        elif "config_create_fn" in mapping_functions:
-            config_create_fn = mapping_functions["config_create_fn"]
-            config_create_kwargs = _get_mapping_function_kwargs(config_create_fn, **kwargs)
-            diffusers_model_config = config_create_fn(checkpoint=checkpoint, **config_create_kwargs)
         else:
             if config is not None:
                 if isinstance(config, str):
diff --git a/src/diffusers/loaders/single_file_utils.py b/src/diffusers/loaders/single_file_utils.py
@@ -122,6 +122,7 @@
     "lumina2": ["model.diffusion_model.cap_embedder.0.weight", "cap_embedder.0.weight"],
     "z-image-turbo": "cap_embedder.0.weight",
     "z-image-turbo-controlnet": "control_all_x_embedder.2-1.weight",
+    "z-image-turbo-controlnet-2.x": "control_layers.14.adaLN_modulation.0.weight",
     "sana": [
         "blocks.0.cross_attn.q_linear.weight",
         "blocks.0.cross_attn.q_linear.bias",
@@ -221,6 +222,8 @@
     "cosmos-2.0-v2w-2B": {"pretrained_model_name_or_path": "nvidia/Cosmos-Predict2-2B-Video2World"},
     "cosmos-2.0-v2w-14B": {"pretrained_model_name_or_path": "nvidia/Cosmos-Predict2-14B-Video2World"},
     "z-image-turbo": {"pretrained_model_name_or_path": "Tongyi-MAI/Z-Image-Turbo"},
+    "z-image-turbo-controlnet": {"pretrained_model_name_or_path": "hlky/Z-Image-Turbo-Fun-Controlnet-Union"},
+    "z-image-turbo-controlnet-2.x": {"pretrained_model_name_or_path": "hlky/Z-Image-Turbo-Fun-Controlnet-Union-2.1"},
 }
 
 # Use to configure model sample size when original config is provided
@@ -780,6 +783,9 @@ def infer_diffusers_model_type(checkpoint):
         else:
             raise ValueError(f"Unexpected x_embedder shape: {x_embedder_shape} when loading Cosmos 2.0 model.")
 
+    elif CHECKPOINT_KEY_NAMES["z-image-turbo-controlnet-2.x"] in checkpoint:
+        model_type = "z-image-turbo-controlnet-2.x"
+
     elif CHECKPOINT_KEY_NAMES["z-image-turbo-controlnet"] in checkpoint:
         model_type = "z-image-turbo-controlnet"
 
@@ -3891,47 +3897,12 @@ def update_state_dict(state_dict: dict[str, object], old_key: str, new_key: str)
     return converted_state_dict
 
 
-def create_z_image_controlnet_config(checkpoint, **kwargs):
-    v1_config = {
-        "control_in_dim": 16,
-        "control_layers_places": [0, 5, 10, 15, 20, 25],
-        "dim": 3840,
-        "n_heads": 30,
-        "n_kv_heads": 30,
-        "n_refiner_layers": 2,
-        "norm_eps": 1e-05,
-        "qk_norm": True,
-        "all_f_patch_size": [1],
-        "all_patch_size": [2],
-    }
-    v2_config = {
-        "control_in_dim": 33,
-        "control_layers_places": [0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28],
-        "control_refiner_layers_places": [0, 1],
-        "add_control_noise_refiner": True,
-        "dim": 3840,
-        "n_heads": 30,
-        "n_kv_heads": 30,
-        "n_refiner_layers": 2,
-        "norm_eps": 1e-05,
-        "qk_norm": True,
-        "all_f_patch_size": [1],
-        "all_patch_size": [2],
-    }
-    control_x_embedder_weight_shape = checkpoint["control_all_x_embedder.2-1.weight"].shape[1]
-    if control_x_embedder_weight_shape == 64:
-        return v1_config
-    elif control_x_embedder_weight_shape == 132:
-        return v2_config
-    else:
-        raise ValueError("Unknown Z-Image Turbo ControlNet type.")
-
-
-def convert_z_image_controlnet_checkpoint_to_diffusers(checkpoint, **kwargs):
-    control_x_embedder_weight_shape = checkpoint["control_all_x_embedder.2-1.weight"].shape[1]
-    if control_x_embedder_weight_shape == 64:
+def convert_z_image_controlnet_checkpoint_to_diffusers(checkpoint, config, **kwargs):
+    if config["add_control_noise_refiner"] is None:
+        return checkpoint
+    elif config["add_control_noise_refiner"] == "control_noise_refiner":
         return checkpoint
-    elif control_x_embedder_weight_shape == 132:
+    elif config["add_control_noise_refiner"] == "control_layers":
         converted_state_dict = {
             key: checkpoint.pop(key) for key in list(checkpoint.keys()) if not key.startswith("control_noise_refiner.")
         }
diff --git a/src/diffusers/models/controlnets/controlnet_z_image.py b/src/diffusers/models/controlnets/controlnet_z_image.py
@@ -13,7 +13,7 @@
 # limitations under the License.
 
 import math
-from typing import List, Optional
+from typing import List, Literal, Optional
 
 import torch
 import torch.nn as nn
@@ -398,7 +398,7 @@ def __init__(
         control_layers_places: List[int] = None,
         control_refiner_layers_places: List[int] = None,
         control_in_dim=None,
-        add_control_noise_refiner=False,
+        add_control_noise_refiner: Optional[Literal["control_layers", "control_noise_refiner"]] = None,
         all_patch_size=(2,),
         all_f_patch_size=(1,),
         dim=3840,
@@ -431,8 +431,24 @@ def __init__(
             all_x_embedder[f"{patch_size}-{f_patch_size}"] = x_embedder
 
         self.control_all_x_embedder = nn.ModuleDict(all_x_embedder)
-        if self.add_control_noise_refiner:
+        if self.add_control_noise_refiner == "control_layers":
             self.control_noise_refiner = None
+        elif self.add_control_noise_refiner == "control_noise_refiner":
+            self.control_noise_refiner = nn.ModuleList(
+                [
+                    ZImageControlTransformerBlock(
+                        1000 + layer_id,
+                        dim,
+                        n_heads,
+                        n_kv_heads,
+                        norm_eps,
+                        qk_norm,
+                        modulation=True,
+                        block_id=layer_id,
+                    )
+                    for layer_id in range(n_refiner_layers)
+                ]
+            )
         else:
             self.control_noise_refiner = nn.ModuleList(
                 [
@@ -449,6 +465,7 @@ def __init__(
                 ]
             )
 
+        self.t_scale: Optional[float] = None
         self.t_embedder: Optional[TimestepEmbedder] = None
         self.all_x_embedder: Optional[nn.ModuleDict] = None
         self.cap_embedder: Optional[nn.Sequential] = None
@@ -624,7 +641,8 @@ def forward(
         f_patch_size=1,
     ):
         if (
-            self.t_embedder is None
+            self.t_scale is None
+            or self.t_embedder is None
             or self.all_x_embedder is None
             or self.cap_embedder is None
             or self.rope_embedder is None
@@ -687,8 +705,14 @@ def forward(
         for i, seq_len in enumerate(x_item_seqlens):
             x_attn_mask[i, :seq_len] = 1
 
-        if self.add_control_noise_refiner:
-            for layer in self.control_layers:
+        if self.add_control_noise_refiner is not None:
+            if self.add_control_noise_refiner == "control_layers":
+                layers = self.control_layers
+            elif self.add_control_noise_refiner == "control_noise_refiner":
+                layers = self.control_noise_refiner
+            else:
+                raise ValueError(f"Unsupported `add_control_noise_refiner` type: {self.add_control_noise_refiner}.")
+            for layer in layers:
                 if torch.is_grad_enabled() and self.gradient_checkpointing:
                     control_context = self._gradient_checkpointing_func(
                         layer, control_context, x, x_attn_mask, x_freqs_cis, adaln_input
diff --git a/src/diffusers/pipelines/z_image/pipeline_z_image_controlnet.py b/src/diffusers/pipelines/z_image/pipeline_z_image_controlnet.py
@@ -49,6 +49,25 @@
         ...     torch_dtype=torch.bfloat16,
         ... )
 
+        >>> # 2.1
+        >>> # controlnet = ZImageControlNetModel.from_single_file(
+        ... #     hf_hub_download(
+        ... #         "alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union-2.0",
+        ... #         filename="Z-Image-Turbo-Fun-Controlnet-Union-2.1.safetensors",
+        ... #     ),
+        ... #     torch_dtype=torch.bfloat16,
+        ... # )
+
+        >>> # 2.0 - `config` is required
+        >>> # controlnet = ZImageControlNetModel.from_single_file(
+        ... #     hf_hub_download(
+        ... #         "alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union-2.0",
+        ... #         filename="Z-Image-Turbo-Fun-Controlnet-Union-2.0.safetensors",
+        ... #     ),
+        ... #     torch_dtype=torch.bfloat16,
+        ... #     config="hlky/Z-Image-Turbo-Fun-Controlnet-Union-2.0",
+        ... # )
+
         >>> pipe = ZImageControlNetPipeline.from_pretrained(
         ...     "Tongyi-MAI/Z-Image-Turbo", controlnet=controlnet, torch_dtype=torch.bfloat16
         ... )
diff --git a/src/diffusers/pipelines/z_image/pipeline_z_image_controlnet_inpaint.py b/src/diffusers/pipelines/z_image/pipeline_z_image_controlnet_inpaint.py
@@ -45,11 +45,21 @@
         >>> controlnet = ZImageControlNetModel.from_single_file(
         ...     hf_hub_download(
         ...         "alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union-2.0",
-        ...         filename="Z-Image-Turbo-Fun-Controlnet-Union-2.0.safetensors",
+        ...         filename="Z-Image-Turbo-Fun-Controlnet-Union-2.1.safetensors",
         ...     ),
         ...     torch_dtype=torch.bfloat16,
         ... )
 
+        >>> # 2.0 - `config` is required
+        >>> # controlnet = ZImageControlNetModel.from_single_file(
+        ... #     hf_hub_download(
+        ... #         "alibaba-pai/Z-Image-Turbo-Fun-Controlnet-Union-2.0",
+        ... #         filename="Z-Image-Turbo-Fun-Controlnet-Union-2.0.safetensors",
+        ... #     ),
+        ... #     torch_dtype=torch.bfloat16,
+        ... #     config="hlky/Z-Image-Turbo-Fun-Controlnet-Union-2.0",
+        ... # )
+
         >>> pipe = ZImageControlNetInpaintPipeline.from_pretrained(
         ...     "Tongyi-MAI/Z-Image-Turbo", controlnet=controlnet, torch_dtype=torch.bfloat16
         ... )