update

HsiaWinter · HsiaWinter · commit f8b1395c10b5 · 2026-04-10T17:00:09.000+08:00
diff --git a/docs/source/en/_toctree.yml b/docs/source/en/_toctree.yml
@@ -412,6 +412,8 @@
         title: WanTransformer3DModel
       - local: api/models/z_image_transformer2d
         title: ZImageTransformer2DModel
+      - local: api/models/ernie_image_transformer2d
+        title: ErnieImageTransformer2DModel
       title: Transformers
     - sections:
       - local: api/models/stable_cascade_unet
@@ -634,6 +636,8 @@
         title: VisualCloze
       - local: api/pipelines/z_image
         title: Z-Image
+      - local: api/pipelines/ernie_image
+        title: ERNIE-Image
       title: Image
     - sections:
       - local: api/pipelines/llada2
diff --git a/docs/source/en/api/pipelines/ernie_image.md b/docs/source/en/api/pipelines/ernie_image.md
@@ -46,7 +46,7 @@ from diffusers.utils import load_image
 
 pipe = ErnieImagePipeline.from_pretrained("baidu/ERNIE-Image", torch_dtype=torch.bfloat16)
 pipe.to("cuda")
-# 如果显存不足，可以开启offload
+# If you are running low on GPU VRAM, you can enable offloading
 pipe.enable_model_cpu_offload()
 
 prompt = "一只黑白相间的中华田园犬"
@@ -55,8 +55,8 @@ images = pipe(
     height=1024,
     width=1024,
     num_inference_steps=50,
-    guidance_scale=5.0,
-    generator=generator,
+    guidance_scale=4.0,
+    generator=torch.Generator("cuda").manual_seed(42),
     use_pe=True,
 ).images
 images[0].save("ernie-image-output.png")
@@ -69,7 +69,7 @@ from diffusers.utils import load_image
 
 pipe = ErnieImagePipeline.from_pretrained("baidu/ERNIE-Image-Turbo", torch_dtype=torch.bfloat16)
 pipe.to("cuda")
-# 如果显存不足，可以开启offload
+# If you are running low on GPU VRAM, you can enable offloading
 pipe.enable_model_cpu_offload()
 
 prompt = "一只黑白相间的中华田园犬"
@@ -78,8 +78,8 @@ images = pipe(
     height=1024,
     width=1024,
     num_inference_steps=8,
-    guidance_scale=5.0,
-    generator=generator,
+    guidance_scale=1.0,
+    generator=torch.Generator("cuda").manual_seed(42),
     use_pe=True,
 ).images
 images[0].save("ernie-image-turbo-output.png")
diff --git a/fix_turbo_weight_keys.py b/fix_turbo_weight_keys.py
@@ -0,0 +1,163 @@
+"""
+将 ERNIE-Image-Turbo/transformer 的权重键名修正为与 ERNIE-Image/transformer 一致。
+
+差异均位于每层 self_attention 子模块，共 6 类 × 36 层 = 216 个键需要重命名：
+  k_layernorm  -> norm_k
+  q_layernorm  -> norm_q
+  k_proj       -> to_k
+  q_proj       -> to_q
+  v_proj       -> to_v
+  linear_proj  -> to_out.0
+"""
+
+import json
+import os
+import shutil
+from pathlib import Path
+
+import torch
+from safetensors.torch import load_file, save_file
+
+# ── 路径配置 ──────────────────────────────────────────────────────────────────
+TURBO_DIR = Path("/root/paddlejob/gpfsspace/model_weights/turbo/ERNIE-Image-Turbo/transformer")
+# 修正后的文件直接覆盖原目录（先备份），如需输出到新目录请修改此变量
+OUTPUT_DIR = TURBO_DIR  # 或改为 Path("/your/output/path")
+BACKUP_SUFFIX = ".bak"  # 原文件备份后缀，设为 None 则不备份
+
+# ── 键名映射（只处理 self_attention 子键，前缀 layers.N. 由脚本动态拼接）───
+KEY_REMAP = {
+    "self_attention.k_layernorm.weight": "self_attention.norm_k.weight",
+    "self_attention.q_layernorm.weight": "self_attention.norm_q.weight",
+    "self_attention.k_proj.weight":      "self_attention.to_k.weight",
+    "self_attention.q_proj.weight":      "self_attention.to_q.weight",
+    "self_attention.v_proj.weight":      "self_attention.to_v.weight",
+    "self_attention.linear_proj.weight": "self_attention.to_out.0.weight",
+}
+
+NUM_LAYERS = 36  # layers.0 ~ layers.35
+
+
+def build_full_remap() -> dict[str, str]:
+    """构建完整的旧键名 -> 新键名映射表（含层前缀）。"""
+    remap = {}
+    for layer_idx in range(NUM_LAYERS):
+        prefix = f"layers.{layer_idx}."
+        for old_suffix, new_suffix in KEY_REMAP.items():
+            remap[prefix + old_suffix] = prefix + new_suffix
+    return remap
+
+
+def rename_keys_in_tensor_dict(
+    tensors: dict[str, torch.Tensor],
+    remap: dict[str, str],
+) -> tuple[dict[str, torch.Tensor], int]:
+    """重命名张量字典中的键，返回新字典和实际重命名的数量。"""
+    renamed = 0
+    new_tensors: dict[str, torch.Tensor] = {}
+    for key, tensor in tensors.items():
+        new_key = remap.get(key, key)
+        if new_key != key:
+            renamed += 1
+        new_tensors[new_key] = tensor
+    return new_tensors, renamed
+
+
+def backup_file(path: Path) -> None:
+    if BACKUP_SUFFIX is None:
+        return
+    backup = path.with_suffix(path.suffix + BACKUP_SUFFIX)
+    shutil.copy2(path, backup)
+    print(f"  [备份] {path.name} -> {backup.name}")
+
+
+def process_safetensors_files(remap: dict[str, str]) -> None:
+    index_path = TURBO_DIR / "diffusion_pytorch_model.safetensors.index.json"
+    with open(index_path, "r", encoding="utf-8") as f:
+        index = json.load(f)
+
+    # 找出所有需要处理的 shard 文件（去重）
+    shard_files = sorted(set(index["weight_map"].values()))
+    print(f"\n共发现 {len(shard_files)} 个 shard 文件，开始处理...\n")
+
+    total_renamed = 0
+    for shard_name in shard_files:
+        shard_path = TURBO_DIR / shard_name
+        print(f"[处理] {shard_name}")
+
+        tensors = load_file(shard_path)
+        new_tensors, renamed = rename_keys_in_tensor_dict(tensors, remap)
+        total_renamed += renamed
+        print(f"  本文件重命名: {renamed} 个键")
+
+        if renamed > 0:
+            # 保留原始 metadata（如果有）
+            metadata = {}
+
+            out_path = OUTPUT_DIR / shard_name
+            if out_path == shard_path and BACKUP_SUFFIX:
+                backup_file(shard_path)
+
+            OUTPUT_DIR.mkdir(parents=True, exist_ok=True)
+            save_file(new_tensors, out_path, metadata=metadata)
+            print(f"  [保存] {out_path}")
+        else:
+            if OUTPUT_DIR != TURBO_DIR:
+                shutil.copy2(shard_path, OUTPUT_DIR / shard_name)
+                print(f"  [复制（无变更）] {shard_name}")
+
+    print(f"\n所有 shard 处理完毕，共重命名 {total_renamed} 个键。")
+
+    # ── 更新 index.json 中的 weight_map ─────────────────────────────────────
+    new_weight_map: dict[str, str] = {}
+    for old_key, shard_name in index["weight_map"].items():
+        new_key = remap.get(old_key, old_key)
+        new_weight_map[new_key] = shard_name
+
+    index["weight_map"] = new_weight_map
+
+    out_index_path = OUTPUT_DIR / "diffusion_pytorch_model.safetensors.index.json"
+    if out_index_path == index_path and BACKUP_SUFFIX:
+        backup_file(index_path)
+
+    OUTPUT_DIR.mkdir(parents=True, exist_ok=True)
+    with open(out_index_path, "w", encoding="utf-8") as f:
+        json.dump(index, f, indent=2, ensure_ascii=False)
+    print(f"[更新] index.json 已写入: {out_index_path}\n")
+
+
+def verify_against_base() -> None:
+    """（可选）验证修正后的 Turbo 键名与 Base 完全一致。"""
+    BASE_DIR = Path("/root/paddlejob/gpfsspace/model_weights/base/ERNIE-Image/transformer")
+    base_index_path = BASE_DIR / "diffusion_pytorch_model.safetensors.index.json"
+    turbo_index_path = OUTPUT_DIR / "diffusion_pytorch_model.safetensors.index.json"
+
+    if not base_index_path.exists() or not turbo_index_path.exists():
+        print("[验证] 找不到 index.json，跳过验证。")
+        return
+
+    with open(base_index_path, "r") as f:
+        base_keys = set(json.load(f)["weight_map"].keys())
+    with open(turbo_index_path, "r") as f:
+        turbo_keys = set(json.load(f)["weight_map"].keys())
+
+    only_in_base  = base_keys - turbo_keys
+    only_in_turbo = turbo_keys - base_keys
+
+    if not only_in_base and only_in_turbo:
+        print(f"[验证] 警告：Turbo 中多余的键 ({len(only_in_turbo)}):")
+        for k in sorted(only_in_turbo):
+            print(f"  + {k}")
+    elif only_in_base:
+        print(f"[验证] 警告：Base 中存在但 Turbo 中缺少的键 ({len(only_in_base)}):")
+        for k in sorted(only_in_base):
+            print(f"  - {k}")
+    else:
+        print("[验证] 通过！修正后 Turbo 的键名与 Base 完全一致。")
+
+
+if __name__ == "__main__":
+    remap = build_full_remap()
+    print(f"键名映射表共 {len(remap)} 条（{NUM_LAYERS} 层 × {len(KEY_REMAP)} 类）")
+
+    process_safetensors_files(remap)
+    verify_against_base()
diff --git a/src/diffusers/models/transformers/transformer_ernie_image.py b/src/diffusers/models/transformers/transformer_ernie_image.py
@@ -28,12 +28,13 @@
 from ..embeddings import Timesteps
 from ..embeddings import TimestepEmbedding
 from ..modeling_utils import ModelMixin
-from ...utils import BaseOutput
+from ...utils import BaseOutput, logging
 from ..normalization import RMSNorm
 from ..attention_processor import Attention
 from ..attention_dispatch import dispatch_attention_fn
 from ..attention import AttentionMixin, AttentionModuleMixin
 
+logger = logging.get_logger(__name__)  # pylint: disable=invalid-name
 
 @dataclass
 class ErnieImageTransformer2DModelOutput(BaseOutput):
@@ -248,7 +249,13 @@ def __init__(self, hidden_size: int, num_heads: int, ffn_hidden_size: int, eps:
         self.adaLN_mlp_ln = RMSNorm(hidden_size, eps=eps)
         self.mlp = ErnieImageFeedForward(hidden_size, ffn_hidden_size)
 
-    def forward(self, x, rotary_pos_emb, shift_msa, scale_msa, gate_msa, shift_mlp, scale_mlp, gate_mlp, attention_mask=None):
+    def forward(
+        self, 
+        x, 
+        rotary_pos_emb, temb: tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor], 
+        attention_mask: torch.Tensor | None = None
+    ):
+        shift_msa, scale_msa, gate_msa, shift_mlp, scale_mlp, gate_mlp = temb
         residual = x
         x = self.adaLN_sa_ln(x)
         x = (x.float() * (1 + scale_msa.float()) +  shift_msa.float()).to(x.dtype)
@@ -360,21 +367,17 @@ def forward(
         c = self.time_embedding(sample)
         shift_msa, scale_msa, gate_msa, shift_mlp, scale_mlp, gate_mlp = [t.unsqueeze(0).expand(S, -1, -1).contiguous() for t in self.adaLN_modulation(c).chunk(6, dim=-1)]
         for layer in self.layers:
+            temb = [shift_msa, scale_msa, gate_msa, shift_mlp, scale_mlp, gate_mlp]
             if torch.is_grad_enabled() and self.gradient_checkpointing:
                 x = self._gradient_checkpointing_func(
                     layer,
                     x,
                     rotary_pos_emb,
-                    shift_msa,
-                    scale_msa,
-                    gate_msa,
-                    shift_mlp,
-                    scale_mlp,
-                    gate_mlp,
+                    temb,
                     attention_mask,
                 )
             else:
-                x = layer(x, rotary_pos_emb, shift_msa, scale_msa, gate_msa, shift_mlp, scale_mlp, gate_mlp, attention_mask)
+                x = layer(x, rotary_pos_emb, temb, attention_mask)
         x = self.final_norm(x, c).type_as(x)
         patches = self.final_linear(x)[:N_img].transpose(0, 1).contiguous()
         output = patches.view(B, Hp, Wp, p, p, self.out_channels).permute(0, 5, 1, 3, 2, 4).contiguous().view(B, self.out_channels, H, W)
diff --git a/src/diffusers/pipelines/ernie_image/pipeline_ernie_image.py b/src/diffusers/pipelines/ernie_image/pipeline_ernie_image.py
@@ -67,7 +67,8 @@ def __init__(
             pe=pe,
             pe_tokenizer=pe_tokenizer,
         )
-        self.vae_scale_factor = 16  # VAE downsample factor
+        self.vae_scale_factor = 2 ** (len(self.vae.config.block_out_channels)) if getattr(self, "vae", None) else 16
+        print(f"vae_scale_factor: {self.vae_scale_factor}")
 
     @property
     def guidance_scale(self):
@@ -278,7 +279,7 @@ def __call__(
         # Latent dimensions
         latent_h = height // self.vae_scale_factor
         latent_w = width // self.vae_scale_factor
-        latent_channels = 128  # After patchify
+        latent_channels = self.transformer.config.in_channels  # After patchify
 
         # Initialize latents
         if latents is None:
diff --git a/tests/models/transformers/test_models_transformer_ernie_image.py b/tests/models/transformers/test_models_transformer_ernie_image.py