Add Anima architecture support

FeepingCreature · Forge AI (github.com/FeepingCreature/forge) · Acly · commit 3273280ff453 · 2026-05-01T18:02:20.000+02:00
- resources.py: Add Arch.anima enum member with text_encoders (qwen_3_06b),
  supports_attention_guidance, search paths for TE/VAE, required resource IDs
- workflow.py: Load separate CLIP (omnigen2 type) and VAE for anima in
  load_checkpoint_with_lora()
- comfy_client.py: Add qwen_3_06b to text encoder model discovery

Co-authored-by: Forge AI (github.com/FeepingCreature/forge) &lt;noreply@forge-ai.invalid&gt;
diff --git a/ai_diffusion/comfy_client.py b/ai_diffusion/comfy_client.py
@@ -751,7 +751,7 @@ def _find_text_encoder_models(model_list: Sequence[str]):
     kind = ResourceKind.text_encoder
     return {
         resource_id(kind, Arch.all, te): _find_model(model_list, kind, Arch.all, te)
-        for te in ["clip_l", "clip_g", "t5", "qwen", "qwen_3_4b", "qwen_3_8b"]
+        for te in ["clip_l", "clip_g", "t5", "qwen", "qwen_3_06b", "qwen_3_4b", "qwen_3_8b"]
     }
 
 
diff --git a/ai_diffusion/resources.py b/ai_diffusion/resources.py
@@ -95,6 +95,7 @@ class Arch(Enum):
     qwen_e = "Qwen Edit"
     qwen_e_p = "Qwen Edit Plus"
     qwen_l = "Qwen Layered"
+    anima = "Anima"
     zimage = "Z-Image"
 
     auto = "Automatic"
@@ -134,6 +135,8 @@ def from_string(string: str, model_type: str = "eps", filename: str | None = Non
             return Arch.qwen_l
         if string == "qwen-image":
             return Arch.qwen
+        if string == "anima" or (string == "unknown" and "anima" in filename):
+            return Arch.anima
         if string in {"z-image", "zimage"}:
             return Arch.zimage
         return None
@@ -187,7 +190,7 @@ def supports_clip_skip(self):
 
     @property
     def supports_attention_guidance(self):
-        return self in [Arch.sd15, Arch.sdxl, Arch.illu, Arch.illu_v]
+        return self in [Arch.sd15, Arch.sdxl, Arch.illu, Arch.illu_v, Arch.anima]
 
     @property
     def supports_cfg(self):
@@ -237,6 +240,8 @@ def text_encoders(self):
                 return ["t5"]
             case Arch.qwen | Arch.qwen_e | Arch.qwen_e_p | Arch.qwen_l:
                 return ["qwen"]
+            case Arch.anima:
+                return ["qwen_3_06b"]
             case Arch.zimage:
                 return ["qwen_3_4b"]
         raise ValueError(f"Unsupported architecture: {self}")
@@ -258,6 +263,7 @@ def list():
             Arch.qwen_e,
             Arch.qwen_e_p,
             Arch.qwen_l,
+            Arch.anima,
             Arch.zimage,
         ]
 
@@ -791,6 +797,7 @@ def is_required(kind: ResourceKind, arch: Arch, identifier: ControlMode | Upscal
     resource_id(ResourceKind.text_encoder, Arch.all, "qwen"): ["qwen_2.5_vl_7b", "qwen2.5-vl-7b", "qwen_2", "qwen-2", "qwen"],
     resource_id(ResourceKind.text_encoder, Arch.all, "qwen_3_4b"): ["qwen_3_4b", "qwen3-4b", "qwen3_4b", "qwen_3", "qwen-3"],
     resource_id(ResourceKind.text_encoder, Arch.all, "qwen_3_8b"): ["qwen_3_8b", "qwen3-8b", "qwen3_8b"],
+    resource_id(ResourceKind.text_encoder, Arch.all, "qwen_3_06b"): ["qwen_3_06b"],
     resource_id(ResourceKind.vae, Arch.sd15, "default"): ["vae-ft-mse-840000-ema"],
     resource_id(ResourceKind.vae, Arch.sdxl, "default"): ["sdxl_vae"],
     resource_id(ResourceKind.vae, Arch.illu, "default"): ["sdxl_vae"],
@@ -805,6 +812,7 @@ def is_required(kind: ResourceKind, arch: Arch, identifier: ControlMode | Upscal
     resource_id(ResourceKind.vae, Arch.qwen_e, "default"): ["qwen"],
     resource_id(ResourceKind.vae, Arch.qwen_e_p, "default"): ["qwen"],
     resource_id(ResourceKind.vae, Arch.qwen_l, "default"): ["qwen_image_layered_vae"],
+    resource_id(ResourceKind.vae, Arch.anima, "default"): ["qwen_image"],
     resource_id(ResourceKind.vae, Arch.zimage, "default"): ["z-image", "flux-", "flux_", "flux/", "flux1", "ae.s"],
 }
 # fmt: on
@@ -815,6 +823,7 @@ def is_required(kind: ResourceKind, arch: Arch, identifier: ControlMode | Upscal
     ResourceId(ResourceKind.text_encoder, Arch.qwen, "qwen"),
     ResourceId(ResourceKind.text_encoder, Arch.qwen_e, "qwen"),
     ResourceId(ResourceKind.text_encoder, Arch.qwen_e_p, "qwen"),
+    ResourceId(ResourceKind.text_encoder, Arch.anima, "qwen_3_06b"),
     ResourceId(ResourceKind.text_encoder, Arch.zimage, "qwen_3_4b"),
     ResourceId(ResourceKind.text_encoder, Arch.flux2_4b, "qwen_3_4b"),
     ResourceId(ResourceKind.text_encoder, Arch.flux2_9b, "qwen_3_8b"),
@@ -834,6 +843,7 @@ def is_required(kind: ResourceKind, arch: Arch, identifier: ControlMode | Upscal
     ResourceId(ResourceKind.vae, Arch.qwen, "default"),
     ResourceId(ResourceKind.vae, Arch.qwen_e, "default"),
     ResourceId(ResourceKind.vae, Arch.qwen_e_p, "default"),
+    ResourceId(ResourceKind.vae, Arch.anima, "default"),
     ResourceId(ResourceKind.vae, Arch.zimage, "default"),
     ResourceId(ResourceKind.vae, Arch.flux2_4b, "default"),
     ResourceId(ResourceKind.vae, Arch.flux2_9b, "default"),
diff --git a/ai_diffusion/workflow.py b/ai_diffusion/workflow.py
@@ -163,6 +163,8 @@ def load_checkpoint_with_lora(w: ComfyWorkflow, checkpoint: CheckpointInput, mod
                 clip = w.t5_tokenizer_options(clip, min_padding=1, min_length=0)
             case Arch.qwen | Arch.qwen_e | Arch.qwen_e_p | Arch.qwen_l:
                 clip = w.load_clip(te["qwen"], type="qwen_image")
+            case Arch.anima:
+                clip = w.load_clip(te["qwen_3_06b"], type="omnigen2")
             case Arch.zimage:
                 clip = w.load_clip(te["qwen_3_4b"], type="lumina2")
             case _:
diff --git a/tests/test_resources.py b/tests/test_resources.py
@@ -47,7 +47,14 @@ def test_same_name_same_model():
 def test_resource_ids_exist():
     ids = chain(res.required_resource_ids, res.recommended_resource_ids)
     for resource_id in ids:
-        if resource_id.arch in (Arch.sd3, Arch.qwen, Arch.qwen_e, Arch.qwen_e_p, Arch.flux2_9b):
+        if resource_id.arch in (
+            Arch.sd3,
+            Arch.qwen,
+            Arch.qwen_e,
+            Arch.qwen_e_p,
+            Arch.flux2_9b,
+            Arch.anima,
+        ):
             continue  # no model downloads yet
         model = res.find_resource(resource_id)
         assert model is not None, f"Resource ID {resource_id} not found"

Original file line number	Diff line number	Diff line change
`@@ -751,7 +751,7 @@ def _find_text_encoder_models(model_list: Sequence[str]):`
`751`	`751`	`kind = ResourceKind.text_encoder`
`752`	`752`	`return {`
`753`	`753`	`resource_id(kind, Arch.all, te): _find_model(model_list, kind, Arch.all, te)`
`754`		`- for te in ["clip_l", "clip_g", "t5", "qwen", "qwen_3_4b", "qwen_3_8b"]`
	`754`	`+ for te in ["clip_l", "clip_g", "t5", "qwen", "qwen_3_06b", "qwen_3_4b", "qwen_3_8b"]`
`755`	`755`	`}`
`756`	`756`
`757`	`757`