ModelTC
diff --git a/‎examples/neopp/neopp_dense_1k.py‎
Lines changed: 32 additions & 13 deletions b/‎examples/neopp/neopp_dense_1k.py‎
Lines changed: 32 additions & 13 deletions
diff --git a/‎examples/neopp/neopp_dense_1k_cfg2.py‎
Lines changed: 93 additions & 0 deletions b/‎examples/neopp/neopp_dense_1k_cfg2.py‎
Lines changed: 93 additions & 0 deletions
diff --git a/‎examples/neopp/neopp_dense_1k_cfg3.py‎
Lines changed: 0 additions & 51 deletions b/‎examples/neopp/neopp_dense_1k_cfg3.py‎
Lines changed: 0 additions & 51 deletions
diff --git a/‎lightx2v/models/networks/neopp/infer/kv_cache_manager.py‎
Lines changed: 8 additions & 0 deletions b/‎lightx2v/models/networks/neopp/infer/kv_cache_manager.py‎
Lines changed: 8 additions & 0 deletions
diff --git a/‎lightx2v/models/networks/neopp/model.py‎
Lines changed: 76 additions & 48 deletions b/‎lightx2v/models/networks/neopp/model.py‎
Lines changed: 76 additions & 48 deletions
@@ -5,41 +5,60 @@
 # -------------------------------------------------
 
 pipe = LightX2VPipeline(
-    model_path="/data/nvme1/yongyang/FL/neo9b/neo9b",
+    model_path="/data/nvme1/yongyang/FL/neo_9b_new/hf_step4000_ema",
     model_cls="neopp",
     support_tasks=["t2i", "i2i"],
 )
 
 pipe.create_generator(config_json="../../configs/neopp/neopp_dense.json")
-pipe.modify_config({"load_kv_cache_in_pipeline_for_debug": False})
+pipe.modify_config({"load_kv_cache_in_pipeline_for_debug": False, "save_result_for_debug": True})
 
 
 # -------------------------------------------------
 # Load KV cache and generate
 # -------------------------------------------------
 
-pipe.runner.load_kvcache_t2i(
-    "/data/nvme1/yongyang/FL/neo_test9b/vlm_tensor/to_x2v_cond_kv.pt",
-    "/data/nvme1/yongyang/FL/neo_test9b/vlm_tensor/to_x2v_uncond_kv.pt",
+# -------------------------------------------------
+# TURN 0
+# -------------------------------------------------
+pipe.runner.load_kvcache(
+    "/data/nvme1/yongyang/FL/neo_9b_new/vlm_tensor/to_x2v_cond_kv_0_289.pt",
+    "/data/nvme1/yongyang/FL/neo_9b_new/vlm_tensor/to_x2v_uncond_kv_0_9.pt",
+)
+pipe.runner.set_inference_params(
+    index_offset_cond=289,
+    index_offset_uncond=9,
+    cfg_interval=(-1, 2),
+    cfg_scale=4.0,
+    cfg_norm="global",
+    timestep_shift=3.0,
 )
 
 pipe.generate(
     seed=200,
-    task="t2i",
-    save_result_path="/data/nvme1/yongyang/FL/LightX2V/save_results/output_lightx2v_neopp_dense_t2i_1k.png",
+    save_result_path="/data/nvme1/yongyang/FL/LightX2V/save_results/output_lightx2v_neopp_dense_1k_0.png",
     target_shape=[1024, 1024],  # Height, Width
 )
 
 
-pipe.runner.load_kvcache_i2i(
-    "/data/nvme1/yongyang/FL/neo_test9b/vlm_tensor_it2i/to_x2v_cond_kv.pt",
-    "/data/nvme1/yongyang/FL/neo_test9b/vlm_tensor_it2i/to_x2v_uncond_kv_text.pt",
-    "/data/nvme1/yongyang/FL/neo_test9b/vlm_tensor_it2i/to_x2v_uncond_kv_img.pt",
+# -------------------------------------------------
+# TURN 1
+# -------------------------------------------------
+pipe.runner.load_kvcache(
+    "/data/nvme1/yongyang/FL/neo_9b_new/vlm_tensor/to_x2v_cond_kv_1_346.pt",
+    "/data/nvme1/yongyang/FL/neo_9b_new/vlm_tensor/to_x2v_uncond_kv_1_12.pt",
+)
+pipe.runner.set_inference_params(
+    index_offset_cond=346,
+    index_offset_uncond=12,
+    cfg_interval=(-1, 2),
+    cfg_scale=4.0,
+    cfg_norm="global",
+    timestep_shift=3.0,
 )
 
 pipe.generate(
     seed=200,
-    task="i2i",
-    save_result_path="/data/nvme1/yongyang/FL/LightX2V/save_results/output_lightx2v_neopp_dense_i2i_1k.png",
+    save_result_path="/data/nvme1/yongyang/FL/LightX2V/save_results/output_lightx2v_neopp_dense_1k_1.png",
     target_shape=[1024, 1024],  # Height, Width
 )
@@ -0,0 +1,93 @@
+import torch.distributed as dist
+
+from lightx2v import LightX2VPipeline
+
+# -------------------------------------------------
+# Initialize pipeline for NeoPP
+# -------------------------------------------------
+
+pipe = LightX2VPipeline(
+    model_path="/data/nvme1/yongyang/FL/neo9b/neo9b",
+    model_cls="neopp",
+    support_tasks=["t2i", "i2i"],
+)
+
+pipe.create_generator(config_json="../../configs/neopp/neopp_dense_cfg2.json")
+pipe.modify_config({"load_kv_cache_in_pipeline_for_debug": False, "save_result_for_debug": True})
+
+
+# -------------------------------------------------
+# Load KV cache and generate
+# -------------------------------------------------
+
+# -------------------------------------------------
+# TURN 0
+# -------------------------------------------------
+pipe.runner.load_kvcache(
+    "/data/nvme1/yongyang/FL/neo_9b_new/vlm_tensor/to_x2v_cond_kv_0_289.pt",
+    "/data/nvme1/yongyang/FL/neo_9b_new/vlm_tensor/to_x2v_uncond_kv_0_9.pt",
+)
+pipe.runner.set_inference_params(
+    index_offset_cond=289,
+    index_offset_uncond=9,
+    cfg_interval=(-1, 2),
+    cfg_scale=4.0,
+    cfg_norm="global",
+    timestep_shift=3.0,
+)
+
+pipe.generate(
+    seed=200,
+    save_result_path="/data/nvme1/yongyang/FL/LightX2V/save_results/output_lightx2v_neopp_dense_1k_0.png",
+    target_shape=[1024, 1024],  # Height, Width
+)
+
+
+# -------------------------------------------------
+# TURN 1
+# -------------------------------------------------
+pipe.runner.load_kvcache(
+    "/data/nvme1/yongyang/FL/neo_9b_new/vlm_tensor/to_x2v_cond_kv_1_346.pt",
+    "/data/nvme1/yongyang/FL/neo_9b_new/vlm_tensor/to_x2v_uncond_kv_1_12.pt",
+)
+pipe.runner.set_inference_params(
+    index_offset_cond=346,
+    index_offset_uncond=12,
+    cfg_interval=(-1, 2),
+    cfg_scale=4.0,
+    cfg_norm="global",
+    timestep_shift=3.0,
+)
+
+pipe.generate(
+    seed=200,
+    save_result_path="/data/nvme1/yongyang/FL/LightX2V/save_results/output_lightx2v_neopp_dense_1k_1.png",
+    target_shape=[1024, 1024],  # Height, Width
+)
+
+
+# -------------------------------------------------
+# TURN 2
+# -------------------------------------------------
+pipe.runner.load_kvcache(
+    "/data/nvme1/yongyang/FL/neo_9b_new/vlm_tensor/to_x2v_cond_kv_2_411.pt",
+    "/data/nvme1/yongyang/FL/neo_9b_new/vlm_tensor/to_x2v_uncond_kv_2_15.pt",
+)
+pipe.runner.set_inference_params(
+    index_offset_cond=411,
+    index_offset_uncond=15,
+    cfg_interval=(-1, 2),
+    cfg_scale=4.0,
+    cfg_norm="global",
+    timestep_shift=3.0,
+)
+
+pipe.generate(
+    seed=200,
+    save_result_path="/data/nvme1/yongyang/FL/LightX2V/save_results/output_lightx2v_neopp_dense_1k_2.png",
+    target_shape=[1024, 1024],  # Height, Width
+)
+
+
+if dist.is_initialized():
+    dist.destroy_process_group()
@@ -82,3 +82,11 @@ def update(self, layer_idx: int, key_states: torch.Tensor, value_states: torch.T
         self._kv_buf[layer_idx, 0, self._kv_past_seq :] = key_states
         self._kv_buf[layer_idx, 1, self._kv_past_seq :] = value_states
         return self._kv_buf[layer_idx, 0], self._kv_buf[layer_idx, 1]
+
+    def clear(self):
+        self._kv_buf_cond = None
+        self._kv_buf_cond_key = None
+        self._kv_buf_uncond = None
+        self._kv_buf_uncond_key = None
+        self._kv_buf = None
+        self._kv_past_seq = None
@@ -24,8 +24,8 @@ def __init__(self, model_path, config, device):
         self._init_infer()
         self._init_weights()
         self.cfg_interval = self.config.get("cfg_interval", (-1, 2))
-        self.cfg_scale = self.config.get("cfg_scale", 7.0)
-        self.img_cfg_scale = self.config.get("img_cfg_scale", 1.5)
+        self.cfg_scale = self.config.get("cfg_scale", 4.0)
+        self.cfg_norm = self.config.get("cfg_norm", "global")
         self.patch_size = self.config.get("patch_size", 16)
         self.merge_size = 2
 
@@ -41,12 +41,17 @@ def _init_infer(self):
 
     @torch.no_grad()
     def infer(self, inputs):
+        logger.info(f"infer: cfg_scale={self.cfg_scale}")
+        logger.info(f"infer: cfg_interval={self.cfg_interval}")
+        logger.info(f"infer: cfg_norm={self.cfg_norm}")
         pre_infer_out = self.pre_infer.infer(self.pre_weight)
 
-        if self.config["task"] == "i2i":
-            v_pred = self._infer_i2i(inputs, pre_infer_out)
-        else:
-            v_pred = self._infer_t2i(inputs, pre_infer_out)
+        # if self.config["task"] == "i2i":
+        #     v_pred = self._infer_i2i(inputs, pre_infer_out)
+        # else:
+        #     v_pred = self._infer_t2i(inputs, pre_infer_out)
+
+        v_pred = self._infer_t2i_i2i(inputs, pre_infer_out)
 
         t = self.scheduler.timesteps[self.scheduler.step_index]
         t_next = self.scheduler.timesteps[self.scheduler.step_index + 1]
@@ -59,7 +64,26 @@ def infer(self, inputs):
         )
         return z
 
-    def _infer_t2i(self, inputs, pre_infer_out):
+    def cfg_norm_func(self, v_pred, v_pred_condition):
+        if self.cfg_norm == "global":
+            logger.info(f"cfg_norm is global, applying global normalization")
+            norm_v_condition = torch.norm(v_pred_condition, dim=(1, 2), keepdim=True)
+            norm_v_cfg = torch.norm(v_pred, dim=(1, 2), keepdim=True)
+            scale = (norm_v_condition / (norm_v_cfg + 1e-8)).clamp(min=0, max=1.0)
+            v_pred = v_pred * scale
+        elif self.cfg_norm == "channel":
+            logger.info(f"cfg_norm is channel, applying channel normalization")
+            norm_v_condition = torch.norm(v_pred_condition, dim=-1, keepdim=True)
+            norm_v_cfg = torch.norm(v_pred, dim=-1, keepdim=True)
+            scale = (norm_v_condition / (norm_v_cfg + 1e-8)).clamp(min=0, max=1.0)
+            v_pred = v_pred * scale
+        elif self.cfg_norm == "none":
+            logger.info(f"cfg_norm is none, no normalization will be applied")
+        else:
+            raise ValueError(f"Invalid cfg_norm: {self.cfg_norm}")
+        return v_pred
+
+    def _infer_t2i_i2i(self, inputs, pre_infer_out):
         t = self.scheduler.timesteps[self.scheduler.step_index]
         use_cfg = t > self.cfg_interval[0] and t < self.cfg_interval[1] and self.cfg_scale > 1
 
@@ -79,55 +103,59 @@ def _infer_t2i(self, inputs, pre_infer_out):
                 v_pred_list = [torch.zeros_like(v_pred) for _ in range(cfg_p_world_size)]
                 dist.all_gather(v_pred_list, v_pred, group=cfg_p_group)
                 v_pred_cond, v_pred_uncond = v_pred_list[0], v_pred_list[1]
-                return v_pred_uncond + self.cfg_scale * (v_pred_cond - v_pred_uncond)
+                v_pred = v_pred_uncond + self.cfg_scale * (v_pred_cond - v_pred_uncond)
+                v_pred = self.cfg_norm_func(v_pred, v_pred_cond)
+                return v_pred
             else:
                 return self._infer_pass(inputs, pre_infer_out, "cond")
         else:
             v_pred_condition = self._infer_pass(inputs, pre_infer_out, "cond")
             if use_cfg:
                 v_pred_uncond = self._infer_pass(inputs, pre_infer_out, "uncond")
-                return v_pred_uncond + self.cfg_scale * (v_pred_condition - v_pred_uncond)
+                v_pred = v_pred_uncond + self.cfg_scale * (v_pred_condition - v_pred_uncond)
+                v_pred = self.cfg_norm_func(v_pred, v_pred_condition)
+                return v_pred
             return v_pred_condition
 
-    def _infer_i2i(self, inputs, pre_infer_out):
-        t = self.scheduler.timesteps[self.scheduler.step_index]
-        use_cfg = t > self.cfg_interval[0] and t < self.cfg_interval[1]
-
-        if self.config.get("cfg_parallel", False):
-            cfg_p_group = self.config["device_mesh"].get_group(mesh_dim="cfg_p")
-            # assert dist.get_world_size(cfg_p_group) == 3, "cfg_p_world_size must be equal to 3 for i2i"
-            cfg_p_rank = dist.get_rank(cfg_p_group)
-
-            if use_cfg:
-                if cfg_p_rank == 0:
-                    v_pred = self._infer_pass(inputs, pre_infer_out, "cond")
-                elif cfg_p_rank == 1:
-                    if self.cfg_scale > 1:
-                        v_pred = self._infer_pass(inputs, pre_infer_out, "text_uncond")
-                    else:
-                        v_pred = torch.zeros_like(pre_infer_out.z)
-                elif cfg_p_rank == 2:
-                    if self.img_cfg_scale > 1:
-                        v_pred = self._infer_pass(inputs, pre_infer_out, "img_uncond")
-                    else:
-                        v_pred = torch.zeros_like(pre_infer_out.z)
-                v_pred_list = [torch.zeros_like(v_pred) for _ in range(3)]
-                dist.all_gather(v_pred_list, v_pred, group=cfg_p_group)
-                v_pred_condition = v_pred_list[0]
-                v_pred_text_uncond = v_pred_list[1] if self.cfg_scale > 1 else 0
-                v_pred_img_uncond = v_pred_list[2] if self.img_cfg_scale > 1 else 0
-                v_pred_text = v_pred_text_uncond + self.cfg_scale * (v_pred_condition - v_pred_text_uncond)
-                return v_pred_img_uncond + self.img_cfg_scale * (v_pred_text - v_pred_img_uncond)
-            else:
-                return self._infer_pass(inputs, pre_infer_out, "cond")
-        else:
-            v_pred_condition = self._infer_pass(inputs, pre_infer_out, "cond")
-            if use_cfg:
-                v_pred_text_uncond = self._infer_pass(inputs, pre_infer_out, "text_uncond") if self.cfg_scale > 1 else 0
-                v_pred_img_uncond = self._infer_pass(inputs, pre_infer_out, "img_uncond") if self.img_cfg_scale > 1 else 0
-                v_pred_text = v_pred_text_uncond + self.cfg_scale * (v_pred_condition - v_pred_text_uncond)
-                return v_pred_img_uncond + self.img_cfg_scale * (v_pred_text - v_pred_img_uncond)
-            return v_pred_condition
+    # def _infer_i2i(self, inputs, pre_infer_out):
+    #     t = self.scheduler.timesteps[self.scheduler.step_index]
+    #     use_cfg = t > self.cfg_interval[0] and t < self.cfg_interval[1]
+
+    #     if self.config.get("cfg_parallel", False):
+    #         cfg_p_group = self.config["device_mesh"].get_group(mesh_dim="cfg_p")
+    #         # assert dist.get_world_size(cfg_p_group) == 3, "cfg_p_world_size must be equal to 3 for i2i"
+    #         cfg_p_rank = dist.get_rank(cfg_p_group)
+
+    #         if use_cfg:
+    #             if cfg_p_rank == 0:
+    #                 v_pred = self._infer_pass(inputs, pre_infer_out, "cond")
+    #             elif cfg_p_rank == 1:
+    #                 if self.cfg_scale > 1:
+    #                     v_pred = self._infer_pass(inputs, pre_infer_out, "text_uncond")
+    #                 else:
+    #                     v_pred = torch.zeros_like(pre_infer_out.z)
+    #             elif cfg_p_rank == 2:
+    #                 if self.img_cfg_scale > 1:
+    #                     v_pred = self._infer_pass(inputs, pre_infer_out, "img_uncond")
+    #                 else:
+    #                     v_pred = torch.zeros_like(pre_infer_out.z)
+    #             v_pred_list = [torch.zeros_like(v_pred) for _ in range(3)]
+    #             dist.all_gather(v_pred_list, v_pred, group=cfg_p_group)
+    #             v_pred_condition = v_pred_list[0]
+    #             v_pred_text_uncond = v_pred_list[1] if self.cfg_scale > 1 else 0
+    #             v_pred_img_uncond = v_pred_list[2] if self.img_cfg_scale > 1 else 0
+    #             v_pred_text = v_pred_text_uncond + self.cfg_scale * (v_pred_condition - v_pred_text_uncond)
+    #             return v_pred_img_uncond + self.img_cfg_scale * (v_pred_text - v_pred_img_uncond)
+    #         else:
+    #             return self._infer_pass(inputs, pre_infer_out, "cond")
+    #     else:
+    #         v_pred_condition = self._infer_pass(inputs, pre_infer_out, "cond")
+    #         if use_cfg:
+    #             v_pred_text_uncond = self._infer_pass(inputs, pre_infer_out, "text_uncond") if self.cfg_scale > 1 else 0
+    #             v_pred_img_uncond = self._infer_pass(inputs, pre_infer_out, "img_uncond") if self.img_cfg_scale > 1 else 0
+    #             v_pred_text = v_pred_text_uncond + self.cfg_scale * (v_pred_condition - v_pred_text_uncond)
+    #             return v_pred_img_uncond + self.img_cfg_scale * (v_pred_text - v_pred_img_uncond)
+    #         return v_pred_condition
 
     def _infer_pass(self, inputs, pre_infer_out, pass_name):
         """Run one forward pass. pass_name: 'cond' | 'uncond' | 'text_uncond' | 'img_uncond'"""