feat: move rope calculation from QwenImageEditPlus pipeline to transformer.

shan-chen-feng · shan-chen-feng · commit bd0a8b08dfb2 · 2026-04-09T11:07:49.000+08:00
diff --git a/xllm/models/dit/npu/qwen_image_edit/pipeline_qwenimage_edit_plus.h b/xllm/models/dit/npu/qwen_image_edit/pipeline_qwenimage_edit_plus.h
@@ -68,6 +68,30 @@ class QwenImageEditPlusPipelineImpl : public QwenImagePipelineBaseImpl {
     register_module("scheduler", scheduler_);
     register_module("transformer", transformer_);
     register_module("vae_image_processor", vae_image_processor_);
+
+    use_layer3d_rope_ = context.get_model_context("transformer")
+                            .get_model_args()
+                            .use_layer3d_rope();
+    std::vector<int64_t> axes_dims_rope =
+        context.get_model_context("transformer")
+            .get_model_args()
+            .axes_dims_rope();
+    // Positional embedding
+    if (use_layer3d_rope_) {
+      pos_embed_3d_rope_ = register_module(
+          "pos_embed",
+          QwenEmbedLayer3DRope(context.get_model_context("transformer"),
+                               /*theta=*/10000,
+                               axes_dims_rope,
+                               true));
+    } else {
+      pos_embed_ = register_module(
+          "pos_embed",
+          QwenEmbedRope(context.get_model_context("transformer"),
+                        /*theta=*/10000,
+                        axes_dims_rope,
+                        true));
+    }
   }
 
   std::vector<torch::Tensor> _extract_masked_hidden(
@@ -461,51 +485,31 @@ class QwenImageEditPlusPipelineImpl : public QwenImagePipelineBaseImpl {
     if (do_true_cfg && negative_prompt_embeds_mask.defined()) {
       negative_txt_seq_lens = negative_prompt_embeds_mask.sum(1);
     }
-    /*
-    if (prompt_embeds.size(1) % FLAGS_sp_size != 0) {
-      int64_t pad_len =
-          FLAGS_sp_size - prompt_embeds.size(1) % FLAGS_sp_size;
-      std::vector<int64_t> pad_with = {
-          0,
-          0,  // 第3维�~Hhe   ight�~I�        ~Mpad
-          0,
-          pad_len,  // 第 2维�~Hchannels�~I�~I~M�~P~Npad
-          0,
-          0};  // 第1维�~Hbatch�~I�~Mpad
-      std::vector<int64_t> pad_with_mask = {
-          // 第3维�~Hhe   ight�~I�        ~Mpad
-          0,
-          pad_len,  // 第 2维�~Hchannels�~I�~I~M�~P~Npad
-          0,
-          0};  // 第1维�~Hbatch�~I�~Mpad
-      prompt_embeds = torch::pad(prompt_embeds, pad_with, "constant", 0);
-      prompt_embeds_mask =
-          torch::pad(prompt_embeds_mask, pad_with_mask, "constant", 0);
-    }
 
-    if (negative_prompt_embeds.size(1) % FLAGS_sp_size != 0) {
-      int64_t pad_len = FLAGS_sp_size -
-                        negative_prompt_embeds.size(1) % FLAGS_sp_size;
-      std::vector<int64_t> pad_with = {
-          0,
-          0,  // 第3维�~Hhe   ight�~I�        ~Mpad
-          0,
-          pad_len,  // 第 2维�~Hchannels�~I�~I~M�~P~Npad
-          0,
-          0};  // 第1维�~Hbatch�~I�~Mpad
-      std::vector<int64_t> pad_with_mask = {
-          // 第3维�~Hhe   ight�~I�        ~Mpad
-          0,
-          pad_len,  // 第 2维�~Hchannels�~I�~I~M�~P~Npad
-          0,
-          0};
-      negative_prompt_embeds =
-          torch::pad(negative_prompt_embeds, pad_with, "constant", 0);
-      negative_prompt_embeds_mask =
-          torch::pad(negative_prompt_embeds_mask, pad_with_mask, "constant", 0);
-    }
-    */
     scheduler_->set_begin_index(0);
+
+    int64_t origin_text_seq_len = prompt_embeds.size(1);
+    int64_t origin_neg_text_seq_len = negative_prompt_embeds.size(1);
+    std::tuple<torch::Tensor, torch::Tensor> image_rotary_emb_pos;
+    std::tuple<torch::Tensor, torch::Tensor> image_rotary_emb_neg;
+    if (use_layer3d_rope_) {
+      image_rotary_emb_pos = pos_embed_3d_rope_->forward(
+          main_shape, origin_text_seq_len, prompt_embeds.device());
+      image_rotary_emb_neg = pos_embed_3d_rope_->forward(
+          main_shape, origin_neg_text_seq_len, prompt_embeds.device());
+    } else {
+      image_rotary_emb_pos =
+          pos_embed_->forward(main_shape,
+                              origin_text_seq_len,
+                              prompt_embeds.device(),
+                              /*max_txt_seq_len=*/std::nullopt);
+      image_rotary_emb_neg =
+          pos_embed_->forward(main_shape,
+                              origin_neg_text_seq_len,
+                              prompt_embeds.device(),
+                              /*max_txt_seq_len=*/std::nullopt);
+    }
+
     for (int64_t i = 0; i < timesteps.size(0); ++i) {
       auto t = timesteps[i];
       current_timestep_ = t;
@@ -530,6 +534,7 @@ class QwenImageEditPlusPipelineImpl : public QwenImagePipelineBaseImpl {
                                              timestep_expanded / 1000.0,
                                              main_shape,
                                              txt_seq_lens,
+                                             image_rotary_emb_pos,
                                              /*use_cfg=*/false,
                                              /*step_index=*/i);
           noise_pred = noise_pred.slice(1, 0, final_latents.size(1));
@@ -544,6 +549,7 @@ class QwenImageEditPlusPipelineImpl : public QwenImagePipelineBaseImpl {
                                                  timestep_expanded / 1000.0,
                                                  main_shape,
                                                  negative_txt_seq_lens,
+                                                 image_rotary_emb_neg,
                                                  /*use_cfg=*/true,
                                                  /*step_index=*/i);
 
@@ -567,6 +573,7 @@ class QwenImageEditPlusPipelineImpl : public QwenImagePipelineBaseImpl {
                                            timestep_expanded / 1000.0,
                                            main_shape,
                                            txt_seq_lens,
+                                           image_rotary_emb_pos,
                                            /*use_cfg=*/false,
                                            /*step_index=*/i);
         noise_pred = noise_pred.slice(1, 0, final_latents.size(1));
@@ -577,6 +584,7 @@ class QwenImageEditPlusPipelineImpl : public QwenImagePipelineBaseImpl {
                                                  timestep_expanded / 1000.0,
                                                  main_shape,
                                                  negative_txt_seq_lens,
+                                                 image_rotary_emb_neg,
                                                  /*use_cfg=*/true,
                                                  /*step_index=*/i);
 
@@ -653,6 +661,9 @@ class QwenImageEditPlusPipelineImpl : public QwenImagePipelineBaseImpl {
   torch::Tensor current_timestep_;
   string prompt_template_encode_;
   const ModelArgs& vae_model_args_;
+  bool use_layer3d_rope_;
+  QwenEmbedRope pos_embed_{nullptr};
+  QwenEmbedLayer3DRope pos_embed_3d_rope_{nullptr};
 };
 
 REGISTER_MODEL_ARGS(Qwen2Tokenizer, [&] {});
diff --git a/xllm/models/dit/npu/qwen_image_edit/transformer_qwen_image.h b/xllm/models/dit/npu/qwen_image_edit/transformer_qwen_image.h
@@ -1390,7 +1390,8 @@ class QwenDoubleStreamAttnProcessorBase : public torch::nn::Module {
       const torch::Tensor& encoder_hidden_states,  // Text stream
       const torch::Tensor& encoder_hidden_states_mask = torch::Tensor(),
       const torch::Tensor& attention_mask = torch::Tensor(),
-      const std::tuple<at::Tensor, at::Tensor>& image_rotary_emb = {}) = 0;
+      const std::tuple<torch::Tensor, torch::Tensor>& image_rotary_emb =
+          {}) = 0;
 
   virtual void load_state_dict(const StateDict& state_dict) {
     attn_->load_state_dict(state_dict);
@@ -1405,7 +1406,7 @@ class QwenDoubleStreamAttnProcessorBase : public torch::nn::Module {
 };
 
 // Implementation of attention forward with communication & computation overlap
-class QwenDoubleStreamAttnProcessorCMO2_0Impl
+class QwenDoubleStreamAttnProcessorCMO2_0Impl final
     : public QwenDoubleStreamAttnProcessorBase {
  public:
   QwenDoubleStreamAttnProcessorCMO2_0Impl(Attention&& attn_module,
@@ -1426,7 +1427,7 @@ class QwenDoubleStreamAttnProcessorCMO2_0Impl
       const torch::Tensor& encoder_hidden_states,  // Text stream
       const torch::Tensor& encoder_hidden_states_mask = torch::Tensor(),
       const torch::Tensor& attention_mask = torch::Tensor(),
-      const std::tuple<at::Tensor, at::Tensor>& image_rotary_emb = {})
+      const std::tuple<torch::Tensor, torch::Tensor>& image_rotary_emb = {})
       override {
     //  Compute QKV for image stream (sample projections)
     // auto reshape_dims = std::vector<int64_t>{heads / FLAGS_sp_size,
@@ -1562,8 +1563,8 @@ class QwenDoubleStreamAttnProcessorCMO2_0Impl
         /*atten_mask*/ torch::nullopt,
         /*scale=*/pow(joint_query.size(3), -0.5),
         /*keep_prob=*/1.0,
-        /*pre_tockens=*/65535,
-        /*next_tockens=*/65535);
+        /*pre_tokens=*/65535,
+        /*next_tokens=*/65535);
 
     auto joint_hidden_states = std::get<0>(results);
     // Reshape back
@@ -1634,7 +1635,7 @@ class QwenDoubleStreamAttnProcessorCMO2_0Impl
 TORCH_MODULE(QwenDoubleStreamAttnProcessorCMO2_0);
 
 // Implementation of attention forward
-class QwenDoubleStreamAttnProcessor2_0Impl
+class QwenDoubleStreamAttnProcessor2_0Impl final
     : public QwenDoubleStreamAttnProcessorBase {
  public:
   QwenDoubleStreamAttnProcessor2_0Impl(Attention&& attn_module,
@@ -1647,7 +1648,7 @@ class QwenDoubleStreamAttnProcessor2_0Impl
       const torch::Tensor& encoder_hidden_states,  // Text stream
       const torch::Tensor& encoder_hidden_states_mask = torch::Tensor(),
       const torch::Tensor& attention_mask = torch::Tensor(),
-      const std::tuple<at::Tensor, at::Tensor>& image_rotary_emb = {})
+      const std::tuple<torch::Tensor, torch::Tensor>& image_rotary_emb = {})
       override {
     // int64_t seq_txt = encoder_hidden_states.size(1);
     // int64_t seq_img = hidden_states.size(1);
@@ -2115,17 +2116,6 @@ class QwenImageTransformer2DModelImpl : public torch::nn::Module {
     out_channels = (out_channels > 0) ? out_channels : in_channels;
     auto inner_dim = num_attention_heads * attention_head_dim;
 
-    // Positional embedding
-    if (use_layer3d_rope_) {
-      pos_embed_3d_rope_ = register_module(
-          "pos_embed",
-          QwenEmbedLayer3DRope(context, /*theta=*/10000, axes_dims_rope, true));
-    } else {
-      pos_embed_ = register_module(
-          "pos_embed",
-          QwenEmbedRope(context, /*theta=*/10000, axes_dims_rope, true));
-    }
-
     // Time-text embedding
     time_text_embed_ = register_module(
         "time_text_embed",
@@ -2178,6 +2168,7 @@ class QwenImageTransformer2DModelImpl : public torch::nn::Module {
       torch::Tensor timestep = torch::Tensor(),
       std::vector<std::vector<int64_t>> img_shapes = {},
       torch::Tensor txt_seq_lens = torch::Tensor(),
+      const std::tuple<torch::Tensor, torch::Tensor>& image_rotary_emb = {},
       bool use_cfg = false,
       int64_t step_idx = 0,
       torch::Tensor addition_t_cond = torch::Tensor(),
@@ -2212,8 +2203,6 @@ class QwenImageTransformer2DModelImpl : public torch::nn::Module {
       modulate_index = torch::Tensor();
     }
 
-    auto origin_text_seq_len = encoder_hidden_states.size(1);
-
     // padding mask for sequence parallel scene
     auto padded_encoder_hidden_states_mask =
         xllm::dit::SequenceParallelPadManager::getInstance().pad_tensor(
@@ -2245,16 +2234,6 @@ class QwenImageTransformer2DModelImpl : public torch::nn::Module {
                                        padded_encoder_hidden_states_mask);
     auto temb = time_text_embed_->forward(
         new_timestep, new_hidden_states, addition_t_cond);
-    std::tuple<torch::Tensor, torch::Tensor> image_rotary_emb;
-    if (use_layer3d_rope_) {
-      image_rotary_emb = pos_embed_3d_rope_->forward(
-          img_shapes, origin_text_seq_len, new_hidden_states.device());
-    } else {
-      image_rotary_emb = pos_embed_->forward(img_shapes,
-                                             origin_text_seq_len,
-                                             new_hidden_states.device(),
-                                             /*max_txt_seq_len=*/std::nullopt);
-    }
 
     std::unordered_map<std::string, torch::Tensor> block_attention_kwargs;
     if (new_encoder_hidden_states_mask.has_value() &&
@@ -2398,8 +2377,6 @@ class QwenImageTransformer2DModelImpl : public torch::nn::Module {
 
  private:
   torch::TensorOptions options_;
-  QwenEmbedRope pos_embed_{nullptr};
-  QwenEmbedLayer3DRope pos_embed_3d_rope_{nullptr};
   QwenTimestepProjEmbeddings time_text_embed_{nullptr};
   RMSNorm txt_norm_{nullptr};
   layer::AddMatmulWeightTransposed img_in_{nullptr};