feat(cookbook): update transformers model configuration for Qwen3.5

meichangsu1 · meichangsu1 · commit c96502e22258 · 2026-04-02T20:35:03.000+08:00
- Replace generic TransformersModel with Qwen3.5ForConditionalGeneration
- Set custom `_no_split_modules` to {'Qwen3_5DecoderLayer'} for FSDP compatibility
- Use specific model ID 'ms://Qwen/Qwen3.5-4B' instead of generic MODEL_ID
- Remove explicit strategy parameter as it's handled by model configuration
diff --git a/cookbook/transformers/sp_fsdp_dense.py b/cookbook/transformers/sp_fsdp_dense.py
@@ -62,12 +62,9 @@ def train():
         batch_size=8,
         device_mesh=device_mesh,
     )
-
-    model = TransformersModel(
-        model_id=MODEL_ID,
-        device_mesh=device_mesh,
-        strategy='native_fsdp',
-    )
+    from transformers.models.qwen3_5.modeling_qwen3_5 import Qwen3_5ForConditionalGeneration
+    model = TransformersModel(model_id='ms://Qwen/Qwen3.5-4B', model_cls=Qwen3_5ForConditionalGeneration)
+    model.model._no_split_modules = {'Qwen3_5DecoderLayer'}
 
     lora_config = LoraConfig(target_modules='all-linear')
     model.add_adapter_to_model('default', lora_config, gradient_accumulation_steps=1)