fix qwen3_30b_a3b_base_config.

JamesDeng42 · JamesDeng42 · commit e4d28d61696b · 2026-06-15T23:27:07.000Z
diff --git a/src/maxtext/checkpoint_conversion/utils/hf_model_configs.py b/src/maxtext/checkpoint_conversion/utils/hf_model_configs.py
@@ -724,14 +724,15 @@
     attention_dropout=0.0,
     bos_token_id=151643,
     decoder_sparse_step=1,
-    eos_token_id=151645,
+    eos_token_id=151643,
     head_dim=128,
     hidden_act="silu",
     hidden_size=2048,
     initializer_range=0.02,
     intermediate_size=6144,
-    max_position_embeddings=262144,
+    max_position_embeddings=32768,
     max_window_layers=48,
+    mlp_only_layers=[],
     model_type="qwen3_moe",
     moe_intermediate_size=768,
     norm_topk_prob=True,
@@ -748,8 +749,10 @@
     sliding_window=None,
     tie_word_embeddings=False,
     torch_dtype="bfloat16",
+    transformers_version="4.51.0",
     use_cache=True,
     vocab_size=151936,
+    use_sliding_window=False,
 )
 
 qwen3_235b_a22b_thinking_2507_config = transformers.Qwen3MoeConfig(