Reformat with pyink indentation=2 line-length=122

bvandermoon · bvandermoon · commit 1f1865f8f3f9 · 2026-04-21T17:38:36.000Z
diff --git a/tests/unit/param_mapping_test.py b/tests/unit/param_mapping_test.py
@@ -29,15 +29,10 @@ def test_gemma3_mapping_unscanned(self):
         "vision_config": {"num_hidden_layers": 1, "hidden_size": 128},
     }
     maxtext_config = mock.Mock()
-    mapping = param_mapping.GEMMA3_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=False
-    )
+    mapping = param_mapping.GEMMA3_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=False)
 
     self.assertIn("params-token_embedder-embedding", mapping)
-    self.assertEqual(
-        mapping["params-token_embedder-embedding"],
-        "model.language_model.embed_tokens.weight",
-    )
+    self.assertEqual(mapping["params-token_embedder-embedding"], "model.language_model.embed_tokens.weight")
 
     # Check text decoder layer 0
     self.assertIn("params-decoder-layers_0-pre_self_attention_norm-scale", mapping)
@@ -48,13 +43,10 @@ def test_gemma3_mapping_unscanned(self):
 
     # Check vision encoder layer 0
     self.assertIn(
-        "params-vision_encoder-Gemma3VisionEncoderLayer_0-Transformer-encoderblock_0-LayerNorm_0-scale",
-        mapping,
+        "params-vision_encoder-Gemma3VisionEncoderLayer_0-Transformer-encoderblock_0-LayerNorm_0-scale", mapping
     )
     self.assertEqual(
-        mapping[
-            "params-vision_encoder-Gemma3VisionEncoderLayer_0-Transformer-encoderblock_0-LayerNorm_0-scale"
-        ],
+        mapping["params-vision_encoder-Gemma3VisionEncoderLayer_0-Transformer-encoderblock_0-LayerNorm_0-scale"],
         "model.vision_tower.vision_model.encoder.layers.0.layer_norm1.weight",
     )
 
@@ -64,26 +56,15 @@ def test_gemma3_mapping_scanned(self):
         "vision_config": {"num_hidden_layers": 1, "hidden_size": 128},
     }
     maxtext_config = mock.Mock()
-    mapping = param_mapping.GEMMA3_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=True
-    )
+    mapping = param_mapping.GEMMA3_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=True)
 
     self.assertIn("params-token_embedder-embedding", mapping)
 
     # Check scanned block mapping
-    self.assertIn(
-        "params-decoder-layers-layers_0-pre_self_attention_norm-scale", mapping
-    )
-    self.assertIsInstance(
-        mapping["params-decoder-layers-layers_0-pre_self_attention_norm-scale"],
-        list,
-    )
-    self.assertEqual(
-        len(
-            mapping["params-decoder-layers-layers_0-pre_self_attention_norm-scale"]
-        ),
-        2,
-    )
+    self.assertIn("params-decoder-layers-layers_0-pre_self_attention_norm-scale", mapping)
+    self.assertIsInstance(mapping["params-decoder-layers-layers_0-pre_self_attention_norm-scale"], list)
+    # Gemma3 repeats a 6-layer pattern. 12 layers means 2 of each.
+    self.assertEqual(len(mapping["params-decoder-layers-layers_0-pre_self_attention_norm-scale"]), 2)
 
   def test_gemma3_hooks(self):
     config = {
@@ -112,35 +93,25 @@ def test_gemma2_mapping(self):
         "hidden_size": 256,
     }
     maxtext_config = mock.Mock()
-    mapping = param_mapping.GEMMA2_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=False
-    )
+    mapping = param_mapping.GEMMA2_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=False)
 
     self.assertIn("params-token_embedder-embedding", mapping)
     # Gemma2 maps MaxText layer i to HF layers 2i and 2i+1
-    self.assertIn(
-        "params-decoder-layers_0-pre_self_attention_norm_local-scale", mapping
-    )
+    self.assertIn("params-decoder-layers_0-pre_self_attention_norm_local-scale", mapping)
     self.assertEqual(
-        mapping["params-decoder-layers_0-pre_self_attention_norm_local-scale"],
-        "model.layers.0.input_layernorm.weight",
-    )
-    self.assertIn(
-        "params-decoder-layers_0-pre_self_attention_norm_global-scale", mapping
+        mapping["params-decoder-layers_0-pre_self_attention_norm_local-scale"], "model.layers.0.input_layernorm.weight"
     )
+    self.assertIn("params-decoder-layers_0-pre_self_attention_norm_global-scale", mapping)
     self.assertEqual(
-        mapping["params-decoder-layers_0-pre_self_attention_norm_global-scale"],
-        "model.layers.1.input_layernorm.weight",
+        mapping["params-decoder-layers_0-pre_self_attention_norm_global-scale"], "model.layers.1.input_layernorm.weight"
     )
 
   def test_qwen_mapping_dense(self):
     config = {
         "num_hidden_layers": 2,
     }
     maxtext_config = mock.Mock()
-    mapping = param_mapping.QWEN_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=False
-    )
+    mapping = param_mapping.QWEN_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=False)
 
     self.assertIn("params-token_embedder-embedding", mapping)
     self.assertIn("params-decoder-layers_0-mlp-wi_0-kernel", mapping)
@@ -151,14 +122,10 @@ def test_qwen_mapping_moe(self):
         "num_experts": 4,
     }
     maxtext_config = mock.Mock()
-    mapping = param_mapping.QWEN_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=False
-    )
+    mapping = param_mapping.QWEN_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=False)
 
     self.assertIn("params-decoder-layers_0-moe_block-wi_0", mapping)
-    self.assertIsInstance(
-        mapping["params-decoder-layers_0-moe_block-wi_0"], list
-    )
+    self.assertIsInstance(mapping["params-decoder-layers_0-moe_block-wi_0"], list)
     self.assertEqual(len(mapping["params-decoder-layers_0-moe_block-wi_0"]), 4)
 
   def test_qwen3_next_mapping(self):
@@ -168,9 +135,7 @@ def test_qwen3_next_mapping(self):
     }
     maxtext_config = mock.Mock()
     maxtext_config.inhomogeneous_layer_cycle_interval = 2
-    mapping = param_mapping.QWEN3_NEXT_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=False
-    )
+    mapping = param_mapping.QWEN3_NEXT_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=False)
 
     self.assertIn("params-token_embedder-embedding", mapping)
     self.assertIn("params-decoder-layers_0-input_layernorm-scale", mapping)
@@ -182,43 +147,32 @@ def test_deepseek_mapping(self):
         "n_routed_experts": 2,
     }
     maxtext_config = mock.Mock()
-    mapping = param_mapping.DEEPSEEK_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=False
-    )
+    mapping = param_mapping.DEEPSEEK_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=False)
 
     self.assertIn("params-token_embedder-embedding", mapping)
     # Layer 0 is dense
     self.assertIn("params-decoder-dense_layers_0-mlp-wi_0-kernel", mapping)
     # Layer 1 is MoE
-    self.assertIn(
-        "params-decoder-moe_layers_0-DeepSeekMoeBlock_0-shared_experts-wi_0-kernel",
-        mapping,
-    )
+    self.assertIn("params-decoder-moe_layers_0-DeepSeekMoeBlock_0-shared_experts-wi_0-kernel", mapping)
 
   def test_gpt_oss_mapping(self):
     config = {
         "num_hidden_layers": 2,
     }
     maxtext_config = mock.Mock()
     maxtext_config.inhomogeneous_layer_cycle_interval = 1
-    mapping = param_mapping.GPT_OSS_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=False
-    )
+    mapping = param_mapping.GPT_OSS_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=False)
 
     self.assertIn("params-token_embedder-embedding", mapping)
-    self.assertIn(
-        "params-decoder-layers_0-pre_self_attention_layer_norm-scale", mapping
-    )
+    self.assertIn("params-decoder-layers_0-pre_self_attention_layer_norm-scale", mapping)
 
   def test_mixtral_mapping(self):
     config = {
         "num_hidden_layers": 2,
     }
     maxtext_config = mock.Mock()
     maxtext_config.num_experts = 4
-    mapping = param_mapping.MIXTRAL_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=False
-    )
+    mapping = param_mapping.MIXTRAL_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=False)
 
     self.assertIn("params-token_embedder-embedding", mapping)
     self.assertIn("params-decoder-layers_0-MoeBlock_0-gate-kernel", mapping)
@@ -231,9 +185,7 @@ def test_gemma4_mapping(self):
     maxtext_config.share_kv_projections = False
     maxtext_config.use_multimodal = False
     maxtext_config.v_norm_with_scale = False
-    mapping = param_mapping.GEMMA4_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=False
-    )
+    mapping = param_mapping.GEMMA4_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=False)
 
     self.assertIn("params-token_embedder-embedding", mapping)
 
@@ -244,9 +196,7 @@ def test_gemma2_hooks(self):
         "head_dim": 64,
     }
     maxtext_config = mock.Mock()
-    hooks = param_mapping.GEMMA2_MAXTEXT_TO_HF_PARAM_HOOK_FN(
-        config, maxtext_config, scan_layers=False, saving_to_hf=True
-    )
+    hooks = param_mapping.GEMMA2_MAXTEXT_TO_HF_PARAM_HOOK_FN(config, maxtext_config, scan_layers=False, saving_to_hf=True)
 
     self.assertIn("params-token_embedder-embedding", hooks)
 
@@ -266,36 +216,20 @@ def test_gemma2_mapping_scanned(self):
         "hidden_size": 256,
     }
     maxtext_config = mock.Mock()
-    mapping = param_mapping.GEMMA2_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=True
-    )
+    mapping = param_mapping.GEMMA2_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=True)
 
     self.assertIn("params-token_embedder-embedding", mapping)
-    self.assertIn(
-        "params-decoder-layers-pre_self_attention_norm_local-scale", mapping
-    )
-    self.assertIsInstance(
-        mapping["params-decoder-layers-pre_self_attention_norm_local-scale"],
-        list,
-    )
-    self.assertEqual(
-        len(
-            mapping[
-                "params-decoder-layers-pre_self_attention_norm_local-scale"
-            ]
-        ),
-        2,
-    )
+    self.assertIn("params-decoder-layers-pre_self_attention_norm_local-scale", mapping)
+    self.assertIsInstance(mapping["params-decoder-layers-pre_self_attention_norm_local-scale"], list)
+    self.assertEqual(len(mapping["params-decoder-layers-pre_self_attention_norm_local-scale"]), 2)
 
   def test_qwen_hooks(self):
     config = {
         "num_hidden_layers": 2,
         "hidden_size": 256,
     }
     maxtext_config = mock.Mock()
-    hooks = param_mapping.QWEN_MAXTEXT_TO_HF_PARAM_HOOK_FN(
-        config, maxtext_config, scan_layers=False, saving_to_hf=True
-    )
+    hooks = param_mapping.QWEN_MAXTEXT_TO_HF_PARAM_HOOK_FN(config, maxtext_config, scan_layers=False, saving_to_hf=True)
 
     self.assertIn("params-token_embedder-embedding", hooks)
 
@@ -312,25 +246,11 @@ def test_qwen_mapping_scanned(self):
         "hidden_size": 256,
     }
     maxtext_config = mock.Mock()
-    mapping = param_mapping.QWEN_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=True
-    )
+    mapping = param_mapping.QWEN_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=True)
 
-    self.assertIn(
-        "params-decoder-layers-pre_self_attention_layer_norm-scale", mapping
-    )
-    self.assertIsInstance(
-        mapping["params-decoder-layers-pre_self_attention_layer_norm-scale"],
-        list,
-    )
-    self.assertEqual(
-        len(
-            mapping[
-                "params-decoder-layers-pre_self_attention_layer_norm-scale"
-            ]
-        ),
-        4,
-    )
+    self.assertIn("params-decoder-layers-pre_self_attention_layer_norm-scale", mapping)
+    self.assertIsInstance(mapping["params-decoder-layers-pre_self_attention_layer_norm-scale"], list)
+    self.assertEqual(len(mapping["params-decoder-layers-pre_self_attention_layer_norm-scale"]), 4)
 
   def test_deepseek_hooks(self):
     config = {
@@ -352,17 +272,10 @@ def test_deepseek_mapping_scanned(self):
         "n_routed_experts": 2,
     }
     maxtext_config = mock.Mock()
-    mapping = param_mapping.DEEPSEEK_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=True
-    )
+    mapping = param_mapping.DEEPSEEK_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=True)
 
-    self.assertIn(
-        "params-decoder-dense_layers-self_attention-query-kernel", mapping
-    )
-    self.assertIn(
-        "params-decoder-moe_layers-DeepSeekMoeBlock_0-shared_experts-wi_0-kernel",
-        mapping,
-    )
+    self.assertIn("params-decoder-dense_layers-self_attention-query-kernel", mapping)
+    self.assertIn("params-decoder-moe_layers-DeepSeekMoeBlock_0-shared_experts-wi_0-kernel", mapping)
 
   def test_gpt_oss_hooks(self):
     config = {
@@ -371,9 +284,7 @@ def test_gpt_oss_hooks(self):
     }
     maxtext_config = mock.Mock()
     maxtext_config.inhomogeneous_layer_cycle_interval = 1
-    hooks = param_mapping.GPT_OSS_TO_HF_PARAM_HOOK_FN(
-        config, maxtext_config, scan_layers=False, saving_to_hf=True
-    )
+    hooks = param_mapping.GPT_OSS_TO_HF_PARAM_HOOK_FN(config, maxtext_config, scan_layers=False, saving_to_hf=True)
 
     self.assertIn("params-decoder-logits_dense-kernel", hooks)
 
@@ -383,14 +294,9 @@ def test_gpt_oss_mapping_scanned(self):
     }
     maxtext_config = mock.Mock()
     maxtext_config.inhomogeneous_layer_cycle_interval = 2
-    mapping = param_mapping.GPT_OSS_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=True
-    )
+    mapping = param_mapping.GPT_OSS_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=True)
 
-    self.assertIn(
-        "params-decoder-layers-layers_0-pre_self_attention_layer_norm-scale",
-        mapping,
-    )
+    self.assertIn("params-decoder-layers-layers_0-pre_self_attention_layer_norm-scale", mapping)
 
   def test_mixtral_hooks(self):
     config = {
@@ -399,9 +305,7 @@ def test_mixtral_hooks(self):
     }
     maxtext_config = mock.Mock()
     maxtext_config.head_dim = 64
-    hooks = param_mapping.MIXTRAL_MAXTEXT_TO_HF_PARAM_HOOK_FN(
-        config, maxtext_config, scan_layers=False, saving_to_hf=True
-    )
+    hooks = param_mapping.MIXTRAL_MAXTEXT_TO_HF_PARAM_HOOK_FN(config, maxtext_config, scan_layers=False, saving_to_hf=True)
 
     self.assertIn("params-decoder-logits_dense-kernel", hooks)
 
@@ -414,9 +318,7 @@ class Config:
       num_experts = 4
 
     maxtext_config = Config()
-    mapping = param_mapping.MIXTRAL_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=True
-    )
+    mapping = param_mapping.MIXTRAL_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=True)
 
     self.assertIn("params-decoder-layers-self_attention-query-kernel", mapping)
 
@@ -428,14 +330,9 @@ def test_gemma4_mapping_scanned(self):
     maxtext_config.share_kv_projections = False
     maxtext_config.use_multimodal = False
     maxtext_config.v_norm_with_scale = False
-    mapping = param_mapping.GEMMA4_MAXTEXT_TO_HF_PARAM_MAPPING(
-        config, maxtext_config, scan_layers=True
-    )
+    mapping = param_mapping.GEMMA4_MAXTEXT_TO_HF_PARAM_MAPPING(config, maxtext_config, scan_layers=True)
 
-    self.assertIn(
-        "params-decoder-scanned_blocks-layers_0-self_attention-query-kernel",
-        mapping,
-    )
+    self.assertIn("params-decoder-scanned_blocks-layers_0-self_attention-query-kernel", mapping)
 
 
 if __name__ == "__main__":