fix: missing log in multitask training (#5382)

iProzd · web-flow · commit e920c2f4ca2f · 2026-04-08T12:22:10.000Z
fix missing log during multitask training, resulting from #4850 .  ## Summary by CodeRabbit * **Refactor** * Cleaner multi-task training logs: task-specific training metrics are always shown, and validation metrics are emitted only when valid results are present to avoid incomplete validation output. * **Tests** * Added post-training checks to ensure the training log contains expected model-probability columns and that data rows match the header column count.
diff --git a/deepmd/pt/train/training.py b/deepmd/pt/train/training.py
@@ -1372,25 +1372,25 @@ def log_loss_valid(_task_key: str = "Default") -> dict:
                                 train_results[_key] = log_loss_train(
                                     loss, more_loss, _task_key=_key
                                 )
-                        valid_results[_key] = log_loss_valid(_task_key=_key)
-                        if self.rank == 0:
-                            log.info(
-                                format_training_message_per_task(
-                                    batch=display_step_id,
-                                    task_name=_key + "_trn",
-                                    rmse=train_results[_key],
-                                    learning_rate=cur_lr,
-                                )
-                            )
-                            if valid_results[_key]:
+                            valid_results[_key] = log_loss_valid(_task_key=_key)
+                            if self.rank == 0:
                                 log.info(
                                     format_training_message_per_task(
                                         batch=display_step_id,
-                                        task_name=_key + "_val",
-                                        rmse=valid_results[_key],
-                                        learning_rate=None,
+                                        task_name=_key + "_trn",
+                                        rmse=train_results[_key],
+                                        learning_rate=cur_lr,
                                     )
                                 )
+                                if valid_results[_key]:
+                                    log.info(
+                                        format_training_message_per_task(
+                                            batch=display_step_id,
+                                            task_name=_key + "_val",
+                                            rmse=valid_results[_key],
+                                            learning_rate=None,
+                                        )
+                                    )
                 self.wrapper.train()
 
                 if self.disp_avg:
diff --git a/source/tests/pt/test_multitask.py b/source/tests/pt/test_multitask.py
@@ -59,6 +59,25 @@ def test_multitask_train(self) -> None:
         self.share_fitting = getattr(self, "share_fitting", False)
         trainer = get_trainer(deepcopy(self.config), shared_links=self.shared_links)
         trainer.run()
+
+        # check lcurve.out columns for all model keys
+        with open("lcurve.out") as f:
+            lines = f.readlines()
+        header_line = lines[0]
+        header_cols = header_line.strip().lstrip("#").split()
+        # each model key should appear in header columns
+        model_keys = list(self.config["training"]["model_prob"].keys())
+        for mk in model_keys:
+            cols_for_model = [c for c in header_cols if mk in c]
+            self.assertGreater(
+                len(cols_for_model), 0, f"No lcurve columns found for {mk}"
+            )
+        # data line column count should match header
+        data_lines = [l for l in lines if not l.startswith("#")]
+        self.assertGreater(len(data_lines), 0, "No data lines in lcurve.out")
+        data_cols = data_lines[0].split()
+        self.assertEqual(len(data_cols), len(header_cols))
+
         # check model keys
         self.assertEqual(len(trainer.wrapper.model), 2)
         self.assertIn("model_1", trainer.wrapper.model)