inclusionAI · garrett4wade · Apr 8, 2026 · Apr 5, 2026 · gemini-code-assist · Apr 5, 2026
@@ -99,11 +99,22 @@ def get_grad_norm_fp32(
     norm_type = float(norm_type)
     total_norm = 0.0
 
-    if not grads_for_norm:
-        return 0.0
-
     device = current_platform.current_device()
 
+    if not grads_for_norm:
+        # Still participate in all_reduce with zero contribution so that
+        # ranks with grads don't hang waiting for this rank (e.g. LoRA frozen ranks).
+        total_norm_cuda = torch.tensor(0.0, dtype=torch.float, device=device)
+        reduce_op = dist.ReduceOp.MAX if norm_type == torch.inf else dist.ReduceOp.SUM
+        if data_parallel_group:
+            dist.all_reduce(total_norm_cuda, op=reduce_op, group=data_parallel_group)
+        if model_parallel_group is not None:
+            dist.all_reduce(total_norm_cuda, op=reduce_op, group=model_parallel_group)
-        if data_parallel_group:
-            dist.all_reduce(total_norm_cuda, op=reduce_op, group=data_parallel_group)
-        if model_parallel_group is not None:
-            dist.all_reduce(total_norm_cuda, op=reduce_op, group=model_parallel_group)
+        if data_parallel_group is not None:
+            dist.all_reduce(total_norm_cuda, op=reduce_op, group=data_parallel_group)
+        if model_parallel_group is not None:
+            dist.all_reduce(total_norm_cuda, op=reduce_op, group=model_parallel_group)
-        if data_parallel_group:
-            dist.all_reduce(total_norm_cuda, op=reduce_op, group=data_parallel_group)
-        if model_parallel_group is not None:
-            dist.all_reduce(total_norm_cuda, op=reduce_op, group=model_parallel_group)
+        if data_parallel_group is not None:
+            dist.all_reduce(total_norm_cuda, op=reduce_op, group=data_parallel_group)
+        if model_parallel_group is not None:
+            dist.all_reduce(total_norm_cuda, op=reduce_op, group=model_parallel_group)
+        total_norm = float(total_norm_cuda.item())
+        if norm_type != torch.inf and total_norm > 0:
+            total_norm = total_norm ** (1.0 / norm_type)
+        return total_norm
+
     if norm_type == torch.inf:
         norms = [grad.abs().max() for grad in grads_for_norm]
         total_norm = torch.max(torch.stack(norms)) if norms else 0.0

@@ -112,8 +112,17 @@ def mock_process_groups(self):
         return dp_group, mp_group
 
     def test_empty_grads_returns_zero(self, mock_process_groups):
+        # Empty grads must still participate in all_reduce (e.g. LoRA frozen ranks)
+        # so that ranks with real grads don't hang.
         dp_group, mp_group = mock_process_groups
-        result = get_grad_norm_fp32([], dp_group, mp_group)
+        with patch("torch.distributed.all_reduce") as mock_allreduce:
+            result = get_grad_norm_fp32([], dp_group, mp_group)
+        assert result == 0.0
+        assert mock_allreduce.call_count == 2  # called for dp_group and mp_group
+
+    def test_empty_grads_participates_in_allreduce_no_groups(self):
+        # With no process groups, empty grads should still return 0.0 without hanging.
+        result = get_grad_norm_fp32([], None, None)
         assert result == 0.0
 
     @pytest.mark.parametrize("norm_type", [1.0, 2.0, 3.0, float("inf")])