areal-project
diff --git a/‎areal/api/cli_args.py‎
Lines changed: 65 additions & 10 deletions b/‎areal/api/cli_args.py‎
Lines changed: 65 additions & 10 deletions
diff --git a/‎areal/engine/fsdp_engine.py‎
Lines changed: 55 additions & 4 deletions b/‎areal/engine/fsdp_engine.py‎
Lines changed: 55 additions & 4 deletions
diff --git a/‎areal/engine/fsdp_utils/__init__.py‎
Lines changed: 2 additions & 0 deletions b/‎areal/engine/fsdp_utils/__init__.py‎
Lines changed: 2 additions & 0 deletions
@@ -7,7 +7,7 @@
 from dataclasses import asdict, dataclass, field, fields
 from enum import Enum
 from pathlib import Path
-from typing import TYPE_CHECKING, Any, ClassVar, TypeVar
+from typing import TYPE_CHECKING, Any, ClassVar, Literal, TypeVar
 
 import uvloop
 import yaml
@@ -338,30 +338,46 @@ class OptimizerConfig:
     type: str = field(
         default="adam",
         metadata={
-            "help": "Optimizer type. For FSDP Engine, adam_bf16 enables memory-efficient BF16 optimizer states. "
-            "For Megatron Engine, adam_bf16 requires dtype=bfloat16 and is automatically converted to adam "
-            "with precision-aware optimizer enabled.",
-            "choices": ["adam", "sgd", "adam_bf16"],
+            "help": "Optimizer type. 'adam': AdamW (default). 'adam_bf16': memory-efficient BF16 AdamW "
+            "(FSDP: uses AnyPrecisionAdamW; Megatron: requires dtype=bfloat16, auto-converted to adam "
+            "with precision-aware optimizer). 'sgd': plain SGD. 'muon': Muon optimizer for >=2D params "
+            "with AdamW backend for <2D params (biases, norms, embeddings).",
+            "choices": ["adam", "sgd", "adam_bf16", "muon"],
+        },
+    )
+    lr: float = field(
+        default=1e-3,
+        metadata={
+            "help": "Learning rate. When type='muon', this is the Muon lr for >=2D params "
+            "(typical value: ~0.02). The AdamW backend lr is controlled by muon_backend_lr."
+        },
+    )
+    weight_decay: float = field(
+        default=0.01,
+        metadata={
+            "help": "Weight decay. Applied to all optimizer types including Muon (>=2D params) "
+            "and AdamW backend (<2D params)."
         },
     )
-    lr: float = field(default=1e-3, metadata={"help": "Learning rate"})
-    weight_decay: float = field(default=0.01, metadata={"help": "Weight decay"})
     beta1: float = field(
         default=0.9,
         metadata={
-            "help": "Adam beta1 parameter. Only effective when optimizer_type is adam/adam_bf16"
+            "help": "Adam beta1 parameter. Used by adam/adam_bf16, and by the AdamW backend "
+            "when type='muon'. Not used by the Muon sub-optimizer itself."
         },
     )
     beta2: float = field(
         default=0.999,
         metadata={
-            "help": "Adam beta2 parameter. Only effective when optimizer_type is adam/adam_bf16"
+            "help": "Adam beta2 parameter. Used by adam/adam_bf16, and by the AdamW backend "
+            "when type='muon'. Not used by the Muon sub-optimizer itself."
         },
     )
     eps: float = field(
         default=1e-8,
         metadata={
-            "help": "Adam epsilon parameter. Only effective when optimizer_type is adam/adam_bf16"
+            "help": "Adam epsilon for numerical stability. Used by adam/adam_bf16, and by the "
+            "AdamW backend when type='muon'. Not used by the Muon sub-optimizer itself."
         },
     )
     min_lr_ratio: float = field(
@@ -398,6 +414,45 @@ class OptimizerConfig:
     gradient_clipping: float = field(
         default=1.0, metadata={"help": "Gradient clipping threshold"}
     )
+    muon_momentum: float = field(
+        default=0.95,
+        metadata={
+            "help": "Muon momentum parameter. Only effective when optimizer_type is muon."
+        },
+    )
+    muon_use_nesterov: bool = field(
+        default=True,
+        metadata={
+            "help": "Whether to use Nesterov momentum in Muon. Only effective when type='muon'. "
+            "Mirrors Megatron-Core OptimizerConfig.muon_use_nesterov."
+        },
+    )
+    muon_num_ns_steps: int = field(
+        default=5,
+        metadata={
+            "help": "Number of Newton-Schulz iteration steps in Muon. Only effective when type='muon'. "
+            "Mirrors Megatron-Core OptimizerConfig.muon_num_ns_steps."
+        },
+    )
+    muon_scale_mode: Literal["rms", "spectral"] = field(
+        default="rms",
+        metadata={
+            "help": "Update-scaling mode for Muon. 'rms' (Moonlight-style) scales the update so its "
+            "RMS matches Adam, allowing a single lr for all parameters (see https://arxiv.org/abs/2502.16982). "
+            "'spectral' uses the Keller Jordan max(1, m/n)^0.5 spectral scaling. "
+            "Only effective when type='muon'. Mirrors Megatron-Core OptimizerConfig.muon_scale_mode.",
+            "choices": ["rms", "spectral"],
+        },
+    )
+    muon_backend_lr: float | None = field(
+        default=None,
+        metadata={
+            "help": "Learning rate for the AdamW backend optimizer in Muon (handles <2D params: "
+            "biases, norms, embeddings). Typical value: ~3e-4. If None, falls back to the main lr "
+            "with a warning (since Muon lr is typically ~100x larger). "
+            "Only effective when type='muon'."
+        },
+    )
 
 
 @dataclass
 
@@ -83,7 +83,11 @@
 )
 from areal.engine.fsdp_utils.checkpoint import DCPState
 from areal.engine.fsdp_utils.grad import fsdp2_clip_grad_norm
-from areal.engine.fsdp_utils.optimizer import AnyPrecisionAdamW, PerLayerOptimWrapper
+from areal.engine.fsdp_utils.muon import Muon as MuonOptimizer
+from areal.engine.fsdp_utils.optimizer import (
+    AnyPrecisionAdamW,
+    PerLayerOptimWrapper,
+)
 from areal.engine.fsdp_utils.parallel import ParallelHelper, parallelize_model
 from areal.infra.dist_rollout import DistRolloutCoordinator
 from areal.infra.platforms import current_platform
@@ -470,7 +474,7 @@ def initialize(self, addr: str | None, ft_spec: FinetuneSpec, *args, **kwargs):
         self._create_optimizer(ft_spec)
 
         if self.config.fsdp.per_layer_optim_step:
-            if self.optimizer_config.type != "adam":
+            if self.optimizer_config.type not in ("adam",):
                 raise ValueError(
                     f"per_layer_optim_step only supports 'adam' optimizer, got '{self.optimizer_config.type}'."
                 )
@@ -1111,7 +1115,8 @@ def _create_optimizer(self, ft_spec: FinetuneSpec) -> None:
             "adam",
             "adam_bf16",
             "sgd",
-        ], "Only adam/adam_bf16/sgd optimizer is supported in this engine."
+            "muon",
+        ], "Only adam/adam_bf16/sgd/muon optimizer is supported in this engine."
         if self.optimizer_config.type in ["sgd", "adam_bf16"]:
             self.logger.warning(
                 f"Using the '{self.optimizer_config.type}' optimizer with FSDP may be less stable. Consider using the 'adam' (AdamW) optimizer for improved stability and performance."
@@ -1121,7 +1126,53 @@ def _create_optimizer(self, ft_spec: FinetuneSpec) -> None:
         beta1 = self.optimizer_config.beta1
         beta2 = self.optimizer_config.beta2
         eps = self.optimizer_config.eps
-        if self.optimizer_config.type == "adam":
+        if self.optimizer_config.type == "muon":
+            muon_params: list[torch.nn.Parameter] = []
+            backend_params: list[torch.nn.Parameter] = []
+            for p in self.model.parameters():
+                if not p.requires_grad:
+                    continue
+                if p.ndim >= 2:
+                    muon_params.append(p)
+                else:
+                    backend_params.append(p)
+            if self.optimizer_config.muon_backend_lr is not None:
+                backend_lr = self.optimizer_config.muon_backend_lr
+            else:
+                backend_lr = lr
+                self.logger.warning(
+                    "muon_backend_lr is not set; falling back to main lr (%.2e) for AdamW backend. "
+                    "Typical Muon setups use a much smaller backend lr (e.g. 3e-4). "
+                    "Set muon_backend_lr explicitly to suppress this warning.",
+                    lr,
+                )
+            self.optimizer = MuonOptimizer(
+                [
+                    dict(
+                        params=muon_params,
+                        lr=lr,
+                        momentum=self.optimizer_config.muon_momentum,
+                        weight_decay=weight_decay,
+                        rms_scale=self.optimizer_config.muon_scale_mode == "rms",
+                        nesterov=self.optimizer_config.muon_use_nesterov,
+                        ns_steps=self.optimizer_config.muon_num_ns_steps,
+                        use_muon=True,
+                    ),
+                    dict(
+                        params=backend_params,
+                        lr=backend_lr,
+                        betas=(beta1, beta2),
+                        eps=eps,
+                        weight_decay=weight_decay,
+                        use_muon=False,
+                    ),
+                ]
+            )
+            self.logger.info(
+                f"Muon optimizer: {len(muon_params)} params (>=2D), "
+                f"AdamW backend: {len(backend_params)} params (<2D)"
+            )
+        elif self.optimizer_config.type == "adam":
             self.optimizer = torch.optim.AdamW(
                 self.model.parameters(),
                 lr=lr,
 
@@ -13,6 +13,7 @@
 )
 from transformers import PreTrainedModel
 
+from areal.engine.fsdp_utils.muon import Muon
 from areal.engine.fsdp_utils.optimizer import (
     AdamKernel,
     OptimKernel,
@@ -33,6 +34,7 @@
     "apply_fsdp2",
     "fsdp2_load_full_state_dict",
     "get_cosine_schedule_with_warmup",
+    "Muon",
     "PerLayerOptimWrapper",
     "OptimKernel",
     "AdamKernel",