areal-project
diff --git a/‎README.md‎
Lines changed: 2 additions & 1 deletion b/‎README.md‎
Lines changed: 2 additions & 1 deletion
diff --git a/‎areal/__init__.py‎
Lines changed: 4 additions & 2 deletions b/‎areal/__init__.py‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎areal/api/cli_args.py‎
Lines changed: 45 additions & 0 deletions b/‎areal/api/cli_args.py‎
Lines changed: 45 additions & 0 deletions
diff --git a/‎areal/dataset/__init__.py‎
Lines changed: 10 additions & 0 deletions b/‎areal/dataset/__init__.py‎
Lines changed: 10 additions & 0 deletions
diff --git a/‎areal/dataset/hhrlhf.py‎
Lines changed: 48 additions & 0 deletions b/‎areal/dataset/hhrlhf.py‎
Lines changed: 48 additions & 0 deletions
diff --git a/‎areal/engine/__init__.py‎
Lines changed: 4 additions & 0 deletions b/‎areal/engine/__init__.py‎
Lines changed: 4 additions & 0 deletions
diff --git a/‎areal/engine/fsdp_engine.py‎
Lines changed: 48 additions & 0 deletions b/‎areal/engine/fsdp_engine.py‎
Lines changed: 48 additions & 0 deletions
diff --git a/‎areal/engine/megatron_engine.py‎
Lines changed: 48 additions & 0 deletions b/‎areal/engine/megatron_engine.py‎
Lines changed: 48 additions & 0 deletions
diff --git a/‎areal/experimental/engine/archon_engine.py‎
Lines changed: 48 additions & 0 deletions b/‎areal/experimental/engine/archon_engine.py‎
Lines changed: 48 additions & 0 deletions
diff --git a/‎areal/trainer/__init__.py‎
Lines changed: 2 additions & 1 deletion b/‎areal/trainer/__init__.py‎
Lines changed: 2 additions & 1 deletion
@@ -197,7 +197,8 @@ All RL algorithms support both asynchronous and synchronous versions by setting
 | **RLOO**                 | [📖 Docs](docs/en/algorithms/grpo_series.md)  | [📄 Paper](https://arxiv.org/pdf/2402.14740v1) | [🔗 GSM8K Example](examples/math/gsm8k_rloo.yaml)                 |
 | **SAPO**                 | [📖 Docs](docs/en/algorithms/grpo_series.md)  | [📄 Paper](https://arxiv.org/abs/2511.20347)   | [🔗 GSM8K Example](examples/math/gsm8k_sapo.yaml)                 |
 | **M2PO**                 | [📖 Docs](docs/algorithms/m2po.md)            | [📄 Paper](https://arxiv.org/abs/2510.01161)   | [🔗 GSM8K Example](examples/math/gsm8k_m2po.yaml)                 |
-| **RLHF Reward Modeling** | -                                             | -                                              | [🔗 RLHF Example](examples/alignment/)                            |
+| **DPO**                  | [📖 Docs](docs/en/algorithms/dpo.md)          | [📄 Paper](https://arxiv.org/abs/2305.18290)   | [🔗 HH-RLHF Example](examples/alignment/hhrlhf_dpo.yaml)          |
+| **RLHF Reward Modeling** | -                                             | -                                              | [🔗 RLHF Example](examples/alignment/hhrlhf_rw.yaml)              |
 | **SFT**                  | -                                             | -                                              | [🔗 GSM8K Example](examples/math/gsm8k_sft.py)                    |
 | **Distillation**         | [📖 Docs](docs/en/algorithms/distillation.md) | [📄 Paper](https://arxiv.org/pdf/2506.02208)   | [🔗 GSM8K Example](examples/distillation/gsm8k_grpo_distill.yaml) |
 
 
@@ -15,10 +15,11 @@
 
 
 def __getattr__(name: str):
-    if name in ("PPOTrainer", "RWTrainer", "SFTTrainer"):
-        from .trainer import PPOTrainer, RWTrainer, SFTTrainer
+    if name in ("DPOTrainer", "PPOTrainer", "RWTrainer", "SFTTrainer"):
+        from .trainer import DPOTrainer, PPOTrainer, RWTrainer, SFTTrainer
 
         _map = {
+            "DPOTrainer": DPOTrainer,
             "PPOTrainer": PPOTrainer,
             "RWTrainer": RWTrainer,
             "SFTTrainer": SFTTrainer,
@@ -29,6 +30,7 @@ def __getattr__(name: str):
 
 
 __all__ = [
+    "DPOTrainer",
     "PPOTrainer",
     "RolloutController",
     "RWTrainer",
 
@@ -2637,6 +2637,51 @@ def __post_init__(self):
             )
 
 
+@dataclass
+class DPOConfig(BaseExperimentConfig):
+    """Configuration for Direct Preference Optimization (DPO) experiments."""
+
+    actor: TrainEngineConfig = field(default_factory=TrainEngineConfig)
+
+    ref: TrainEngineConfig | None = field(
+        default=None,
+        metadata={
+            "help": "Reference model configuration for DPO. "
+            "The ref model computes reference log-probabilities online during training. "
+            "If None, ref_logprobs default to zeros (degenerates to contrastive logprob loss)."
+        },
+    )
+
+    beta: float = field(
+        default=0.1,
+        metadata={"help": "KL penalty coefficient for DPO loss."},
+    )
+
+    loss_type: str = field(
+        default="sigmoid",
+        metadata={
+            "help": "DPO loss variant. "
+            "'sigmoid': original DPO loss (Rafailov et al. 2023). "
+            "'ipo': Identity Preference Optimization, uses squared loss (Azar et al. 2023).",
+            "choices": ["sigmoid", "ipo"],
+        },
+    )
+
+    def __post_init__(self):
+        super().__post_init__()
+        if getattr(self.actor, "is_critic", False):
+            raise ValueError(
+                "DPOConfig requires a language model (is_critic=False). "
+                "Remove 'actor.is_critic: true' from your YAML config."
+            )
+        _valid_loss_types = {"sigmoid", "ipo"}
+        if self.loss_type not in _valid_loss_types:
+            raise ValueError(
+                f"Unsupported DPO loss_type '{self.loss_type}'. "
+                f"Must be one of {sorted(_valid_loss_types)}."
+            )
+
+
 @dataclass
 class TeacherConfig(PPOActorConfig):
     rl_loss_weight: float = field(
 
@@ -113,6 +113,16 @@ def _get_custom_dataset(
             max_length=max_length,
             **kwargs,
         )
+    elif "hh-rlhf" in path and type == "dpo":
+        from .hhrlhf import get_hhrlhf_dpo_dataset
+
+        return get_hhrlhf_dpo_dataset(
+            path=path,
+            split=split,
+            tokenizer=tokenizer,
+            max_length=max_length,
+            **kwargs,
+        )
     elif "torl_data" in path and type == "rl":
         from .torl_data import get_torl_data_rl_dataset
 
 
@@ -26,3 +26,51 @@ def process(sample):
         )
 
     return dataset
+
+
+def get_hhrlhf_dpo_dataset(
+    path: str,
+    split: str,
+    tokenizer,
+    max_length: int | None = None,
+):
+    """Load HH-RLHF dataset for DPO training.
+
+    Each sample will contain:
+    - ``chosen_ids`` / ``rejected_ids``: full token ids (prompt + response).
+    - ``chosen_loss_mask`` / ``rejected_loss_mask``: boolean mask where ``True``
+      marks the response tokens that participate in the loss.
+
+    Reference log-probabilities are computed online by the ref engine during
+    training (configured via the ``ref`` field in ``DPOConfig``).
+    """
+    dataset = load_dataset(path=path, split=split)
+
+    def process(sample):
+        chosen_ids = tokenizer.encode(sample["chosen"] + tokenizer.eos_token)
+        rejected_ids = tokenizer.encode(sample["rejected"] + tokenizer.eos_token)
+
+        prompt_len = 0
+        for c, r in zip(chosen_ids, rejected_ids):
+            if c == r:
+                prompt_len += 1
+            else:
+                break
+
+        return {
+            "chosen_ids": chosen_ids,
+            "rejected_ids": rejected_ids,
+            "chosen_loss_mask": [0] * prompt_len + [1] * (len(chosen_ids) - prompt_len),
+            "rejected_loss_mask": [0] * prompt_len
+            + [1] * (len(rejected_ids) - prompt_len),
+        }
+
+    dataset = dataset.map(process).remove_columns(["chosen", "rejected"])
+
+    if max_length is not None:
+        dataset = dataset.filter(
+            lambda x: (len(x["chosen_ids"]) <= max_length)
+            and (len(x["rejected_ids"]) <= max_length)
+        )
+
+    return dataset
@@ -6,11 +6,13 @@
     "FSDPPPOCritic",
     "FSDPLMEngine",
     "FSDPRWEngine",
+    "FSDPDPOEngine",
     "MegatronEngine",
     "MegatronPPOActor",
     "MegatronPPOCritic",
     "MegatronLMEngine",
     "MegatronRWEngine",
+    "MegatronDPOEngine",
     "RemoteSGLangEngine",
     "RemotevLLMEngine",
 ]
@@ -21,11 +23,13 @@
     "FSDPPPOCritic": "areal.engine.fsdp_engine",
     "FSDPLMEngine": "areal.engine.fsdp_engine",
     "FSDPRWEngine": "areal.engine.fsdp_engine",
+    "FSDPDPOEngine": "areal.engine.fsdp_engine",
     "MegatronEngine": "areal.engine.megatron_engine",
     "MegatronPPOActor": "areal.engine.megatron_engine",
     "MegatronPPOCritic": "areal.engine.megatron_engine",
     "MegatronLMEngine": "areal.engine.megatron_engine",
     "MegatronRWEngine": "areal.engine.megatron_engine",
+    "MegatronDPOEngine": "areal.engine.megatron_engine",
     "RemoteSGLangEngine": "areal.engine.sglang_remote",
     "RemotevLLMEngine": "areal.engine.vllm_remote",
 }
 
@@ -1958,3 +1958,51 @@ def as_controller(cls, config: TrainEngineConfig, scheduler: Scheduler):
         from areal.trainer.rw.rw_engine import RWController
 
         return RWController(train_engine=cls, config=config, scheduler=scheduler)
+
+
+class FSDPDPOEngine(FSDPEngine):
+    """DPO training engine using FSDP backend."""
+
+    def __init__(
+        self,
+        config: TrainEngineConfig,
+        beta: float = 0.1,
+        loss_type: str = "sigmoid",
+    ):
+        from copy import deepcopy
+
+        from areal.trainer.dpo.dpo_engine import DPOEngine
+
+        super().__init__(config)
+        self.dpo_engine = DPOEngine(self, beta=beta, loss_type=loss_type)
+        if self.config.mb_spec.granularity != 2:
+            dpo_logger = logging.getLogger("DPOEngine")
+            dpo_logger.warning("mb_spec.granularity must be 2 for DPO training")
+            self.config = deepcopy(self.config)
+            self.config.mb_spec.granularity = 2
+
+    def train_dpo(self, data):
+        return self.dpo_engine.train_dpo(data)
+
+    def evaluate_dpo(self, data):
+        return self.dpo_engine.evaluate_dpo(data)
+
+    def compute_logp(self, data: list[dict[str, Any]]) -> list[torch.Tensor] | None:
+        return self.dpo_engine.compute_logp(data)
+
+    @classmethod
+    def as_controller(
+        cls,
+        config: TrainEngineConfig,
+        scheduler: Scheduler,
+        beta: float = 0.1,
+        loss_type: str = "sigmoid",
+    ):
+        if config._version == "v2":
+            from areal.trainer.dpo.dpo_engine import DPOControllerV2
+
+            return DPOControllerV2(train_engine=cls, config=config, scheduler=scheduler)
+
+        from areal.trainer.dpo.dpo_engine import DPOController
+
+        return DPOController(train_engine=cls, config=config, scheduler=scheduler)
@@ -1930,3 +1930,51 @@ def as_controller(cls, config: TrainEngineConfig, scheduler: Scheduler):
         from areal.trainer.rw.rw_engine import RWController
 
         return RWController(train_engine=cls, config=config, scheduler=scheduler)
+
+
+class MegatronDPOEngine(MegatronEngine):
+    """DPO training engine using Megatron backend."""
+
+    def __init__(
+        self,
+        config: TrainEngineConfig,
+        beta: float = 0.1,
+        loss_type: str = "sigmoid",
+    ):
+        from copy import deepcopy
+
+        from areal.trainer.dpo.dpo_engine import DPOEngine
+
+        super().__init__(config)
+        self.dpo_engine = DPOEngine(self, beta=beta, loss_type=loss_type)
+        if self.config.mb_spec.granularity != 2:
+            dpo_logger = logging.getLogger("DPOEngine")
+            dpo_logger.warning("mb_spec.granularity must be 2 for DPO training")
+            self.config = deepcopy(self.config)
+            self.config.mb_spec.granularity = 2
+
+    def train_dpo(self, data):
+        return self.dpo_engine.train_dpo(data)
+
+    def evaluate_dpo(self, data):
+        return self.dpo_engine.evaluate_dpo(data)
+
+    def compute_logp(self, data: list[dict[str, Any]]) -> list[torch.Tensor] | None:
+        return self.dpo_engine.compute_logp(data)
+
+    @classmethod
+    def as_controller(
+        cls,
+        config: TrainEngineConfig,
+        scheduler: Scheduler,
+        beta: float = 0.1,
+        loss_type: str = "sigmoid",
+    ):
+        if config._version == "v2":
+            from areal.trainer.dpo.dpo_engine import DPOControllerV2
+
+            return DPOControllerV2(train_engine=cls, config=config, scheduler=scheduler)
+
+        from areal.trainer.dpo.dpo_engine import DPOController
+
+        return DPOController(train_engine=cls, config=config, scheduler=scheduler)
@@ -1468,3 +1468,51 @@ def as_controller(cls, config: TrainEngineConfig, scheduler: Scheduler):
         from areal.trainer.rw.rw_engine import RWController
 
         return RWController(train_engine=cls, config=config, scheduler=scheduler)
+
+
+class ArchonDPOEngine(ArchonEngine):
+    """Archon-based DPO Engine for direct preference optimization."""
+
+    def __init__(
+        self,
+        config: TrainEngineConfig,
+        beta: float = 0.1,
+        loss_type: str = "sigmoid",
+    ):
+        from copy import deepcopy
+
+        from areal.trainer.dpo.dpo_engine import DPOEngine
+
+        super().__init__(config)
+        self.dpo_engine = DPOEngine(self, beta=beta, loss_type=loss_type)
+        if self.config.mb_spec.granularity != 2:
+            dpo_logger = logging.getLogger("DPOEngine")
+            dpo_logger.warning("mb_spec.granularity must be 2 for DPO training")
+            self.config = deepcopy(self.config)
+            self.config.mb_spec.granularity = 2
+
+    def train_dpo(self, data):
+        return self.dpo_engine.train_dpo(data)
+
+    def evaluate_dpo(self, data):
+        return self.dpo_engine.evaluate_dpo(data)
+
+    def compute_logp(self, data: list[dict[str, Any]]) -> list[torch.Tensor] | None:
+        return self.dpo_engine.compute_logp(data)
+
+    @classmethod
+    def as_controller(
+        cls,
+        config: TrainEngineConfig,
+        scheduler: Scheduler,
+        beta: float = 0.1,
+        loss_type: str = "sigmoid",
+    ):
+        if config._version == "v2":
+            from areal.trainer.dpo.dpo_engine import DPOControllerV2
+
+            return DPOControllerV2(train_engine=cls, config=config, scheduler=scheduler)
+
+        from areal.trainer.dpo.dpo_engine import DPOController
+
+        return DPOController(train_engine=cls, config=config, scheduler=scheduler)
@@ -1,7 +1,8 @@
 # SPDX-License-Identifier: Apache-2.0
 
+from .dpo_trainer import DPOTrainer
 from .rl_trainer import PPOTrainer
 from .rw_trainer import RWTrainer
 from .sft_trainer import SFTTrainer
 
-__all__ = ["PPOTrainer", "RWTrainer", "SFTTrainer"]
+__all__ = ["DPOTrainer", "PPOTrainer", "RWTrainer", "SFTTrainer"]