Add deterministic reversals curriculum (#545)

tiffanyona · bruno-f-cruz · web-flow · commit 1f43a8da430c · 2026-05-22T10:36:41.000-07:00
* feat: add deterministic reversal curricula Use MarkovEnvironment (renamed from EnvironmentStatistics) after PR #547 * refactor: rename reward_locked to reward_capped * Deduplicate stage definition * Add curriculum definition * fix: correct the available functions to avoid double depletion * refactor: remove cap_reward variable and utilize reward available instead * linting * Revert "linting" This reverts commit 38ab1e4. * Revert "refactor: remove cap_reward variable and utilize reward available instead" This reverts commit 130f293. * Revert "fix: correct the available functions to avoid double depletion" This reverts commit e3148eb. --------- Co-authored-by: bruno-f-cruz <7049351+bruno-f-cruz@users.noreply.github.com>
diff --git a/schema/deterministic_reversals.json b/schema/deterministic_reversals.json
diff --git a/schema/deterministic_reversals_reward_capped.json b/schema/deterministic_reversals_reward_capped.json
diff --git a/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals/__init__.py b/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals/__init__.py
@@ -0,0 +1,9 @@
+from .curriculum import CURRICULUM, CURRICULUM_NAME, PKG_LOCATION, TRAINER, run_curriculum
+
+__all__ = [
+    "CURRICULUM_NAME",
+    "CURRICULUM",
+    "TRAINER",
+    "run_curriculum",
+    "PKG_LOCATION",
+]
diff --git a/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals/_curriculum_builder.py b/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals/_curriculum_builder.py
@@ -0,0 +1,81 @@
+from typing import Any, Callable, Type
+
+import aind_behavior_curriculum
+from aind_behavior_curriculum import Stage, StageTransition, Trainer, TrainerState, create_curriculum
+from aind_behavior_vr_foraging.task_logic import AindVrForagingTaskLogic
+
+from .. import __semver__
+from ..cli import CurriculumCliArgs, CurriculumSuggestion
+from ..depletion.curriculum import (
+    metrics_from_dataset_path,
+    st_s_stage_all_odors_rewarded_s_stage_graduation,
+    st_s_stage_one_odor_no_depletion_s_stage_one_odor_w_depletion_day_0,
+    st_s_stage_one_odor_w_depletion_day_0_s_stage_all_odors_rewarded,
+    st_s_stage_one_odor_w_depletion_day_0_s_stage_one_odor_w_depletion_day_1,
+    st_s_stage_one_odor_w_depletion_day_1_s_stage_all_odors_rewarded,
+    st_s_stage_one_odor_w_depletion_day_1_s_stage_one_odor_w_depletion_day_0,
+    trainer_state_from_file,
+)
+from ..depletion.stages import (
+    make_s_stage_one_odor_no_depletion,
+    make_s_stage_one_odor_w_depletion_day_0,
+    make_s_stage_one_odor_w_depletion_day_1,
+)
+
+
+def build_deterministic_reversal_curriculum(
+    curriculum_name: str,
+    pkg_location: str,
+    make_all_odors_rewarded: Callable[[], Stage],
+    make_graduation: Callable[[], Stage],
+) -> tuple[
+    aind_behavior_curriculum.Curriculum,
+    Trainer,
+    Callable[[CurriculumCliArgs], CurriculumSuggestion[TrainerState[Any], Any]],
+]:
+    curriculum_class: Type[aind_behavior_curriculum.Curriculum[AindVrForagingTaskLogic]] = create_curriculum(
+        curriculum_name, __semver__, (AindVrForagingTaskLogic,), pkg_location=pkg_location
+    )
+    curriculum = curriculum_class()
+
+    curriculum.add_stage_transition(
+        make_s_stage_one_odor_no_depletion(),
+        make_s_stage_one_odor_w_depletion_day_0(),
+        StageTransition(st_s_stage_one_odor_no_depletion_s_stage_one_odor_w_depletion_day_0),
+    )
+    curriculum.add_stage_transition(
+        make_s_stage_one_odor_w_depletion_day_0(),
+        make_s_stage_one_odor_w_depletion_day_1(),
+        StageTransition(st_s_stage_one_odor_w_depletion_day_0_s_stage_one_odor_w_depletion_day_1),
+    )
+    curriculum.add_stage_transition(
+        make_s_stage_one_odor_w_depletion_day_1(),
+        make_s_stage_one_odor_w_depletion_day_0(),
+        StageTransition(st_s_stage_one_odor_w_depletion_day_1_s_stage_one_odor_w_depletion_day_0),
+    )
+    curriculum.add_stage_transition(
+        make_s_stage_one_odor_w_depletion_day_1(),
+        make_all_odors_rewarded(),
+        StageTransition(st_s_stage_one_odor_w_depletion_day_1_s_stage_all_odors_rewarded),
+    )
+    curriculum.add_stage_transition(
+        make_s_stage_one_odor_w_depletion_day_0(),
+        make_all_odors_rewarded(),
+        StageTransition(st_s_stage_one_odor_w_depletion_day_0_s_stage_all_odors_rewarded),
+    )
+    curriculum.add_stage_transition(
+        make_all_odors_rewarded(),
+        make_graduation(),
+        StageTransition(st_s_stage_all_odors_rewarded_s_stage_graduation),
+    )
+
+    trainer = Trainer(curriculum)
+
+    def run_curriculum(args: CurriculumCliArgs) -> CurriculumSuggestion[TrainerState[Any], Any]:
+        metrics: aind_behavior_curriculum.Metrics
+        trainer_state = trainer_state_from_file(args.input_trainer_state, trainer)
+        metrics = metrics_from_dataset_path(args.data_directory, trainer_state)
+        trainer_state = trainer.evaluate(trainer_state, metrics)
+        return CurriculumSuggestion(trainer_state=trainer_state, metrics=metrics, version=__semver__)
+
+    return curriculum, trainer, run_curriculum
diff --git a/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals/_stages_shared.py b/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals/_stages_shared.py
@@ -0,0 +1,224 @@
+from typing import Literal, Optional
+
+import numpy as np
+from aind_behavior_curriculum import MetricsProvider, Stage
+from aind_behavior_vr_foraging import task_logic
+from aind_behavior_vr_foraging.task_logic import AindVrForagingTaskLogic, AindVrForagingTaskParameters
+
+from ..depletion import helpers
+from ..depletion.metrics import metrics_from_dataset
+
+
+def deterministic_curves(
+    amount_drop: float = 5.0,
+    option: Optional[Literal["single", "delayed"]] = "single",
+    *,
+    cap_delayed_rewards: bool = False,
+) -> list[task_logic.RewardFunction]:
+    if option == "delayed":
+        lut_values = [0.5, 1, 1, 1, 0]
+        probability = task_logic.LookupTableFunction(
+            lut_keys=list(np.arange(len(lut_values)) + 1), lut_values=lut_values
+        )
+        reward_function_prob = task_logic.PatchRewardFunction(
+            probability=probability,
+            rule=task_logic.RewardFunctionRule.ON_CHOICE_ACCUMULATED,
+        )
+        if cap_delayed_rewards:
+            reward_available = amount_drop * 3
+            available = task_logic.ClampedRateFunction(
+                rate=task_logic.scalar_value(-amount_drop), minimum=0, maximum=reward_available
+            )
+            reward_function_avail = task_logic.PatchRewardFunction(
+                available=available,
+                rule=task_logic.RewardFunctionRule.ON_REWARD,
+            )
+            reset_function = task_logic.OnThisPatchEntryRewardFunction(
+                probability=task_logic.SetValueFunction(value=task_logic.scalar_value(1)),
+                available=task_logic.SetValueFunction(value=task_logic.scalar_value(reward_available)),
+            )
+            return [reward_function_prob, reward_function_avail, reset_function]
+        else:
+            reward_available = 100
+            reset_function = task_logic.OnThisPatchEntryRewardFunction(
+                probability=task_logic.SetValueFunction(value=task_logic.scalar_value(1)),
+                available=task_logic.SetValueFunction(value=task_logic.scalar_value(reward_available)),
+            )
+            return [reward_function_prob, reset_function]
+
+    elif option == "single":
+        lut_values = [1, 0]
+        probability = task_logic.LookupTableFunction(lut_keys=[1, 2], lut_values=lut_values)
+        reward_function = task_logic.PatchRewardFunction(
+            probability=probability,
+            rule=task_logic.RewardFunctionRule.ON_CHOICE_ACCUMULATED,
+        )
+        reset_function = task_logic.OnThisPatchEntryRewardFunction(
+            probability=task_logic.SetValueFunction(value=task_logic.scalar_value(1)),
+            available=task_logic.SetValueFunction(value=task_logic.scalar_value(100)),
+        )
+        return [reward_function, reset_function]
+
+    elif option is None:
+        probability = task_logic.SetValueFunction(value=task_logic.scalar_value(0))
+        reward_function = task_logic.PatchRewardFunction(
+            probability=probability,
+            rule=task_logic.RewardFunctionRule.ON_CHOICE,
+        )
+        reset_function = task_logic.OnThisPatchEntryRewardFunction(
+            probability=task_logic.SetValueFunction(value=task_logic.scalar_value(0)),
+            available=task_logic.SetValueFunction(value=task_logic.scalar_value(0)),
+        )
+        return [reward_function, reset_function]
+
+    else:
+        raise ValueError(f"Option {option} not recognized. Valid options are 'single', 'delayed', and None.")
+
+
+def make_patch(
+    label: str,
+    state_index: int,
+    odor_index: list[float],
+    patch_type: Optional[Literal["single", "delayed"]],
+    reward_amount: float = 5.0,
+    first_p: float = 0.5,
+    reward_available: float = 9999,
+    stop_duration: float = 0.5,
+    delay_mean: float = 0.5,
+    cap_delayed_rewards: bool = False,
+) -> task_logic.Patch:
+    agent = task_logic.RewardSpecification(
+        operant_logic=helpers.make_operant_logic(stop_duration=stop_duration, is_operant=False),
+        delay=helpers.make_exponential_distribution(rate=1 / delay_mean, minimum=0.0, maximum=1.0),
+        amount=task_logic.scalar_value(value=reward_amount),
+        probability=task_logic.scalar_value(first_p),
+        available=task_logic.scalar_value(reward_available),
+        reward_function=deterministic_curves(
+            amount_drop=reward_amount, option=patch_type, cap_delayed_rewards=cap_delayed_rewards
+        ),
+    )
+    return task_logic.Patch(
+        label=label,
+        state_index=state_index,
+        odor_specification=odor_index,
+        reward_specification=agent,
+        patch_virtual_sites_generator=helpers.make_patch_virtual_sites_generator(
+            rewardsite=50,
+            interpatch_min=100,
+            interpatch_max=250,
+            intersite_min=20,
+            intersite_max=80,
+        ),
+    )
+
+
+def make_s_stage_all_odors_rewarded(
+    delayed_reward_available: float = 100,
+    cap_delayed_rewards: bool = False,
+) -> Stage:
+    return Stage(
+        name="all_odors_rewarded",
+        task=AindVrForagingTaskLogic(
+            stage_name="all_odors_rewarded",
+            task_parameters=AindVrForagingTaskParameters(
+                operation_control=helpers.make_default_operation_control(velocity_threshold=8),
+                environment=task_logic.BlockStructure(
+                    blocks=[
+                        task_logic.Block(
+                            environment=task_logic.MarkovEnvironment(
+                                first_state_occupancy=[0.5, 0.5],
+                                transition_matrix=[[0.5, 0.5], [0.5, 0.5]],
+                                patches=[
+                                    make_patch(
+                                        label="patch_single",
+                                        state_index=0,
+                                        odor_index=[0, 0, 1],
+                                        patch_type="single",
+                                        reward_amount=5.0,
+                                        first_p=1,
+                                        reward_available=100,
+                                        cap_delayed_rewards=cap_delayed_rewards,
+                                    ),
+                                    make_patch(
+                                        label="patch_delayed",
+                                        state_index=1,
+                                        odor_index=[0, 1, 0],
+                                        patch_type="delayed",
+                                        reward_amount=5.0,
+                                        first_p=0.5,
+                                        reward_available=delayed_reward_available,
+                                        cap_delayed_rewards=cap_delayed_rewards,
+                                    ),
+                                ],
+                            ),
+                            end_conditions=[],
+                        )
+                    ],
+                ),
+            ),
+        ),
+        metrics_provider=MetricsProvider(metrics_from_dataset),
+    )
+
+
+def make_s_stage_graduation(
+    delayed_reward_available: float = 100,
+    cap_delayed_rewards: bool = False,
+) -> Stage:
+    return Stage(
+        name="graduation",
+        task=AindVrForagingTaskLogic(
+            stage_name="graduation",
+            task_parameters=AindVrForagingTaskParameters(
+                operation_control=helpers.make_default_operation_control(velocity_threshold=8),
+                environment=task_logic.BlockStructure(
+                    blocks=[
+                        task_logic.Block(
+                            environment=task_logic.MarkovEnvironment(
+                                first_state_occupancy=[1 / 3, 1 / 3, 1 / 3],
+                                transition_matrix=[
+                                    [1 / 3, 1 / 3, 1 / 3],
+                                    [1 / 3, 1 / 3, 1 / 3],
+                                    [1 / 3, 1 / 3, 1 / 3],
+                                ],
+                                patches=[
+                                    make_patch(
+                                        label="patch_null",
+                                        state_index=0,
+                                        odor_index=[1, 0, 0],
+                                        patch_type=None,
+                                        reward_amount=0.0,
+                                        first_p=0,
+                                        reward_available=0,
+                                        cap_delayed_rewards=cap_delayed_rewards,
+                                    ),
+                                    make_patch(
+                                        label="patch_delayed",
+                                        state_index=1,
+                                        odor_index=[0, 1, 0],
+                                        patch_type="delayed",
+                                        reward_amount=5.0,
+                                        first_p=0.5,
+                                        reward_available=delayed_reward_available,
+                                        cap_delayed_rewards=cap_delayed_rewards,
+                                    ),
+                                    make_patch(
+                                        label="patch_single",
+                                        state_index=2,
+                                        odor_index=[0, 0, 1],
+                                        patch_type="single",
+                                        reward_amount=5.0,
+                                        first_p=1,
+                                        reward_available=100,
+                                        cap_delayed_rewards=cap_delayed_rewards,
+                                    ),
+                                ],
+                            ),
+                            end_conditions=[],
+                        )
+                    ],
+                ),
+            ),
+        ),
+        metrics_provider=MetricsProvider(metrics_from_dataset),
+    )
diff --git a/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals/curriculum.py b/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals/curriculum.py
@@ -0,0 +1,12 @@
+from ._curriculum_builder import build_deterministic_reversal_curriculum
+from .stages import make_s_stage_all_odors_rewarded, make_s_stage_graduation
+
+CURRICULUM_NAME = "DeterministicReversals"
+PKG_LOCATION = ".".join(__name__.split(".")[:-1])
+
+CURRICULUM, TRAINER, run_curriculum = build_deterministic_reversal_curriculum(
+    CURRICULUM_NAME,
+    PKG_LOCATION,
+    make_s_stage_all_odors_rewarded,
+    make_s_stage_graduation,
+)
diff --git a/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals/stages.py b/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals/stages.py
@@ -0,0 +1,3 @@
+from ._stages_shared import make_s_stage_all_odors_rewarded, make_s_stage_graduation
+
+__all__ = ["make_s_stage_all_odors_rewarded", "make_s_stage_graduation"]
diff --git a/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals_reward_capped/__init__.py b/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals_reward_capped/__init__.py
@@ -0,0 +1,9 @@
+from .curriculum import CURRICULUM, CURRICULUM_NAME, PKG_LOCATION, TRAINER, run_curriculum
+
+__all__ = [
+    "CURRICULUM_NAME",
+    "CURRICULUM",
+    "TRAINER",
+    "run_curriculum",
+    "PKG_LOCATION",
+]
diff --git a/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals_reward_capped/curriculum.py b/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals_reward_capped/curriculum.py
@@ -0,0 +1,12 @@
+from ..deterministic_reversals._curriculum_builder import build_deterministic_reversal_curriculum
+from .stages import make_s_stage_all_odors_rewarded, make_s_stage_graduation
+
+CURRICULUM_NAME = "DeterministicReversalsRewardCapped"
+PKG_LOCATION = ".".join(__name__.split(".")[:-1])
+
+CURRICULUM, TRAINER, run_curriculum = build_deterministic_reversal_curriculum(
+    CURRICULUM_NAME,
+    PKG_LOCATION,
+    make_s_stage_all_odors_rewarded,
+    make_s_stage_graduation,
+)
diff --git a/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals_reward_capped/stages.py b/src/packages/aind_behavior_vr_foraging_curricula/src/aind_behavior_vr_foraging_curricula/deterministic_reversals_reward_capped/stages.py
@@ -0,0 +1,15 @@
+from functools import partial
+
+from ..deterministic_reversals._stages_shared import (
+    make_s_stage_all_odors_rewarded as _make_s_stage_all_odors_rewarded,
+)
+from ..deterministic_reversals._stages_shared import (
+    make_s_stage_graduation as _make_s_stage_graduation,
+)
+
+make_s_stage_all_odors_rewarded = partial(
+    _make_s_stage_all_odors_rewarded, delayed_reward_available=15, cap_delayed_rewards=True
+)
+make_s_stage_graduation = partial(_make_s_stage_graduation, delayed_reward_available=15, cap_delayed_rewards=True)
+
+__all__ = ["make_s_stage_all_odors_rewarded", "make_s_stage_graduation"]

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1,3 @@`
	`1`	`+from ._stages_shared import make_s_stage_all_odors_rewarded, make_s_stage_graduation`
	`2`	`+`
	`3`	`+__all__ = ["make_s_stage_all_odors_rewarded", "make_s_stage_graduation"]`