fix(infra): update GCP runner to v2.332.0 and resolve rebase import conflicts

garrett4wade · garrett4wade · commit 9e4e96bf4c79 · 2026-03-07T15:23:02.000+08:00
Runner 2.317.0 does not support node24 required by actions/checkout@v6, causing 'Set up job' failures on dynamically provisioned GCP instances. Key changes: - Bump RUNNER_VERSION from 2.317.0 to 2.332.0 in test-areal.yml and build-docker-image.yml - Remove duplicate imports in test_rollout_controller.py from rebase with PR #996
diff --git a/.github/workflows/build-docker-image.yml b/.github/workflows/build-docker-image.yml
@@ -14,7 +14,7 @@ permissions:
 env:
   GCP_PROJECT_ID: ${{ secrets.GCP_PROJECT_ID }}
   VALIDATOR_LABELS: gcp-docker-validator
-  RUNNER_VERSION: '2.317.0'
+  RUNNER_VERSION: '2.332.0'
   IMAGE_NAME: ghcr.io/inclusionai/areal-runtime
   IMAGE_TAG: test
 
diff --git a/.github/workflows/test-areal.yml b/.github/workflows/test-areal.yml
@@ -39,7 +39,7 @@ concurrency:
 
 env:
   GCP_PROJECT_ID: ${{ secrets.GCP_PROJECT_ID }}
-  RUNNER_VERSION: '2.317.0'
+  RUNNER_VERSION: '2.332.0'
   GCP_OS_IMAGE: areal-cicd-test-202602030
 
 jobs:
diff --git a/tests/grpo/config_archon.yaml b/tests/grpo/config_archon.yaml
@@ -1,5 +1,7 @@
 experiment_name: tests-grpo
 trial_name: trial
+scheduler:
+  type: local
 cluster:
   n_nodes: 1
   n_gpus_per_node: 2
diff --git a/tests/grpo/config_archon_vllm.yaml b/tests/grpo/config_archon_vllm.yaml
@@ -1,5 +1,7 @@
 experiment_name: tests-grpo
 trial_name: trial
+scheduler:
+  type: local
 cluster:
   n_nodes: 1
   n_gpus_per_node: 2
@@ -34,8 +36,6 @@ vllm:
   model: ${actor.path}
   seed: ${seed}
   skip_tokenizer_init: false
-  max_model_len: 128
-  gpu_memory_utilization: 0.2
 gconfig:
   n_samples: 4
   max_new_tokens: 1024
diff --git a/tests/grpo/config_fsdp.yaml b/tests/grpo/config_fsdp.yaml
@@ -1,5 +1,7 @@
 experiment_name: tests-grpo
 trial_name: trial
+scheduler:
+  type: local
 cluster:
   n_nodes: 1
   n_gpus_per_node: 2
diff --git a/tests/grpo/config_fsdp_vllm.yaml b/tests/grpo/config_fsdp_vllm.yaml
@@ -1,5 +1,7 @@
 experiment_name: tests-grpo
 trial_name: trial
+scheduler:
+  type: local
 cluster:
   n_nodes: 1
   n_gpus_per_node: 2
@@ -34,8 +36,6 @@ vllm:
   model: ${actor.path}
   seed: ${seed}
   skip_tokenizer_init: false
-  max_model_len: 128
-  gpu_memory_utilization: 0.2
 gconfig:
   n_samples: 4
   max_new_tokens: 1024
diff --git a/tests/grpo/config_megatron.yaml b/tests/grpo/config_megatron.yaml
@@ -1,5 +1,7 @@
 experiment_name: tests-grpo
 trial_name: trial
+scheduler:
+  type: local
 cluster:
   n_nodes: 1
   n_gpus_per_node: 2
diff --git a/tests/grpo/config_megatron_vllm.yaml b/tests/grpo/config_megatron_vllm.yaml
@@ -1,5 +1,7 @@
 experiment_name: tests-grpo
 trial_name: trial
+scheduler:
+  type: local
 cluster:
   n_nodes: 1
   n_gpus_per_node: 2
@@ -34,8 +36,6 @@ vllm:
   model: ${actor.path}
   seed: ${seed}
   skip_tokenizer_init: false
-  max_model_len: 128
-  gpu_memory_utilization: 0.2
 gconfig:
   n_samples: 4
   max_new_tokens: 1024
diff --git a/tests/grpo/entrypoint.py b/tests/grpo/entrypoint.py
@@ -7,8 +7,6 @@
 from areal import PPOTrainer
 from areal.api.cli_args import GRPOConfig, load_expr_config
 from areal.dataset import get_custom_dataset
-from areal.reward import gsm8k_reward_fn
-from areal.utils import stats_tracker
 from areal.utils.hf_utils import load_hf_tokenizer
 from areal.workflow import RLVRWorkflow
 
@@ -22,7 +20,7 @@ def __init__(self, *args, **kwargs):
 
     def _export_and_commit_stats(self, epoch, epoch_step, global_step):
         # Collect stats before committing
-        stats = stats_tracker.export_all(reduce_group=self.actor.data_parallel_group)
+        stats = self.actor.export_stats()
         self.rewards_history.append(stats["ppo_actor/task_reward/avg"])
 
 
@@ -41,14 +39,15 @@ def main() -> None:
         train_dataset=train_dataset,
         valid_dataset=None,
     ) as trainer:
-        workflow = RLVRWorkflow(
-            reward_fn=gsm8k_reward_fn,
+        workflow = RLVRWorkflow
+        workflow_kwargs = dict(
+            reward_fn="areal.reward.gsm8k_reward_fn",
             gconfig=config.gconfig,
             tokenizer=trainer.tokenizer,
             enable_thinking=False,
         )
 
-        trainer.train(workflow)
+        trainer.train(workflow, workflow_kwargs=workflow_kwargs)
 
         # Save rewards to JSON for test assertions
         if dist.get_rank() == 0:
diff --git a/tests/grpo/test_grpo.py b/tests/grpo/test_grpo.py
@@ -72,11 +72,7 @@ def test_grpo(tmp_path: Path, backend: str, inference: str) -> None:
             sort_keys=False,
         )
 
-    cmd = (
-        Command("python")
-        .bake(m="areal.infra.launcher.local")
-        .bake(os.path.join(base_dir, "entrypoint.py"))
-    )
+    cmd = Command("python").bake(os.path.join(base_dir, "entrypoint.py"))
 
     cmd(
         f"cluster.fileroot={tmp_path}",
diff --git a/tests/test_rollout_controller.py b/tests/test_rollout_controller.py
@@ -20,8 +20,6 @@
     SchedulingSpec,
     SGLangConfig,
 )
-from areal.api.io_struct import ModelRequest, ParamSpec, WeightUpdateMeta
-from areal.api.scheduler_api import Worker
 from areal.infra import RolloutController
 from areal.infra.scheduler.local import LocalScheduler
 from areal.utils.hf_utils import load_hf_tokenizer