Add grouped-GEMM perf_test configs and launcher

seonjinn · seonjinn · commit f7bdb19b4578 · 2026-04-16T22:10:04.000-07:00
Compares moe_grouped_gemm=false vs true on Qwen3-30BA3B (4n) and
Qwen3-235B (16n). Launcher wraps the shared cluster_config.sh.

Signed-off-by: sna &lt;sna@nvidia.com&gt;
diff --git a/examples/configs/perf_test/qwen3_235b/gemm_00_baseline.yaml b/examples/configs/perf_test/qwen3_235b/gemm_00_baseline.yaml
@@ -0,0 +1,21 @@
+defaults: ../../recipes/llm/performance/grpo-qwen3-235b-16n4g.yaml
+
+# Grouped GEMM baseline for 235B: moe_grouped_gemm=false. Pairs with
+# gemm_01_grouped to isolate the speedup from the grouped MoE expert GEMM.
+checkpointing:
+  enabled: false
+grpo:
+  max_num_steps: 10
+logger:
+  log_dir: logs/perf_test/qwen3_235b/gemm_00_baseline
+  wandb_enabled: false
+  tensorboard_enabled: false
+policy:
+  make_sequence_length_divisible_by: 128
+  sequence_packing:
+    enabled: true
+  megatron_cfg:
+    moe_grouped_gemm: false
+    env_vars:
+      PYTORCH_CUDA_ALLOC_CONF: "expandable_segments:False"
+      CUDA_HOME: /usr/local/cuda
diff --git a/examples/configs/perf_test/qwen3_235b/gemm_01_grouped.yaml b/examples/configs/perf_test/qwen3_235b/gemm_01_grouped.yaml
@@ -0,0 +1,21 @@
+defaults: ../../recipes/llm/performance/grpo-qwen3-235b-16n4g.yaml
+
+# Grouped GEMM enabled for 235B: single grouped GEMM across experts.
+# Pairs with gemm_00_baseline to measure the speedup.
+checkpointing:
+  enabled: false
+grpo:
+  max_num_steps: 10
+logger:
+  log_dir: logs/perf_test/qwen3_235b/gemm_01_grouped
+  wandb_enabled: false
+  tensorboard_enabled: false
+policy:
+  make_sequence_length_divisible_by: 128
+  sequence_packing:
+    enabled: true
+  megatron_cfg:
+    moe_grouped_gemm: true
+    env_vars:
+      PYTORCH_CUDA_ALLOC_CONF: "expandable_segments:False"
+      CUDA_HOME: /usr/local/cuda
diff --git a/examples/configs/perf_test/qwen3_30ba3b/gemm_00_baseline.yaml b/examples/configs/perf_test/qwen3_30ba3b/gemm_00_baseline.yaml
@@ -0,0 +1,22 @@
+defaults: ../../recipes/llm/performance/grpo-qwen3-30ba3b-4n4g.yaml
+
+# Grouped GEMM baseline: default moe_grouped_gemm=false path. Pairs with
+# gemm_01_grouped to isolate the speedup from running MoE expert FCs as a
+# single grouped GEMM instead of per-expert GEMMs.
+checkpointing:
+  enabled: false
+grpo:
+  max_num_steps: 10
+logger:
+  log_dir: logs/perf_test/qwen3_30ba3b/gemm_00_baseline
+  wandb_enabled: false
+  tensorboard_enabled: false
+policy:
+  make_sequence_length_divisible_by: 128
+  sequence_packing:
+    enabled: true
+  megatron_cfg:
+    moe_grouped_gemm: false
+    env_vars:
+      PYTORCH_CUDA_ALLOC_CONF: "expandable_segments:False"
+      CUDA_HOME: /usr/local/cuda
diff --git a/examples/configs/perf_test/qwen3_30ba3b/gemm_01_grouped.yaml b/examples/configs/perf_test/qwen3_30ba3b/gemm_01_grouped.yaml
@@ -0,0 +1,21 @@
+defaults: ../../recipes/llm/performance/grpo-qwen3-30ba3b-4n4g.yaml
+
+# Grouped GEMM enabled: single grouped GEMM across experts instead of
+# per-expert GEMMs. Pairs with gemm_00_baseline to measure the speedup.
+checkpointing:
+  enabled: false
+grpo:
+  max_num_steps: 10
+logger:
+  log_dir: logs/perf_test/qwen3_30ba3b/gemm_01_grouped
+  wandb_enabled: false
+  tensorboard_enabled: false
+policy:
+  make_sequence_length_divisible_by: 128
+  sequence_packing:
+    enabled: true
+  megatron_cfg:
+    moe_grouped_gemm: true
+    env_vars:
+      PYTORCH_CUDA_ALLOC_CONF: "expandable_segments:False"
+      CUDA_HOME: /usr/local/cuda
diff --git a/experiments/perf_test/scripts/cluster_config.sh b/experiments/perf_test/scripts/cluster_config.sh
@@ -0,0 +1,92 @@
+#!/bin/bash
+# Cluster auto-detect and shared paths for perf_test submissions.
+# Sourced by exp_*.sh scripts.
+
+detect_gpus_per_node() {
+    local partition="${1:-batch}"
+    local gres_gpus
+    gres_gpus=$(sinfo -p "$partition" -h -o "%G" 2>/dev/null | grep -oP 'gpu:\d+' | grep -oP '\d+' | head -1 || true)
+    if [[ -n "$gres_gpus" && "$gres_gpus" -gt 0 ]]; then
+        echo "$gres_gpus"
+    else
+        echo "4"
+    fi
+}
+
+setup_cluster_config() {
+    local partition="${1:-batch}"
+    PARTITION="${PARTITION:-$partition}"
+    if [[ -z "${GPUS_PER_NODE:-}" ]]; then
+        GPUS_PER_NODE=$(detect_gpus_per_node "$partition")
+    fi
+    if [[ "$GPUS_PER_NODE" -eq 8 ]]; then
+        CLUSTER_TYPE="H100"
+    else
+        CLUSTER_TYPE="GB200"
+    fi
+    # GRES flag: Lyris rejects --gres=gpu:N, so allow explicit opt-out via
+    # GRES_FLAG= (empty). Default is "--gres=gpu:${GPUS_PER_NODE}".
+    if [[ -z "${GRES_FLAG+x}" ]]; then
+        GRES_FLAG="--gres=gpu:${GPUS_PER_NODE}"
+    fi
+
+    BASE="${BASE:-/lustre/fsw/portfolios/coreai/projects/coreai_dlalgo_nemorl/users/sna}"
+    CONTAINER="${CONTAINER:-${BASE}/HybridEP_test/nemo_rl.sqsh}"
+    MOUNTS="${MOUNTS:-/lustre:/lustre}"
+    ACCOUNT="${ACCOUNT:-coreai_dlalgo_nemorl}"
+    HF_HOME="${HF_HOME:-${BASE}/HybridEP_test/hf_home}"
+    HF_DATASETS_CACHE="${HF_DATASETS_CACHE:-${HF_HOME}/cache}"
+
+    echo "[INFO] Cluster: ${CLUSTER_TYPE}, GPUs/node: ${GPUS_PER_NODE}, Partition: ${PARTITION}"
+    echo "[INFO] Account: ${ACCOUNT}, GRES: ${GRES_FLAG:-<none>}"
+    echo "[INFO] Container: ${CONTAINER}"
+    echo "[INFO] HF_HOME: ${HF_HOME}"
+}
+
+export_cluster_config() {
+    export GPUS_PER_NODE CONTAINER GRES_FLAG CLUSTER_TYPE PARTITION
+    export BASE MOUNTS ACCOUNT HF_HOME HF_DATASETS_CACHE
+}
+
+# Submit a single perf_test variant.
+# Args: PROJECT_ROOT CONFIG_REL NUM_NODES JOB_NAME [EXTRA_ENV]
+# Example: submit_variant "$BASE/RL-selective-recompute" "perf_test/qwen3_30ba3b/recompute_00_no_ckpt" 4 "nrl-recompute-qwen-no-ckpt"
+submit_variant() {
+    local project_root="$1"
+    local config_rel="$2"
+    local num_nodes="$3"
+    local job_name="$4"
+    local extra_env="${5:-}"
+
+    local log_dir="${project_root}/logs/${config_rel}"
+    mkdir -p "$log_dir"
+
+    local uv_extra=""
+    if [[ "$project_root" == *"moe-compute-opts"* ]] || [[ "$project_root" == *"high-priority-streams"* ]]; then
+        uv_extra="--extra mcore"
+    fi
+
+    # NRL_FORCE_REBUILD_VENVS=true forces uv to re-sync venvs against the
+    # current pyproject.toml/uv.lock on every run. NEMO_RL_VENV_DIR pins the
+    # venv location into the project dir so each worktree has its own venv.
+    # Both must be exported inside the container, not just the login shell.
+    local command="cd ${project_root} && export NRL_IGNORE_VERSION_MISMATCH=1 NRL_FORCE_REBUILD_VENVS=true NEMO_RL_VENV_DIR=${project_root}/venvs CUDA_HOME=/usr/local/cuda HF_HOME=${HF_HOME} HF_DATASETS_CACHE=${HF_DATASETS_CACHE} HF_HUB_OFFLINE=1 ${extra_env} && uv run ${uv_extra} examples/run_grpo.py --config examples/configs/${config_rel}.yaml"
+
+    # TIME_LIMIT override lets longer-running experiments use longer partitions
+    # (Lyris gb200 has a 5h cap vs OCI-HSG's shorter slots). Default 1:30:00
+    # covers the original short sweeps.
+    local time_limit="${TIME_LIMIT:-1:30:00}"
+
+    echo "[SUBMIT] ${job_name} (nodes=${num_nodes}, time=${time_limit})"
+    CONTAINER="$CONTAINER" MOUNTS="$MOUNTS" GPUS_PER_NODE="$GPUS_PER_NODE" \
+        COMMAND="$command" BASE_LOG_DIR="$log_dir" \
+        sbatch \
+            --nodes="$num_nodes" \
+            $GRES_FLAG \
+            --time="$time_limit" \
+            --segment="$num_nodes" \
+            -A "$ACCOUNT" -p "$PARTITION" \
+            --job-name="$job_name" \
+            --output="${log_dir}/slurm-%j.out" \
+            "${project_root}/ray.sub"
+}
diff --git a/experiments/perf_test/scripts/exp_grouped_gemm.sh b/experiments/perf_test/scripts/exp_grouped_gemm.sh
@@ -0,0 +1,30 @@
+#!/bin/bash
+# Launch grouped-GEMM perf_test variants on Lyris (GB200 aarch64).
+# Usage: bash exp_grouped_gemm.sh [variant_filter]
+
+set -euo pipefail
+SCRIPT_DIR="$(cd "$(dirname "${BASH_SOURCE[0]}")" && pwd)"
+source "${SCRIPT_DIR}/cluster_config.sh"
+setup_cluster_config "${PARTITION:-batch}"
+export_cluster_config
+
+PROJECT_ROOT="${BASE}/RL-grouped-gemm"
+
+# (config_rel, num_nodes, job_suffix)
+declare -a JOBS=(
+    "perf_test/qwen3_30ba3b/gemm_00_baseline 4 qwen-gemm-baseline"
+    "perf_test/qwen3_30ba3b/gemm_01_grouped 4 qwen-gemm-grouped"
+    "perf_test/qwen3_235b/gemm_00_baseline 16 qwen235b-gemm-baseline"
+    "perf_test/qwen3_235b/gemm_01_grouped 16 qwen235b-gemm-grouped"
+)
+
+FILTER="${1:-}"
+
+for job in "${JOBS[@]}"; do
+    read -r config num_nodes suffix <<<"$job"
+    [[ -n "$FILTER" ]] && [[ "$config" != *"$FILTER"* ]] && [[ "$suffix" != *"$FILTER"* ]] && continue
+    submit_variant "$PROJECT_ROOT" "$config" "$num_nodes" "nrl-gemm-${suffix}"
+done
+
+echo ""
+echo "[MONITOR] squeue -u \$USER -o '%.18i %.30j %.8T %.10M %R'"