Add TPU v7-8 attention benchmark script

csgoogle · csgoogle · commit 2582cf1b1e9a · 2026-05-15T11:36:31.000Z
diff --git a/bench_attn_v78.sh b/bench_attn_v78.sh
@@ -0,0 +1,131 @@
+#!/usr/bin/env bash
+set -euo pipefail
+
+# ── config (TPU v7-8, single host, 8 chips) ──────────────────────────────────
+REPO_DIR=/mnt/data/sagarchapara/workspace/maxdiffusion
+VENV=/mnt/data/sagarchapara/workspace/venv
+CONFIG=$REPO_DIR/src/maxdiffusion/configs/base_wan_27b.yml
+RESULTS_ROOT=$REPO_DIR/bench_results
+OUTPUT_ROOT=$REPO_DIR/bench_outputs
+
+PRETRAINED_ORBAX_DIR=/mnt/data/sagarchapara/workspace/wan22_orbax_cache
+mkdir -p "$PRETRAINED_ORBAX_DIR"
+
+export LIBTPU_INIT_ARGS=\
+'--xla_tpu_dvfs_p_state=7 '\
+'--xla_tpu_enable_async_collective_fusion_fuse_all_gather=true '\
+'--xla_tpu_megacore_fusion_allow_ags=false '\
+'--xla_enable_async_collective_permute=true '\
+'--xla_tpu_enable_ag_backward_pipelining=true '\
+'--xla_tpu_enable_data_parallel_all_reduce_opt=true '\
+'--xla_tpu_data_parallel_opt_different_sized_ops=true '\
+'--xla_tpu_enable_async_collective_fusion=true '\
+'--xla_tpu_enable_async_collective_fusion_multiple_steps=true '\
+'--xla_tpu_overlap_compute_collective_tc=true '\
+'--xla_enable_async_all_gather=true '\
+'--xla_tpu_scoped_vmem_limit_kib=65536 '\
+'--xla_tpu_enable_async_all_to_all=true '\
+'--xla_tpu_enable_latency_hiding_scheduler=true '\
+'--xla_tpu_enable_all_experimental_scheduler_features=true '\
+'--xla_tpu_enable_scheduler_memory_pressure_tracking=true '\
+'--xla_tpu_host_transfer_overlap_limit=24 '\
+'--xla_tpu_aggressive_opt_barrier_removal=ENABLED '\
+'--xla_lhs_prioritize_async_depth_over_stall=ENABLED '\
+'--xla_should_allow_loop_variant_parameter_in_chain=ENABLED '\
+'--xla_should_add_loop_invariant_op_in_chain=ENABLED '\
+'--xla_max_concurrent_host_send_recv=100 '\
+'--xla_tpu_scheduler_percent_shared_memory_limit=100 '\
+'--xla_latency_hiding_scheduler_rerun=5 '\
+'--xla_tpu_use_minor_sharding_for_major_trivial_input=true '\
+'--xla_tpu_relayout_group_size_threshold_for_reduce_scatter=1 '\
+'--xla_tpu_spmd_rng_bit_generator_unsafe=true '\
+'--xla_tpu_assign_all_reduce_scatter_layout=true '\
+'--xla_max_concurrent_async_collective_permutes=16 '\
+'--xla_tpu_enable_ici_ag_pipelining=true'
+
+source "$VENV/bin/activate"
+export PYTHONPATH=$REPO_DIR/src:${PYTHONPATH:-}
+export HF_HOME=/dev/shm/maxdiffusion_cache/huggingface
+export HF_HUB_CACHE=/dev/shm/maxdiffusion_cache/huggingface/hub
+export HF_HUB_ENABLE_HF_TRANSFER=1
+export JAX_COMPILATION_CACHE_DIR=/dev/shm/maxdiffusion_cache/jax
+export XLA_CACHE_DIR=/dev/shm/maxdiffusion_cache/xla
+export TMPDIR=/dev/shm/maxdiffusion_cache/tmp
+mkdir -p "$TMPDIR" "$HF_HOME" "$HF_HUB_CACHE" "$JAX_COMPILATION_CACHE_DIR" "$XLA_CACHE_DIR"
+
+# ── helper (single host - no SSH) ────────────────────────────────────────────
+# run_case <run_name> <attention> <ici_dp> <ici_cp> <unused> <per_device_batch_size>
+run_case() {
+  local run_name="$1"
+  local attention="$2"
+  local ici_dp="$3"
+  local ici_a="$4"
+  local ici_b="$5"
+  local pdb="$6"
+
+  local results_dir="$RESULTS_ROOT/$run_name"
+  rm -rf "$results_dir" "$OUTPUT_ROOT/$run_name"
+  mkdir -p "$results_dir"
+  rm -f /tmp/libtpu_lockfile
+  mkdir -p "$TMPDIR"
+
+  local ici_cp="$ici_a"
+  local ici_tp=1
+  echo "[$(date -u +%T)] ── Starting $run_name (attention=$attention dp=$ici_dp cp=$ici_cp pdb=$pdb) ──"
+
+  # Profiler only for bs=2 (pdb=0.25 with 8 devices)
+  local profiler_args="enable_profiler=False"
+  if [[ "$pdb" == "0.25" ]]; then
+    profiler_args="enable_profiler=True skip_first_n_steps_for_profiler=5 profiler_steps=10"
+  fi
+
+  local common_args="run_name=$run_name \
+    attention=$attention \
+    ici_data_parallelism=$ici_dp \
+    ici_fsdp_parallelism=1 \
+    ici_context_parallelism=$ici_cp \
+    ici_tensor_parallelism=$ici_tp \
+    dcn_data_parallelism=1 \
+    dcn_fsdp_parallelism=1 \
+    dcn_context_parallelism=1 \
+    dcn_tensor_parallelism=1 \
+    pretrained_orbax_dir=$PRETRAINED_ORBAX_DIR \
+    height=720 width=1280 num_frames=81 num_inference_steps=40 \
+    per_device_batch_size=$pdb \
+    output_dir=$OUTPUT_ROOT \
+    scan_layers=True \
+    write_metrics=False \
+    write_timing_metrics=False \
+    $profiler_args"
+
+  cd "$results_dir"
+  set +e
+  python -u "$REPO_DIR/src/maxdiffusion/generate_wan.py" \
+    "$CONFIG" \
+    $common_args \
+    2>&1 | tee "$results_dir/worker0.log"
+  local status=$?
+  set -e
+
+  echo "[$(date -u +%T)] $run_name done — status=$status"
+  echo "────────────────────────────────────────────────────────────────────────"
+}
+
+# ── run matrix (TPU v7-8: 1 host × 8 chips = 8 devices) ──────────────────────
+# Parallelism rule: dp × fsdp × cp × tp = 8
+#
+# All modes:      dp=2, cp=4  (2×4=8)
+#
+# Batch sizes: pdb × 8 devices = total_bs
+#   0.125 → bs1, 0.25 → bs2, 0.5 → bs4
+
+for pdb in 0.125 0.25 0.5; do
+  bs=$(python3 -c "print(int($pdb * 8))")
+
+  run_case "flash_dp2_cp4_bs${bs}"            flash           2  4  1  $pdb
+  run_case "tokamax_ring_dp2_cp4_bs${bs}"     tokamax_ring    2  4  1  $pdb
+  run_case "ulysses_dp2_cp4_bs${bs}"          ulysses         2  4  1  $pdb
+  run_case "ulysses_ring_dp2_cp4_bs${bs}"     ulysses_ring    2  4  1  $pdb
+done
+
+echo "[$(date -u +%T)] All benchmark runs complete."