AI-Hypercomputer
diff --git a/‎…Q4096-GBS256-NEMO25.11/recipe/Chart.yaml‎ ‎…4096-GBS2048-NEMO25.11/recipe/Chart.yaml‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/Chart.yaml renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/Chart.yaml b/‎…Q4096-GBS256-NEMO25.11/recipe/Chart.yaml‎ ‎…4096-GBS2048-NEMO25.11/recipe/Chart.yaml‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/Chart.yaml renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/Chart.yaml
diff --git a/‎…EQ4096-GBS256-NEMO25.11/recipe/README.md‎ ‎…Q4096-GBS2048-NEMO25.11/recipe/README.md‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/README.md renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/README.md
Lines changed: 8 additions & 8 deletions b/‎…EQ4096-GBS256-NEMO25.11/recipe/README.md‎ ‎…Q4096-GBS2048-NEMO25.11/recipe/README.md‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/README.md renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/README.md
Lines changed: 8 additions & 8 deletions
diff --git a/‎…O25.11/recipe/custom_setup_experiment.py‎ ‎…O25.11/recipe/custom_setup_experiment.py‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/custom_setup_experiment.py renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/custom_setup_experiment.py b/‎…O25.11/recipe/custom_setup_experiment.py‎ ‎…O25.11/recipe/custom_setup_experiment.py‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/custom_setup_experiment.py renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/custom_setup_experiment.py
diff --git a/‎…4096-GBS256-NEMO25.11/recipe/launcher.sh‎ ‎…096-GBS2048-NEMO25.11/recipe/launcher.sh‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/launcher.sh renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/launcher.sh b/‎…4096-GBS256-NEMO25.11/recipe/launcher.sh‎ ‎…096-GBS2048-NEMO25.11/recipe/launcher.sh‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/launcher.sh renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/launcher.sh
diff --git a/‎…EMO25.11/recipe/recipe_launch_command.sh‎ ‎…EMO25.11/recipe/recipe_launch_command.sh‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/recipe_launch_command.sh renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/recipe_launch_command.sh b/‎…EMO25.11/recipe/recipe_launch_command.sh‎ ‎…EMO25.11/recipe/recipe_launch_command.sh‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/recipe_launch_command.sh renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/recipe_launch_command.sh
diff --git a/‎…templates/workload-config-configmap.yaml‎ ‎…templates/workload-config-configmap.yaml‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/templates/workload-config-configmap.yaml renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/templates/workload-config-configmap.yaml b/‎…templates/workload-config-configmap.yaml‎ ‎…templates/workload-config-configmap.yaml‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/templates/workload-config-configmap.yaml renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/templates/workload-config-configmap.yaml
diff --git a/‎…25.11/recipe/templates/workload-job.yaml‎ ‎…25.11/recipe/templates/workload-job.yaml‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/templates/workload-job.yaml renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/templates/workload-job.yaml b/‎…25.11/recipe/templates/workload-job.yaml‎ ‎…25.11/recipe/templates/workload-job.yaml‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/templates/workload-job.yaml renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/templates/workload-job.yaml
diff --git a/‎…mplates/workload-launcher-configmap.yaml‎ ‎…mplates/workload-launcher-configmap.yaml‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/templates/workload-launcher-configmap.yaml renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/templates/workload-launcher-configmap.yaml b/‎…mplates/workload-launcher-configmap.yaml‎ ‎…mplates/workload-launcher-configmap.yaml‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/templates/workload-launcher-configmap.yaml renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/templates/workload-launcher-configmap.yaml
diff --git a/‎…25.11/recipe/templates/workload-svc.yaml‎ ‎…25.11/recipe/templates/workload-svc.yaml‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/templates/workload-svc.yaml renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/templates/workload-svc.yaml b/‎…25.11/recipe/templates/workload-svc.yaml‎ ‎…25.11/recipe/templates/workload-svc.yaml‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/templates/workload-svc.yaml renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/templates/workload-svc.yaml
diff --git a/‎…4096-GBS256-NEMO25.11/recipe/values.yaml‎ ‎…096-GBS2048-NEMO25.11/recipe/values.yaml‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/values.yaml renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/values.yaml b/‎…4096-GBS256-NEMO25.11/recipe/values.yaml‎ ‎…096-GBS2048-NEMO25.11/recipe/values.yaml‎training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe/values.yaml renamed to training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe/values.yaml
@@ -1,5 +1,5 @@
 <!-- mdformat global-off -->
-# Pretrain deepseek_v3-bf16-gbs256-gpus256 workloads on a4 GKE Node pools with Megatron-Bridge
+# Pretrain deepseek_v3-bf16-gbs2048-gpus256 workloads on a4 GKE Node pools with Megatron-Bridge
 
 This recipe outlines the steps for running a deepseek_v3 pretraining
 workload on [a4 GKE Node pools](https://cloud.google.com/kubernetes-engine) by using the
@@ -75,7 +75,7 @@ Clone the `gpu-recipes` repository and set a reference to the recipe folder.
 git clone https://github.com/ai-hypercomputer/gpu-recipes.git
 cd gpu-recipes
 export REPO_ROOT=`git rev-parse --show-toplevel`
-export RECIPE_ROOT=$REPO_ROOT/training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS256-NEMO25.11/recipe
+export RECIPE_ROOT=$REPO_ROOT/training/a4/deepseek_v3/megatron-bridge-pretraining-gke/32node-BF16-SEQ4096-GBS2048-NEMO25.11/recipe
 cd $RECIPE_ROOT
 ```
 
@@ -87,7 +87,7 @@ To execute the job with the default settings, run the following command from you
 
 ```bash
 cd $RECIPE_ROOT
-export WORKLOAD_NAME=$USER-deepseek-v3-32node-bf16-seq4096-gbs256
+export WORKLOAD_NAME=$USER-deepseek-v3-32node-bf16-seq4096-gbs2048
 helm install $WORKLOAD_NAME . -f values.yaml \
 --set-file workload_launcher=launcher.sh \
 --set-file workload_config=custom_setup_experiment.py \
@@ -105,7 +105,7 @@ helm install $WORKLOAD_NAME . -f values.yaml \
 
     ```bash
     cd $RECIPE_ROOT
-    export WORKLOAD_NAME=$USER-deepseek-v3-32node-bf16-seq4096-gbs256
+    export WORKLOAD_NAME=$USER-deepseek-v3-32node-bf16-seq4096-gbs2048
     helm install $WORKLOAD_NAME . -f values.yaml \
     --set-file workload_launcher=launcher.sh \
     --set-file workload_config=custom_setup_experiment.py \
@@ -122,12 +122,12 @@ helm install $WORKLOAD_NAME . -f values.yaml \
 To check the status of pods in your job, run the following command:
 
 ```
-kubectl get pods | grep $USER-deepseek-v3-32node-bf16-seq4096-gbs256
+kubectl get pods | grep $USER-deepseek-v3-32node-bf16-seq4096-gbs2048
 ```
 
 Replace the following:
 
-- JOB_NAME_PREFIX - your job name prefix. For example $USER-deepseek-v3-32node-bf16-seq4096-gbs256.
+- JOB_NAME_PREFIX - your job name prefix. For example $USER-deepseek-v3-32node-bf16-seq4096-gbs2048.
 
 To get the logs for one of the pods, run the following command:
 
@@ -139,13 +139,13 @@ Information about the training job's progress, including crucial details such as
 loss, step count, and step time, is generated by the rank 0 process.
 This process runs on the pod whose name begins with
 `JOB_NAME_PREFIX-workload-0-0`.
-For example: `$USER-deepseek-v3-32node-bf16-seq4096-gbs256-workload-0-0-s9zrv`.
+For example: `$USER-deepseek-v3-32node-bf16-seq4096-gbs2048-workload-0-0-s9zrv`.
 
 ### Uninstall the Helm release
 
 You can delete the job and other resources created by the Helm chart. To
 uninstall Helm, run the following command from your client:
 
 ```bash
-helm uninstall $USER-deepseek-v3-32node-bf16-seq4096-gbs256
+helm uninstall $USER-deepseek-v3-32node-bf16-seq4096-gbs2048
 ```