fix(cluster): add bounds check for workerGroupSpecs array access

laurafitzgerald · openshift-merge-bot[bot] · commit f8368da02ddb · 2026-03-30T11:12:55.000Z
Add defensive bounds checking before accessing workerGroupSpecs[0] in
three functions to prevent IndexError on head-only Ray clusters
(num_workers=0). When workerGroupSpecs is empty, worker-related values
default to 0.

Functions fixed:
- _head_worker_extended_resources_from_rc_dict()
- get_cluster()
- _map_to_ray_cluster()

Fixes: RHOAIENG-54729
Made-with: Cursor
diff --git a/src/codeflare_sdk/ray/cluster/cluster.py b/src/codeflare_sdk/ray/cluster/cluster.py
@@ -687,14 +687,17 @@ def job_logs(self, job_id: str) -> str:
     @staticmethod
     def _head_worker_extended_resources_from_rc_dict(rc: Dict) -> Tuple[dict, dict]:
         head_extended_resources, worker_extended_resources = {}, {}
-        for resource in rc["spec"]["workerGroupSpecs"][0]["template"]["spec"][
-            "containers"
-        ][0]["resources"]["limits"].keys():
-            if resource in ["memory", "cpu"]:
-                continue
-            worker_extended_resources[resource] = rc["spec"]["workerGroupSpecs"][0][
-                "template"
-            ]["spec"]["containers"][0]["resources"]["limits"][resource]
+
+        # Fix for RHOAIENG-54729: Check if workerGroupSpecs exists before accessing [0]
+        if len(rc["spec"].get("workerGroupSpecs", [])) > 0:
+            for resource in rc["spec"]["workerGroupSpecs"][0]["template"]["spec"][
+                "containers"
+            ][0]["resources"]["limits"].keys():
+                if resource in ["memory", "cpu"]:
+                    continue
+                worker_extended_resources[resource] = rc["spec"]["workerGroupSpecs"][0][
+                    "template"
+                ]["spec"]["containers"][0]["resources"]["limits"][resource]
 
         for resource in rc["spec"]["headGroupSpec"]["template"]["spec"]["containers"][
             0
@@ -823,6 +826,30 @@ def get_cluster(
         head_extended_resources,
         worker_extended_resources,
     ) = Cluster._head_worker_extended_resources_from_rc_dict(resource)
+
+    # Fix for RHOAIENG-54729: Handle head-only clusters (no workers)
+    if len(resource["spec"].get("workerGroupSpecs", [])) > 0:
+        num_workers = resource["spec"]["workerGroupSpecs"][0]["minReplicas"]
+        worker_cpu_limits = resource["spec"]["workerGroupSpecs"][0]["template"]["spec"][
+            "containers"
+        ][0]["resources"]["limits"]["cpu"]
+        worker_cpu_requests = resource["spec"]["workerGroupSpecs"][0]["template"][
+            "spec"
+        ]["containers"][0]["resources"]["requests"]["cpu"]
+        worker_memory_limits = resource["spec"]["workerGroupSpecs"][0]["template"][
+            "spec"
+        ]["containers"][0]["resources"]["limits"]["memory"]
+        worker_memory_requests = resource["spec"]["workerGroupSpecs"][0]["template"][
+            "spec"
+        ]["containers"][0]["resources"]["requests"]["memory"]
+    else:
+        # Head-only cluster - use defaults for worker specs
+        num_workers = 0
+        worker_cpu_limits = 0
+        worker_cpu_requests = 0
+        worker_memory_limits = 0
+        worker_memory_requests = 0
+
     # Create a Cluster Configuration with just the necessary provided parameters
     cluster_config = ClusterConfiguration(
         name=cluster_name,
@@ -841,19 +868,11 @@ def get_cluster(
         head_memory_requests=resource["spec"]["headGroupSpec"]["template"]["spec"][
             "containers"
         ][0]["resources"]["requests"]["memory"],
-        num_workers=resource["spec"]["workerGroupSpecs"][0]["minReplicas"],
-        worker_cpu_limits=resource["spec"]["workerGroupSpecs"][0]["template"]["spec"][
-            "containers"
-        ][0]["resources"]["limits"]["cpu"],
-        worker_cpu_requests=resource["spec"]["workerGroupSpecs"][0]["template"]["spec"][
-            "containers"
-        ][0]["resources"]["requests"]["cpu"],
-        worker_memory_limits=resource["spec"]["workerGroupSpecs"][0]["template"][
-            "spec"
-        ]["containers"][0]["resources"]["limits"]["memory"],
-        worker_memory_requests=resource["spec"]["workerGroupSpecs"][0]["template"][
-            "spec"
-        ]["containers"][0]["resources"]["requests"]["memory"],
+        num_workers=num_workers,
+        worker_cpu_limits=worker_cpu_limits,
+        worker_cpu_requests=worker_cpu_requests,
+        worker_memory_limits=worker_memory_limits,
+        worker_memory_requests=worker_memory_requests,
         head_extended_resource_requests=head_extended_resources,
         worker_extended_resource_requests=worker_extended_resources,
     )
@@ -1086,23 +1105,38 @@ def _map_to_ray_cluster(rc) -> Optional[RayCluster]:
         worker_extended_resources,
     ) = Cluster._head_worker_extended_resources_from_rc_dict(rc)
 
-    return RayCluster(
-        name=rc["metadata"]["name"],
-        status=status,
-        # for now we are not using autoscaling so same replicas is fine
-        num_workers=rc["spec"]["workerGroupSpecs"][0]["replicas"],
-        worker_mem_limits=rc["spec"]["workerGroupSpecs"][0]["template"]["spec"][
+    # Fix for RHOAIENG-54729: Handle head-only clusters (no workers)
+    if len(rc["spec"].get("workerGroupSpecs", [])) > 0:
+        num_workers = rc["spec"]["workerGroupSpecs"][0]["replicas"]
+        worker_mem_limits = rc["spec"]["workerGroupSpecs"][0]["template"]["spec"][
             "containers"
-        ][0]["resources"]["limits"]["memory"],
-        worker_mem_requests=rc["spec"]["workerGroupSpecs"][0]["template"]["spec"][
+        ][0]["resources"]["limits"]["memory"]
+        worker_mem_requests = rc["spec"]["workerGroupSpecs"][0]["template"]["spec"][
             "containers"
-        ][0]["resources"]["requests"]["memory"],
-        worker_cpu_requests=rc["spec"]["workerGroupSpecs"][0]["template"]["spec"][
+        ][0]["resources"]["requests"]["memory"]
+        worker_cpu_requests = rc["spec"]["workerGroupSpecs"][0]["template"]["spec"][
             "containers"
-        ][0]["resources"]["requests"]["cpu"],
-        worker_cpu_limits=rc["spec"]["workerGroupSpecs"][0]["template"]["spec"][
+        ][0]["resources"]["requests"]["cpu"]
+        worker_cpu_limits = rc["spec"]["workerGroupSpecs"][0]["template"]["spec"][
             "containers"
-        ][0]["resources"]["limits"]["cpu"],
+        ][0]["resources"]["limits"]["cpu"]
+    else:
+        # Head-only cluster - use defaults for worker specs
+        num_workers = 0
+        worker_mem_limits = 0
+        worker_mem_requests = 0
+        worker_cpu_requests = 0
+        worker_cpu_limits = 0
+
+    return RayCluster(
+        name=rc["metadata"]["name"],
+        status=status,
+        # for now we are not using autoscaling so same replicas is fine
+        num_workers=num_workers,
+        worker_mem_limits=worker_mem_limits,
+        worker_mem_requests=worker_mem_requests,
+        worker_cpu_requests=worker_cpu_requests,
+        worker_cpu_limits=worker_cpu_limits,
         worker_extended_resources=worker_extended_resources,
         namespace=rc["metadata"]["namespace"],
         head_cpu_requests=rc["spec"]["headGroupSpec"]["template"]["spec"]["containers"][
diff --git a/src/codeflare_sdk/ray/cluster/test_cluster.py b/src/codeflare_sdk/ray/cluster/test_cluster.py
@@ -2115,6 +2115,92 @@ def test_job_logs(mocker):
     mock_job_client.get_job_logs.assert_called_once_with("job-123")
 
 
+def test_head_only_cluster_no_workers(mocker):
+    """
+    Test for RHOAIENG-54729: Functions should handle head-only clusters (num_workers=0)
+    without crashing on IndexError when accessing workerGroupSpecs[0]
+    """
+    from codeflare_sdk.ray.cluster.cluster import (
+        Cluster,
+        _map_to_ray_cluster,
+        get_cluster,
+    )
+
+    mocker.patch("kubernetes.client.ApisApi.get_api_versions")
+    mocker.patch("kubernetes.config.load_kube_config", return_value="ignore")
+    mocker.patch(
+        "codeflare_sdk.ray.cluster.cluster._is_openshift_cluster", return_value=False
+    )
+
+    mock_api_client = mocker.MagicMock(spec=client.ApiClient)
+    mocker.patch(
+        "codeflare_sdk.common.kubernetes_cluster.auth.get_api_client",
+        return_value=mock_api_client,
+    )
+
+    # Create a head-only cluster dict (workerGroupSpecs is empty list)
+    head_only_rc = {
+        "apiVersion": "ray.io/v1",
+        "kind": "RayCluster",
+        "metadata": {
+            "name": "head-only-cluster",
+            "namespace": "ns",
+        },
+        "spec": {
+            "headGroupSpec": {
+                "template": {
+                    "spec": {
+                        "containers": [
+                            {
+                                "name": "ray-head",
+                                "resources": {
+                                    "limits": {"cpu": "2", "memory": "8G"},
+                                    "requests": {"cpu": "2", "memory": "8G"},
+                                },
+                            }
+                        ]
+                    }
+                }
+            },
+            "workerGroupSpecs": [],  # Empty - head-only cluster
+        },
+        "status": {"state": "ready"},
+    }
+
+    # Test 1: _head_worker_extended_resources_from_rc_dict should not crash
+    head_ext, worker_ext = Cluster._head_worker_extended_resources_from_rc_dict(
+        head_only_rc
+    )
+    assert isinstance(head_ext, dict)
+    assert isinstance(worker_ext, dict)
+    assert worker_ext == {}  # Should be empty for head-only cluster
+
+    # Test 2: _map_to_ray_cluster should not crash
+    mocker.patch(
+        "kubernetes.client.NetworkingV1Api.list_namespaced_ingress",
+        return_value=mocker.Mock(items=[]),
+    )
+    result = _map_to_ray_cluster(head_only_rc)
+    assert result is not None
+    assert result.num_workers == 0
+    assert result.worker_cpu_limits == 0
+    assert result.worker_cpu_requests == 0
+    assert result.worker_mem_limits == 0
+    assert result.worker_mem_requests == 0
+
+    # Test 3: get_cluster should not crash
+    mocker.patch(
+        "kubernetes.client.CustomObjectsApi.get_namespaced_custom_object",
+        return_value=head_only_rc,
+    )
+    cluster = get_cluster("head-only-cluster", "ns")
+    assert cluster.config.num_workers == 0
+    assert cluster.config.worker_cpu_limits == 0
+    assert cluster.config.worker_cpu_requests == 0
+    assert cluster.config.worker_memory_limits == "0G"
+    assert cluster.config.worker_memory_requests == "0G"
+
+
 # Make sure to always keep this function last
 def test_cleanup():
     # Clean up test files if they exist