Add Model Config to allow default env variables per model architecture (#178)

Ssukriti · web-flow · commit b0cf12677e62 · 2026-01-29T10:38:55.000-05:00
* configure model defined parameters

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* model config class

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* set class config - no env variables

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* print statement

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* refactor utilities

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* fix conditions

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* ruff formats fix

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* formatting dpp config

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* fix formatting

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* review updates

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* linting fixes

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* leave num_blocks default as None

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* fix default value to Num blocks

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* fix dist world size param

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* guard against distributed flags

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* pass default value to test

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

* fix linting

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;

---------

Signed-off-by: Sukriti-Sharma4 &lt;sukriti.sharma4@ibm.com&gt;
diff --git a/aiu_fms_testing_utils/scripts/drive_paged_programs.py b/aiu_fms_testing_utils/scripts/drive_paged_programs.py
@@ -39,8 +39,9 @@
 from aiu_fms_testing_utils.utils.paged import (
     ProgramCriteria,
     get_programs_prompts,
-    KVCACHE_NUM_BLOCKS_HINT,
 )
+from aiu_fms_testing_utils.utils.dpp_config import DPPRunnerConfig
+from aiu_fms_testing_utils.utils.env_utils import scoped_environ
 from aiu_fms_testing_utils.testing.utils import format_kwargs_to_string
 
 parser = argparse.ArgumentParser(
@@ -378,7 +379,15 @@ def __load_validation_info(
 
 model.eval()
 fx_config.backed_size_oblivious = True
-model.compile(backend="sendnn", options={"sendnn.dynamic": True})
+
+model_config = DPPRunnerConfig()
+world_size = dist.get_world_size() if USE_DISTRIBUTED and dist.is_initialized() else 1
+model_config.setup_config(
+    model_variant, USE_DISTRIBUTED, world_size, args.prefill_chunk_size
+)
+with scoped_environ(model_config.env_updates()):
+    # Temporarily set environment variables needed for compile
+    model.compile(backend="sendnn", options={"sendnn.dynamic": True})
 
 __maybe_prepare_fp8_weights(model, is_fp8)
 
@@ -402,15 +411,10 @@ def __load_validation_info(
 if is_fp8:
     prompt_list = prompt_list * 2
 input_ids, extra_kwargs = pad_input_ids(prompt_list, min_pad_length=64)
-extra_kwargs["mask"] = extra_kwargs["mask"].to(torch.float16)
 
+extra_kwargs["mask"] = extra_kwargs["mask"].to(torch.float16)
 extra_kwargs["attn_name"] = ATTN_NAME
-if (
-    "granite-3.3-8b-instruct" in model_variant
-    and USE_DISTRIBUTED
-    and dist.get_world_size() == 4
-):
-    extra_kwargs["_kvcache_num_blocks_hint"] = KVCACHE_NUM_BLOCKS_HINT
+extra_kwargs["_kvcache_num_blocks_hint"] = model_config.num_blocks
 warmup_model(
     model,
     input_ids,
@@ -513,6 +517,7 @@ def parse_program_limit(limit_str: str) -> tuple[int, str]:
     max_batch_size=max_batch_size,
     max_tkv=max_tkv,
     program_cycles=max_new_tokens,
+    tkv_limit=model_config.tkv_limit,
     prioritize_large_batch_sizes=args.prioritize_large_batch_sizes,
 )
 for v in program_map.values():
@@ -649,12 +654,7 @@ def __metric_calculator(r: torch.Tensor, t: torch.Tensor):
     sample_key,
 ) in get_program_prompt_list():
     extra_kwargs["attn_name"] = ATTN_NAME
-    if (
-        "granite-3.3-8b-instruct" in model_variant
-        and USE_DISTRIBUTED
-        and dist.get_world_size() == 4
-    ):
-        extra_kwargs["_kvcache_num_blocks_hint"] = KVCACHE_NUM_BLOCKS_HINT
+    extra_kwargs["_kvcache_num_blocks_hint"] = model_config.num_blocks
 
     if local_rank == 0:
         dprint(f"*** testing program {program_id} ***")
diff --git a/aiu_fms_testing_utils/utils/dpp_config.py b/aiu_fms_testing_utils/utils/dpp_config.py
@@ -0,0 +1,95 @@
+import os
+from dataclasses import dataclass
+
+from aiu_fms_testing_utils.utils.aiu_setup import dprint
+
+
+@dataclass
+class DPPRunnerConfig:
+    """Class to configure parameters that may vary with model architecture"""
+
+    # populated during setup
+    num_blocks: int | None = None
+    tkv_limit: int | None = None
+
+    def _get_int_env(self, key: str, default: int, context: str) -> int:
+        """
+        Read an integer environment variable or use a default.
+        Always emits a debug message explaining the choice.
+        """
+        value = os.environ.get(key)
+        if value is None:
+            dprint(f"{context}. Using default {key}={default}")
+            return default
+
+        try:
+            parsed = int(value)
+        except ValueError as e:
+            raise ValueError(
+                f"{context}. Invalid value for environment variable {key}: "
+                f"expected an integer, got '{value}'"
+            ) from e
+
+        dprint(f"{context}. Using {key} from environment: {parsed}")
+        return parsed
+
+    def _configure_granite_3_8b(self, use_distributed, world_size, prefill_chunk_size):
+        """Configure environment for granite 3 8b architecture \
+        We are setting defaults for env variables not provided. \
+        Config class is set in wrapper setup_config function."""
+
+        if use_distributed and world_size == 4:
+            ##Only set defaults for TP=4
+            context = (
+                "Model granite-3.3-8b (or compatible) "
+                "with tensor parallel size 4 detected"
+            )
+            self.tkv_limit = self._get_int_env(
+                key="VLLM_DT_MAX_BATCH_TKV_LIMIT",
+                default=524288,
+                context=context,
+            )
+
+            # these values are to be consistent with vllm for granite 3.3 8b instruct
+            blocks_override = 8192 if prefill_chunk_size > 0 else 2080
+
+            self.num_blocks = self._get_int_env(
+                key="AFTU_PAGED_KVCACHE_NUM_BLOCKS_HINT",
+                default=blocks_override,
+                context=context,
+            )
+
+    def setup_config(
+        self, model_variant, use_distributed, world_size, prefill_chunk_size
+    ):
+        """Set up environment variables and default values if not specified"""
+
+        ## configure per model architecture
+        if (
+            "granite-3.3-8b-instruct" in model_variant
+            or "granite-4.0-8b" in model_variant
+        ):
+            self._configure_granite_3_8b(
+                use_distributed, world_size, prefill_chunk_size
+            )
+
+        ## global defaults (fallback)
+        ## TODO: IN future we may remove defaults for unknown configurations \
+        ## and require users to set the environment variables
+        ## num_blocks is set in generate if not set here
+        if self.tkv_limit is None:
+            self.tkv_limit = self._get_int_env(
+                key="VLLM_DT_MAX_BATCH_TKV_LIMIT",
+                default=524288,
+                context="Unknown model configuration",
+            )
+
+    def env_updates(self) -> dict[str, str]:
+        """Returns a key/value of environment variables needed for model compile"""
+        if self.tkv_limit is None:
+            raise RuntimeError(
+                "ModelConfig.env_updates() called before setup_config(). "
+                "Call setup_config(...) first."
+            )
+
+        return {"VLLM_DT_MAX_BATCH_TKV_LIMIT": str(self.tkv_limit)}
diff --git a/aiu_fms_testing_utils/utils/env_utils.py b/aiu_fms_testing_utils/utils/env_utils.py
@@ -0,0 +1,33 @@
+import os
+from contextlib import contextmanager
+from typing import Optional
+
+
+@contextmanager
+def scoped_environ(updates: dict[str, Optional[str]]):
+    """
+    Temporarily set environment variables.
+    Restores original values on exit.
+
+    updates:
+      key -> value
+      value=None means unset the variable
+    """
+    old_env = {}
+
+    try:
+        # Save old values and apply updates
+        for key, value in updates.items():
+            old_env[key] = os.environ.get(key)
+            if value is None:
+                os.environ.pop(key, None)
+            else:
+                os.environ[key] = str(value)
+        yield
+    finally:
+        # Restore original environment
+        for key, old_value in old_env.items():
+            if old_value is None:
+                os.environ.pop(key, None)
+            else:
+                os.environ[key] = old_value
diff --git a/aiu_fms_testing_utils/utils/paged.py b/aiu_fms_testing_utils/utils/paged.py
@@ -130,9 +130,9 @@ def generate(
     _MAX_BATCH = int(os.environ["VLLM_DT_MAX_BATCH_SIZE"])
     _MAX_CONTEXT_LENGTH = int(os.environ["VLLM_DT_MAX_CONTEXT_LEN"])
     # if the user provides a hint to the number of blocks to use, use it directly
-    NUM_BLOCKS = kwargs.get(
-        "_kvcache_num_blocks_hint", (_MAX_BATCH * _MAX_CONTEXT_LENGTH) // BLOCK_SIZE
-    )
+    NUM_BLOCKS = kwargs.get("_kvcache_num_blocks_hint")
+    if NUM_BLOCKS is None:
+        NUM_BLOCKS = (_MAX_BATCH * _MAX_CONTEXT_LENGTH) // BLOCK_SIZE
 
     if hasattr(model, "head"):
         model_dtype = model.head.weight.dtype
@@ -634,14 +634,6 @@ def generate(
     return result
 
 
-# this value is default to 8192 to be consistent with vllm for granite 3.3 8b instruct w/ chunked prefill
-KVCACHE_NUM_BLOCKS_HINT = int(
-    os.environ.get("AFTU_PAGED_KVCACHE_NUM_BLOCKS_HINT", 8192)
-)
-
-VLLM_DT_MAX_BATCH_TKV_LIMIT = int(os.environ.get("VLLM_DT_MAX_BATCH_TKV_LIMIT", 524288))
-
-
 class ProgramCriteria:
     def __init__(
         self, program_id, max_batch, max_tkv, batch_granularity, tkv_granularity
@@ -652,9 +644,9 @@ def __init__(
         self.batch_granularity = batch_granularity
         self.tkv_granularity = tkv_granularity
 
-    def is_possible(self, batch_size, tkv):
+    def is_possible(self, batch_size, tkv, tkv_limit):
         return (
-            (batch_size * tkv <= VLLM_DT_MAX_BATCH_TKV_LIMIT)
+            (batch_size * tkv <= tkv_limit)
             and (batch_size <= self.max_batch)
             and (tkv <= self.max_tkv)
         )
@@ -690,6 +682,7 @@ def get_programs_prompts(
     max_batch_size,
     max_tkv,
     program_cycles,
+    tkv_limit,
     prioritize_large_batch_sizes=True,
 ):
     program_map = {}
@@ -702,7 +695,9 @@ def get_programs_prompts(
                 for program_index in range(possible_program_switches):
                     context_length = prompt_len + (multiple * program_index) + 1
 
-                    if program_criteria.is_possible(batch_size, context_length):
+                    if program_criteria.is_possible(
+                        batch_size, context_length, tkv_limit
+                    ):
                         padding = program_criteria.calculate_padding(
                             batch_size, context_length
                         )
diff --git a/tests/models/test_scripts.py b/tests/models/test_scripts.py
@@ -328,12 +328,15 @@ def test_dpp_script(
         program_assertions = [i for i in range(len(program_criteria_list))]
         shape_assertions = [">=0", ">=0"]
     else:
+        # sets default of tkv_limit
+        tkv_limit = int(os.environ.get("VLLM_DT_MAX_BATCH_TKV_LIMIT", 524288))
         program_map = get_programs_prompts(
             program_criteria_list,
             multiple=64,
             max_batch_size=2,
             max_tkv=512,
             program_cycles=max_new_tokens,
+            tkv_limit=tkv_limit,
         )
         programs_split = programs.split(":")
         program_ids_str = programs_split[0]