Merge branch 'main' into compile-cache

dushyantbehl · web-flow · commit e84f20911391 · 2025-04-08T12:34:36.000+05:30
diff --git a/scripts/offline_data_processing.py b/scripts/offline_data_processing.py
@@ -5,20 +5,15 @@
 import traceback
 
 # Third Party
-from transformers import (
-    AutoTokenizer,
-    GPT2Tokenizer,
-    GPTNeoXTokenizerFast,
-    LlamaTokenizer,
-    LlamaTokenizerFast,
-)
+from transformers import AutoTokenizer
 
 # Local
 from tuning.config import configs
 from tuning.data.setup_dataprocessor import process_dataargs
 from tuning.sft_trainer import get_parser
 from tuning.utils.error_logging import USER_ERROR_EXIT_CODE, write_termination_log
 from tuning.utils.logging import set_log_level
+from tuning.utils.tokenizer_data_utils import get_special_tokens_dict
 
 
 def save_dataset_shards(
@@ -92,36 +87,9 @@ def get_processed_dataset(
         tokenizer.chat_template = data_args.chat_template
 
     # Prepare special tokens dictionary
-    special_tokens_dict = {}
-    if not model_args.tokenizer_name_or_path:
-        if isinstance(tokenizer, (LlamaTokenizer, LlamaTokenizerFast)):
-            special_tokens_dict["bos_token"] = "<s>"
-            special_tokens_dict["eos_token"] = "</s>"
-            special_tokens_dict["unk_token"] = "<unk>"
-            special_tokens_dict["pad_token"] = "<pad>"
-        elif isinstance(tokenizer, (GPT2Tokenizer, GPTNeoXTokenizerFast)):
-            special_tokens_dict["pad_token"] = "<pad>"
-
-        if tokenizer.pad_token is None:
-            logger.warning(
-                "PAD token not found in tokenizer; setting PAD token to default."
-            )
-            special_tokens_dict["pad_token"] = configs.DEFAULT_PAD_TOKEN
-        if tokenizer.eos_token is None:
-            logger.warning(
-                "EOS token not found in tokenizer; setting EOS token to default."
-            )
-            special_tokens_dict["eos_token"] = configs.DEFAULT_EOS_TOKEN
-        if tokenizer.pad_token == tokenizer.eos_token:
-            logger.warning(
-                "PAD token and EOS token are the same. Overriding accordingly."
-            )
-            if tokenizer.eos_token != configs.DEFAULT_PAD_TOKEN:
-                tokenizer.pad_token = configs.DEFAULT_PAD_TOKEN
-                special_tokens_dict["pad_token"] = configs.DEFAULT_PAD_TOKEN
-            else:
-                tokenizer.eos_token = configs.DEFAULT_EOS_TOKEN
-                special_tokens_dict["eos_token"] = configs.DEFAULT_EOS_TOKEN
+    special_tokens_dict = get_special_tokens_dict(
+        tokenizer_name_or_path=model_args.tokenizer_name_or_path, tokenizer=tokenizer
+    )
 
     # adds user specified special tokens to vocab
     if data_args.add_special_tokens:
diff --git a/tests/utils/test_tokenizer_data_utils.py b/tests/utils/test_tokenizer_data_utils.py
@@ -1,20 +1,164 @@
-# Third party
 # Third Party
 from transformers import AutoModelForCausalLM, AutoTokenizer
 
 # First Party
 from tests.artifacts.testdata import MODEL_NAME
 
 # Local
-# First party
-from tuning.utils.tokenizer_data_utils import tokenizer_and_embedding_resize
+from tuning.config import configs
+from tuning.utils.tokenizer_data_utils import (
+    get_special_tokens_dict,
+    tokenizer_and_embedding_resize,
+)
 
 
-def test_tokenizer_and_embedding_resize_return_values():
-    """Test to ensure number of added tokens are returned correctly"""
+def test_setting_special_tokens_with_LlamaTokenizerFast():
+    """
+    Unit test using a LlamaTokenizerFast tokenizer. This tokenizer is only missing a PAD token,
+    however because it is a LlamaTokenizer, the function code automatically adds the BOS, EOS,
+    UNK and PAD tokens to the special tokens dict. Then, the <pad> token is replaced with
+    a <PAD> token, because the Llama tokenizer does not have a pad token specified.
+    """
+    tokenizer = AutoTokenizer.from_pretrained("Maykeye/TinyLLama-v0", legacy=True)
+    model_args = configs.ModelArguments()
+    special_tokens_dict = get_special_tokens_dict(
+        tokenizer_name_or_path=model_args.tokenizer_name_or_path, tokenizer=tokenizer
+    )
+    assert special_tokens_dict == {
+        "bos_token": "<s>",
+        "eos_token": "</s>",
+        "unk_token": "<unk>",
+        "pad_token": "<PAD>",
+    }
+
+
+def test_setting_special_tokens_with_GPT2TokenizerFast():
+    """
+    Unit test using a GPT2TokenizerFast tokenizer. This tokenizer is the case where the
+    EOS token = PAD token, both of them are <|endoftext|>. So, the pad token in the tokenizer is set
+    to <PAD> and the "pad_token": "<PAD>" is also added to the special tokens dict.
+    """
+    tokenizer = AutoTokenizer.from_pretrained("ibm-granite/granite-3.1-8b-base")
+    model_args = configs.ModelArguments()
+    special_tokens_dict = get_special_tokens_dict(
+        tokenizer_name_or_path=model_args.tokenizer_name_or_path, tokenizer=tokenizer
+    )
+    assert special_tokens_dict == {
+        "pad_token": "<PAD>",
+    }
+
+
+def test_setting_special_tokens_with_GPTNeoXTokenizerFast():
+    """
+    Unit test using a GPTNeoXTokenizerFast tokenizer. This tokenizer is another one that is
+    hardcoded into the function to automatically add just a pad token to the special tokens dict.
+    However, the tokenizer itself is also missing a pad token, so the function then replaces
+    the <pad> token with the default <PAD> token.
+    """
+    tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-20b")
+    model_args = configs.ModelArguments()
+    special_tokens_dict = get_special_tokens_dict(
+        tokenizer_name_or_path=model_args.tokenizer_name_or_path, tokenizer=tokenizer
+    )
+    assert special_tokens_dict == {
+        "pad_token": "<PAD>",
+    }
+
+
+def test_setting_special_tokens_when_missing_all_special_tokens():
+    """
+    Unit test using the GPT2TokenizerFast tokenizer. All the special tokens have been
+    removed from the tokenizer, so we expect all of them to appear in the special tokens dict.
+    """
+    tokenizer = AutoTokenizer.from_pretrained("ibm-granite/granite-3.1-8b-base")
+
+    # Set all special tokens to None
+    tokenizer.bos_token = None
+    tokenizer.eos_token = None
+    tokenizer.unk_token = None
+    tokenizer.pad_token = None
+
+    model_args = configs.ModelArguments()
+    special_tokens_dict = get_special_tokens_dict(
+        tokenizer_name_or_path=model_args.tokenizer_name_or_path, tokenizer=tokenizer
+    )
+    assert special_tokens_dict == {
+        "pad_token": "<PAD>",
+        "eos_token": "</s>",
+        "bos_token": "<s>",
+        "unk_token": "<unk>",
+    }
+
+
+def test_setting_special_tokens_when_path_is_not_none():
+    """
+    A simple unit test that sets the `tokenizer_name_or_path` argument in
+    `model_args` to a non None value. Since the argument is not None, almost
+    the entire `get_special_tokens_dict` function is skipped and the
+    special tokens dict is expected to be empty.
+    """
+    tokenizer = AutoTokenizer.from_pretrained("Maykeye/TinyLLama-v0", legacy=True)
+    model_args = configs.ModelArguments(tokenizer_name_or_path="test_path")
+    special_tokens_dict = get_special_tokens_dict(
+        tokenizer_name_or_path=model_args.tokenizer_name_or_path, tokenizer=tokenizer
+    )
+    # Assert special_tokens_dict is empty
+    assert not special_tokens_dict
+
+
+def test_tokenizer_and_embedding_resize_return_values_missing_one_token():
+    """
+    Tests the resizing function when the special tokens dict contains a PAD token,
+    which means the tokenizer is missing one special token.
+
+    `mulitple_of` is set to 1.
+    """
     special_tokens_dict = {"pad_token": "<pad>"}
     tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
     model = AutoModelForCausalLM.from_pretrained(MODEL_NAME)
     metadata = tokenizer_and_embedding_resize(special_tokens_dict, tokenizer, model)
     assert metadata["num_new_tokens"] == 1
-    assert "new_embedding_size" in metadata
+    assert metadata["new_embedding_size"] == len(tokenizer)
+
+
+def test_tokenizer_and_embedding_resize_return_values_missing_four_tokens():
+    """
+    Tests the resizing when the special tokens dict contains a PAD, EOS, BOS and UNK token,
+    which means the tokenizer is missing four special tokens.
+
+    `mulitple_of` is set to 1.
+    """
+    special_tokens_dict = {
+        "pad_token": "<PAD>",
+        "eos_token": "</s>",
+        "bos_token": "<s>",
+        "unk_token": "<unk>",
+    }
+    tokenizer = AutoTokenizer.from_pretrained("Maykeye/TinyLLama-v0", legacy=True)
+    model = AutoModelForCausalLM.from_pretrained("Maykeye/TinyLLama-v0")
+    metadata = tokenizer_and_embedding_resize(special_tokens_dict, tokenizer, model)
+    assert metadata["num_new_tokens"] == 4
+    assert metadata["new_embedding_size"] == len(tokenizer)
+
+
+def test_tokenizer_and_embedding_resize_return_values_mutliple_of_two():
+    """
+    Tests the resizing when the special tokens dict contains a PAD, EOS, BOS and UNK token,
+    which means the tokenizer is missing four special tokens.
+
+    `mulitple_of` is set to 2; this add one to the count of num_new_tokens and adds
+    one to the count of new_embedding_size.
+    """
+    special_tokens_dict = {
+        "pad_token": "<PAD>",
+        "eos_token": "</s>",
+        "bos_token": "<s>",
+        "unk_token": "<unk>",
+    }
+    tokenizer = AutoTokenizer.from_pretrained("Maykeye/TinyLLama-v0", legacy=True)
+    model = AutoModelForCausalLM.from_pretrained("Maykeye/TinyLLama-v0")
+    metadata = tokenizer_and_embedding_resize(
+        special_tokens_dict, tokenizer, model, multiple_of=2
+    )
+    assert metadata["num_new_tokens"] == 5
+    assert metadata["new_embedding_size"] == len(tokenizer) + 1
diff --git a/tuning/config/configs.py b/tuning/config/configs.py
@@ -131,6 +131,17 @@ class DataArguments:
         },
     )
 
+    def __post_init__(self):
+        def unescape(s):
+            if s is not None and isinstance(s, str):
+                return s.encode("utf-8").decode("unicode_escape")
+            return s
+
+        self.chat_template = unescape(self.chat_template)
+        self.data_formatter_template = unescape(self.data_formatter_template)
+        self.response_template = unescape(self.response_template)
+        self.instruction_template = unescape(self.instruction_template)
+
 
 @dataclass
 class TrainingArguments(transformers.TrainingArguments):
diff --git a/tuning/sft_trainer.py b/tuning/sft_trainer.py
@@ -26,15 +26,7 @@
 from huggingface_hub.utils._validators import HFValidationError
 from peft.utils.other import fsdp_auto_wrap_policy
 from torch.cuda import OutOfMemoryError
-from transformers import (
-    AutoModelForCausalLM,
-    AutoTokenizer,
-    GPT2Tokenizer,
-    GPTNeoXTokenizerFast,
-    LlamaTokenizer,
-    LlamaTokenizerFast,
-    TrainerCallback,
-)
+from transformers import AutoModelForCausalLM, AutoTokenizer, TrainerCallback
 from transformers.trainer_utils import get_last_checkpoint
 from transformers.utils import is_accelerate_available
 from trl import SFTConfig, SFTTrainer
@@ -69,7 +61,10 @@
     write_termination_log,
 )
 from tuning.utils.logging import set_log_level
-from tuning.utils.tokenizer_data_utils import tokenizer_and_embedding_resize
+from tuning.utils.tokenizer_data_utils import (
+    get_special_tokens_dict,
+    tokenizer_and_embedding_resize,
+)
 
 
 def train(
@@ -268,42 +263,9 @@ def train(
         tokenizer.chat_template = data_args.chat_template
 
     # Add special tokens only when a custom tokenizer is not passed
-    special_tokens_dict = {}
-    if not model_args.tokenizer_name_or_path:
-        # TODO: understand if we need to hardcode these here or just use defaults in model
-        if isinstance(tokenizer, (LlamaTokenizer, LlamaTokenizerFast)):
-            special_tokens_dict["bos_token"] = "<s>"
-            special_tokens_dict["eos_token"] = "</s>"
-            special_tokens_dict["unk_token"] = "<unk>"
-            special_tokens_dict["pad_token"] = "<pad>"
-        elif isinstance(tokenizer, (GPT2Tokenizer, GPTNeoXTokenizerFast)):
-            special_tokens_dict["pad_token"] = "<pad>"
-
-    # add special tokens only when a custom tokenizer is not passed
-    if not model_args.tokenizer_name_or_path:
-        # TODO: we need to change this, perhaps follow what open instruct does?
-        if tokenizer.pad_token is None:
-            logger.warning("PAD token set to default, missing in tokenizer")
-            special_tokens_dict["pad_token"] = configs.DEFAULT_PAD_TOKEN
-        if tokenizer.eos_token is None:
-            logger.warning("EOS token set to default, missing in tokenizer")
-            special_tokens_dict["eos_token"] = configs.DEFAULT_EOS_TOKEN
-        if tokenizer.bos_token is None:
-            logger.warning("BOS token set to default, missing in tokenizer")
-            special_tokens_dict["bos_token"] = configs.DEFAULT_BOS_TOKEN
-        if tokenizer.unk_token is None:
-            logger.warning("UNK token set to default, missing in tokenizer")
-            special_tokens_dict["unk_token"] = configs.DEFAULT_UNK_TOKEN
-        if tokenizer.pad_token == tokenizer.eos_token:
-            logger.warning(
-                "PAD token set to default, to make it different from eos token"
-            )
-            if tokenizer.eos_token != configs.DEFAULT_PAD_TOKEN:
-                tokenizer.pad_token = configs.DEFAULT_PAD_TOKEN
-                special_tokens_dict["pad_token"] = configs.DEFAULT_PAD_TOKEN
-            else:
-                tokenizer.eos_token = configs.DEFAULT_EOS_TOKEN
-                special_tokens_dict["eos_token"] = configs.DEFAULT_EOS_TOKEN
+    special_tokens_dict = get_special_tokens_dict(
+        tokenizer_name_or_path=model_args.tokenizer_name_or_path, tokenizer=tokenizer
+    )
 
     # adds user specified special tokens to vocab
     if data_args.add_special_tokens:
diff --git a/tuning/utils/tokenizer_data_utils.py b/tuning/utils/tokenizer_data_utils.py