Data Validation part completed

GoJo-Rika · GoJo-Rika · commit 8ee2da0773a9 · 2025-06-19T22:39:14.000+01:00
diff --git a/data_schema/schema.yaml b/data_schema/schema.yaml
@@ -0,0 +1,66 @@
+columns:
+  - having_IP_Address: int64
+  - URL_Length: int64
+  - Shortining_Service: int64
+  - having_At_Symbol: int64
+  - double_slash_redirecting: int64
+  - Prefix_Suffix: int64
+  - having_Sub_Domain: int64
+  - SSLfinal_State: int64
+  - Domain_registeration_length: int64
+  - Favicon: int64
+  - port: int64
+  - HTTPS_token: int64
+  - Request_URL: int64
+  - URL_of_Anchor: int64
+  - Links_in_tags: int64
+  - SFH: int64
+  - Submitting_to_email: int64
+  - Abnormal_URL: int64
+  - Redirect: int64
+  - on_mouseover: int64
+  - RightClick: int64
+  - popUpWidnow: int64
+  - Iframe: int64
+  - age_of_domain: int64
+  - DNSRecord: int64 
+  - web_traffic: int64
+  - Page_Rank: int64
+  - Google_Index: int64
+  - Links_pointing_to_page: int64
+  - Statistical_report: int64
+  - Result: int64
+
+
+numerical_columns:
+  - having_IP_Address
+  - URL_Length
+  - Shortining_Service
+  - having_At_Symbol
+  - double_slash_redirecting
+  - Prefix_Suffix
+  - having_Sub_Domain
+  - SSLfinal_State
+  - Domain_registeration_length
+  - Favicon
+  - port
+  - HTTPS_token
+  - Request_URL
+  - URL_of_Anchor
+  - Links_in_tags 
+  - SFH
+  - Submitting_to_email
+  - Abnormal_URL
+  - Redirect
+  - on_mouseover
+  - RightClick
+  - popUpWidnow
+  - Iframe
+  - age_of_domain
+  - DNSRecord 
+  - web_traffic
+  - Page_Rank
+  - Google_Index
+  - Links_pointing_to_page
+  - Statistical_report
+  - Result
diff --git a/network_security/components/data_validation.py b/network_security/components/data_validation.py
@@ -0,0 +1,159 @@
+import sys
+from pathlib import Path
+
+import pandas as pd
+from scipy.stats import ks_2samp
+
+from network_security.constant.training_pipeline import SCHEMA_FILE_PATH
+from network_security.entity.artifact_entity import (
+    DataIngestionArtifact,
+    DataValidationArtifact,
+)
+from network_security.entity.config_entity import DataValidationConfig
+from network_security.exception.exception import NetworkSecurityException
+from network_security.logging.logger import logging
+from network_security.utils.main_utils.utils import read_yaml_file, write_yaml_file
+
+
+class DataValidation:
+    def __init__(
+        self,
+        data_ingestion_artifact: DataIngestionArtifact,
+        data_validation_config: DataValidationConfig,
+    ) -> None:
+        try:
+            self.data_ingestion_artifact = data_ingestion_artifact
+            self.data_validation_config = data_validation_config
+            self._schema_config = read_yaml_file(SCHEMA_FILE_PATH)
+            self._numerical_columns = self._schema_config.get("numerical_columns", [])
+        except Exception as e:
+            raise NetworkSecurityException(e, sys)
+
+    @staticmethod
+    def read_data(file_path: str) -> pd.DataFrame:
+        try:
+            return pd.read_csv(file_path)
+        except Exception as e:
+            raise NetworkSecurityException(e, sys)
+
+    def validate_number_of_columns(self, dataframe: pd.DataFrame) -> bool:
+        try:
+            number_of_columns = len(self._schema_config["columns"])
+            logging.info(f"Required number of columns:{number_of_columns}")
+            logging.info(f"Data frame has columns:{len(dataframe.columns)}")
+            return len(dataframe.columns) == number_of_columns
+        except Exception as e:
+            raise NetworkSecurityException(e, sys)
+
+    def validate_numerical_columns_exist(self, dataframe: pd.DataFrame) -> bool:
+        """
+        Validates whether all required numerical columns exist in the given DataFrame.
+
+        Returns:
+            bool: True if all required numerical columns exist and are numeric, False otherwise.
+
+        """
+        try:
+            required_numerical_columns = self._numerical_columns
+            missing_columns = []
+            non_numeric_columns = []
+
+            for column in required_numerical_columns:
+                if column not in dataframe.columns:
+                    missing_columns.append(column)
+                elif not pd.api.types.is_numeric_dtype(dataframe[column]):
+                    non_numeric_columns.append(column)
+
+            if missing_columns:
+                logging.info(f"Missing numerical columns: {missing_columns}")
+            if non_numeric_columns:
+                logging.info(f"Columns not of numeric type: {non_numeric_columns}")
+
+            return len(missing_columns) == 0 and len(non_numeric_columns) == 0
+
+        except Exception as e:
+            raise NetworkSecurityException(e, sys)
+
+
+    def detect_dataset_drift(self, base_df: pd.DataFrame, current_df: pd.DataFrame, threshold: float = 0.05) -> bool:
+        try:
+            report = {}
+            for column in base_df.columns:
+                d1 = base_df[column]
+                d2 = current_df[column]
+                is_same_dist = ks_2samp(d1, d2)
+                is_found = not threshold <= is_same_dist.pvalue
+                report.update(
+                    {
+                        column: {
+                            "p_value": float(is_same_dist.pvalue),
+                            "drift_status": is_found,
+                        },
+                    },
+                )
+            drift_report_file_path = self.data_validation_config.drift_report_file_path
+
+            dir_path = Path(drift_report_file_path).parent
+            dir_path.mkdir(parents=True, exist_ok=True)
+            write_yaml_file(file_path=drift_report_file_path, content=report)
+            write_yaml_file(file_path=drift_report_file_path, content=report)
+
+        except Exception as e:
+            raise NetworkSecurityException(e, sys)
+
+    def initiate_data_validation(self) -> DataValidationArtifact:
+        try:
+            train_file_path = self.data_ingestion_artifact.trained_file_path
+            test_file_path = self.data_ingestion_artifact.test_file_path
+
+            ## Read the data from train and test
+            train_dataframe = DataValidation.read_data(train_file_path)
+            test_dataframe = DataValidation.read_data(test_file_path)
+
+            ## Validate number of columns
+            status = self.validate_number_of_columns(dataframe=train_dataframe)
+            if not status:
+                logging.info("Train dataframe does not contain all columns.\n")
+
+            status = self.validate_number_of_columns(dataframe=test_dataframe)
+            if not status:
+                logging.info("Test dataframe does not contain all columns.\n")
+
+            # Validate numerical columns
+            status = self.validate_numerical_columns_exist(train_dataframe)
+            if not status:
+                logging.info("Train dataframe is missing required numerical columns or types.\n")
+
+            status = self.validate_numerical_columns_exist(test_dataframe)
+            if not status:
+                logging.info("Test dataframe is missing required numerical columns or types.\n")
+
+            ## Check data drift
+            status = self.detect_dataset_drift(
+                base_df=train_dataframe, current_df=test_dataframe)
+            dir_path = Path(self.data_validation_config.valid_train_file_path).parent
+            dir_path.mkdir(parents=True, exist_ok=True)
+
+            train_dataframe.to_csv(
+                self.data_validation_config.valid_train_file_path,
+                index=False,
+                header=True,
+            )
+
+            test_dataframe.to_csv(
+                self.data_validation_config.valid_test_file_path,
+                index=False,
+                header=True,
+            )
+
+            data_validation_artifact = DataValidationArtifact(
+                validation_status=status,
+                valid_train_file_path=self.data_ingestion_artifact.trained_file_path,
+                valid_test_file_path=self.data_ingestion_artifact.test_file_path,
+                invalid_train_file_path=None,
+                invalid_test_file_path=None,
+                drift_report_file_path=self.data_validation_config.drift_report_file_path,
+            )
+            return data_validation_artifact
+        except Exception as e:
+            raise NetworkSecurityException(e, sys)
diff --git a/network_security/constant/training_pipeline/__init__.py b/network_security/constant/training_pipeline/__init__.py
@@ -29,3 +29,14 @@
 DATA_INGESTION_FEATURE_STORE_DIR: str = "feature_store"
 DATA_INGESTION_INGESTED_DIR: str = "ingested"
 DATA_INGESTION_TRAIN_TEST_SPLIT_RATION: float = 0.2
+
+
+"""
+Data Validation related constant start with DATA_VALIDATION VAR NAME
+"""
+DATA_VALIDATION_DIR_NAME: str = "data_validation"
+DATA_VALIDATION_VALID_DIR: str = "validated"
+DATA_VALIDATION_INVALID_DIR: str = "invalid"
+DATA_VALIDATION_DRIFT_REPORT_DIR: str = "drift_report"
+DATA_VALIDATION_DRIFT_REPORT_FILE_NAME: str = "report.yaml"
+PREPROCESSING_OBJECT_FILE_NAME = "preprocessing.pkl"
diff --git a/network_security/entity/artifact_entity.py b/network_security/entity/artifact_entity.py
@@ -5,3 +5,13 @@
 class DataIngestionArtifact:
     trained_file_path: str
     test_file_path: str
+
+
+@dataclass
+class DataValidationArtifact:
+    validation_status: bool
+    valid_train_file_path: str
+    valid_test_file_path: str
+    invalid_train_file_path: str
+    invalid_test_file_path: str
+    drift_report_file_path: str
diff --git a/network_security/entity/config_entity.py b/network_security/entity/config_entity.py
@@ -45,3 +45,34 @@ def __init__(self, training_pipeline_config: TrainingPipelineConfig) -> None:
         )
         self.collection_name: str = training_pipeline.DATA_INGESTION_COLLECTION_NAME
         self.database_name: str = training_pipeline.DATA_INGESTION_DATABASE_NAME
+
+
+class DataValidationConfig:
+    def __init__(self, training_pipeline_config: TrainingPipelineConfig) -> None:
+        self.data_validation_dir: Path = (
+            Path(training_pipeline_config.artifact_dir)
+            / training_pipeline.DATA_VALIDATION_DIR_NAME
+        )
+        self.valid_data_dir: Path = (
+            self.data_validation_dir / training_pipeline.DATA_VALIDATION_VALID_DIR
+        )
+        self.invalid_data_dir: Path = (
+            self.data_validation_dir / training_pipeline.DATA_VALIDATION_INVALID_DIR
+        )
+        self.valid_train_file_path: Path = (
+            self.valid_data_dir / training_pipeline.TRAIN_FILE_NAME
+        )
+        self.valid_test_file_path: Path = (
+            self.valid_data_dir / training_pipeline.TEST_FILE_NAME
+        )
+        self.invalid_train_file_path: Path = (
+            self.invalid_data_dir / training_pipeline.TRAIN_FILE_NAME
+        )
+        self.invalid_test_file_path: Path = (
+            self.invalid_data_dir / training_pipeline.TEST_FILE_NAME
+        )
+        self.drift_report_file_path: Path = (
+            self.data_validation_dir
+            / training_pipeline.DATA_VALIDATION_DRIFT_REPORT_DIR
+            / training_pipeline.DATA_VALIDATION_DRIFT_REPORT_FILE_NAME
+        )
diff --git a/network_security/utils/main_utils/__init__.py b/network_security/utils/main_utils/__init__.py
diff --git a/network_security/utils/main_utils/utils.py b/network_security/utils/main_utils/utils.py
@@ -0,0 +1,29 @@
+import os
+
+# import dill
+import sys
+from pathlib import Path
+
+import yaml
+
+from network_security.exception.exception import NetworkSecurityException
+from network_security.logging.logger import logging
+
+
+def read_yaml_file(file_path: str) -> dict:
+    try:
+        with Path(file_path).open("rb") as yaml_file:
+            return yaml.safe_load(yaml_file)
+    except Exception as e:
+        raise NetworkSecurityException(e, sys) from e
+
+
+def write_yaml_file(file_path: str, content: object, replace: bool = False) -> None:
+    try:
+        if replace and Path(file_path).exists():
+            Path(file_path).unlink()
+        with Path(file_path).open("w") as file:
+            yaml.dump(content, file)
+            yaml.dump(content, file)
+    except Exception as e:
+        raise NetworkSecurityException(e, sys)
diff --git a/pyproject.toml b/pyproject.toml
@@ -6,8 +6,10 @@ readme = "README.md"
 requires-python = ">=3.12"
 dependencies = [
     "certifi>=2025.6.15",
+    "dill>=0.4.0",
     "numpy>=2.3.0",
     "pandas>=2.3.0",
+    "pyaml>=25.5.0",
     "pymongo[srv]==3.12",
     "python-dotenv>=1.1.0",
     "scikit-learn>=1.7.0",
diff --git a/requirements.txt b/requirements.txt
@@ -5,5 +5,7 @@ pymongo
 certifi
 pymongo[srv]==3.12
 scikit-learn
+dill
+pyaml
 
 # -e .
diff --git a/uv.lock b/uv.lock