Merge pull request #372 from shweta-016/add-data-cleaning-guide

EcZachly · web-flow · commit 1b448e60110b · 2025-12-15T14:32:39.000-08:00
Added Data Cleaning Best Practices and Python preprocessing example
diff --git a/data_cleaning.md b/data_cleaning.md
@@ -0,0 +1,24 @@
+## Data Cleaning Best Practices 
+# Data Cleaning Best Practices
+
+- Remove duplicate rows to avoid data leakage.
+- Standardize column names (lowercase, underscores).
+- Handle missing values using median/mean or domain logic.
+- Convert date columns to proper datetime format.
+- Validate data types before modeling.
+
+## Python Example
+
+import pandas as pd
+
+df = pd.read_csv("data.csv")
+
+df = df.drop_duplicates()
+df.columns = [c.lower().replace(" ", "_") for c in df.columns]
+
+num_cols = df.select_dtypes(include="number").columns
+df[num_cols] = df[num_cols].fillna(df[num_cols].median())
+
+if "date" in df.columns:
+    df["date"] = pd.to_datetime(df["date"])
+