enchancement: prevent Data Leakage, not sending testdata for bestK

abhitrueprogrammer · abhitrueprogrammer · commit 68cc3c6b8453 · 2026-05-28T03:38:11.000+05:30
diff --git a/ConsoleApp2/Analyser.cs b/ConsoleApp2/Analyser.cs
@@ -69,7 +69,7 @@ public static IEstimator<ITransformer> FeaturizeText(MLContext mlContext)
             return mlContext.Transforms.Text.FeaturizeText(FeaturesColumnName, nameof(CommitMLData.CommitName));
         }
 
-        public static int GetOrFindBestK(MLContext mlContext, IDataView trainData, IDataView testData, IEstimator<ITransformer> featurizer, string kFilePath)
+        public static int GetOrFindBestK(MLContext mlContext, IDataView trainData, IEstimator<ITransformer> featurizer, string kFilePath)
         {
             if (File.Exists(kFilePath))
             {
@@ -80,16 +80,20 @@ public static int GetOrFindBestK(MLContext mlContext, IDataView trainData, IData
                 }
             }
 
-            Console.WriteLine("Finding best K via Grid Search...");
+            Console.WriteLine("Finding best K via Grid Search using validation split...");
+            var split = mlContext.Data.TrainTestSplit(trainData, testFraction: 0.2);
+            var subTrainData = split.TrainSet;
+            var validationData = split.TestSet;
+
             int bestK = 2;
             double bestMetric = double.MaxValue; // Lower Davies-Bouldin is better for measuring clustering quality
 
             for (int k = 2; k <= 10; k++)
             {
                 var pipeline = featurizer.Append(mlContext.Clustering.Trainers.KMeans(featureColumnName: FeaturesColumnName, numberOfClusters: k));
-                var model = pipeline.Fit(trainData);
-                
-                var predictions = model.Transform(testData);
+                var model = pipeline.Fit(subTrainData);
+
+                var predictions = model.Transform(validationData);
                 var metrics = mlContext.Clustering.Evaluate(predictions, labelColumnName: null, scoreColumnName: "Score", featureColumnName: FeaturesColumnName);
 
                 Console.WriteLine($"K = {k} | Davies-Bouldin: {metrics.DaviesBouldinIndex:F4} | Avg Distance: {metrics.AverageDistance:F4}");
diff --git a/ConsoleApp2/Program.cs b/ConsoleApp2/Program.cs
@@ -35,7 +35,7 @@ static async Task Main(string[] args)
                 var featurizer = Analyser.FeaturizeText(mlContext);
 
                 // 4. Find Best K using Grid Search or load from file
-                int bestK = Analyser.GetOrFindBestK(mlContext, split.TrainSet, split.TestSet, featurizer, kFilePath);
+                int bestK = Analyser.GetOrFindBestK(mlContext, split.TrainSet, featurizer, kFilePath);
 
                 // 5. Train KMeans Clusterer
                 var model = Analyser.TrainKMeansClusterer(mlContext, split.TrainSet, featurizer, bestK);

Original file line number	Diff line number	Diff line change
`@@ -69,7 +69,7 @@ public static IEstimator<ITransformer> FeaturizeText(MLContext mlContext)`
`69`	`69`	`return mlContext.Transforms.Text.FeaturizeText(FeaturesColumnName, nameof(CommitMLData.CommitName));`
`70`	`70`	`}`
`71`	`71`
`72`		`- public static int GetOrFindBestK(MLContext mlContext, IDataView trainData, IDataView testData, IEstimator<ITransformer> featurizer, string kFilePath)`
	`72`	`+ public static int GetOrFindBestK(MLContext mlContext, IDataView trainData, IEstimator<ITransformer> featurizer, string kFilePath)`
`73`	`73`	`{`
`74`	`74`	`if (File.Exists(kFilePath))`
`75`	`75`	`{`
`@@ -80,16 +80,20 @@ public static int GetOrFindBestK(MLContext mlContext, IDataView trainData, IData`
`80`	`80`	`}`
`81`	`81`	`}`
`82`	`82`
`83`		`- Console.WriteLine("Finding best K via Grid Search...");`
	`83`	`+ Console.WriteLine("Finding best K via Grid Search using validation split...");`
	`84`	`+ var split = mlContext.Data.TrainTestSplit(trainData, testFraction: 0.2);`
	`85`	`+ var subTrainData = split.TrainSet;`
	`86`	`+ var validationData = split.TestSet;`
	`87`	`+`
`84`	`88`	`int bestK = 2;`
`85`	`89`	`double bestMetric = double.MaxValue; // Lower Davies-Bouldin is better for measuring clustering quality`
`86`	`90`
`87`	`91`	`for (int k = 2; k <= 10; k++)`
`88`	`92`	`{`
`89`	`93`	`var pipeline = featurizer.Append(mlContext.Clustering.Trainers.KMeans(featureColumnName: FeaturesColumnName, numberOfClusters: k));`
`90`		`- var model = pipeline.Fit(trainData);`
`91`		`-`
`92`		`- var predictions = model.Transform(testData);`
	`94`	`+ var model = pipeline.Fit(subTrainData);`
	`95`	`+`
	`96`	`+ var predictions = model.Transform(validationData);`
`93`	`97`	`var metrics = mlContext.Clustering.Evaluate(predictions, labelColumnName: null, scoreColumnName: "Score", featureColumnName: FeaturesColumnName);`
`94`	`98`
`95`	`99`	`Console.WriteLine($"K = {k} \| Davies-Bouldin: {metrics.DaviesBouldinIndex:F4} \| Avg Distance: {metrics.AverageDistance:F4}");`