Fix: Enable LLM-as-Judge base model evaluation integration tests, Add cleanup mechanism for MC dataset integ test #291

Job	Run time
collab-check	5s
wait-for-approval	3s
detect-changes	9s
unit-tests (sagemaker-train)	30m 31s
codestyle-doc-tests (sagemaker-train)	6m 29s
unit-tests (sagemaker-mlops)	29m 56s
integ-tests (sagemaker-mlops)	21m 41s
codestyle-doc-tests (sagemaker-serve)	6m 40s
codestyle-doc-tests (sagemaker-mlops)	5m 41s
unit-tests (sagemaker-serve)	42m 57s
integ-tests (sagemaker-train)	1h 1m 41s
integ-tests (sagemaker-serve)	32m 6s
collab-check	5s
detect-changes	9s
wait-for-approval	3s
integ-tests (sagemaker-train)	1h 2m 22s
integ-tests (sagemaker-mlops)	21m 41s
codestyle-doc-tests (sagemaker-serve)	6m 40s
codestyle-doc-tests (sagemaker-mlops)	5m 41s
codestyle-doc-tests (sagemaker-train)	6m 29s
unit-tests (sagemaker-serve)	42m 57s
integ-tests (sagemaker-serve)	32m 6s
unit-tests (sagemaker-train)	30m 31s
unit-tests (sagemaker-mlops)	29m 56s
wait-for-approval	3s
integ-tests (sagemaker-train)	1h 20m 22s
detect-changes	9s
unit-tests (sagemaker-train)	30m 31s
integ-tests (sagemaker-serve)	32m 6s
unit-tests (sagemaker-mlops)	29m 56s
unit-tests (sagemaker-serve)	42m 57s
codestyle-doc-tests (sagemaker-serve)	6m 40s
codestyle-doc-tests (sagemaker-train)	6m 29s
codestyle-doc-tests (sagemaker-mlops)	5m 41s
integ-tests (sagemaker-mlops)	21m 41s
collab-check	5s
	12h 13m 19s

Provide feedback