fix: fix sphinx warning and add test

tachyonicClock · tachyonicClock · commit 38888498e491 · 2026-04-17T11:09:00.000+12:00
diff --git a/docs/conf.py b/docs/conf.py
@@ -42,8 +42,7 @@
 ]
 
 nitpick_ignore_regex = [
-    ("py:class", r".*\._[\w_]*"),  # Ignore private classes from nitpick errors
-    ("py:obj", r".*\._[\w_]*"),  # Ignore private objects from nitpick errors
+    (r"py:(class|obj)", r"(.*\.)?_[\w_]*"),  # Ignore private objects
     ("py:class", r"abc\..*"),
     ("py:class", r"com\..*"),
     ("py:class", r"java\..*"),
diff --git a/src/capymoa/datasets/_downloader.py b/src/capymoa/datasets/_downloader.py
@@ -3,7 +3,7 @@
 from typing import Literal, Optional, Union
 
 from capymoa.stream._stream import Schema
-from moa.streams import InstanceStream
+from moa.streams import InstanceStream as _InstanceStream
 
 from capymoa.stream import Stream, stream_from_file
 from capymoa.datasets._utils import (
@@ -69,7 +69,7 @@ def __str__(self) -> str:
 class _DownloadableARFF(_DownloadableDataset, Stream):
     schema: Schema
     stream: Stream
-    moa_stream: Optional[InstanceStream]
+    moa_stream: Optional[_InstanceStream]
     _target_type: Literal["numeric", "categorical"] | None = None
 
     def __init__(
@@ -107,7 +107,7 @@ def next_instance(self):
     def get_schema(self) -> Schema:
         return self.schema
 
-    def get_moa_stream(self) -> Optional[InstanceStream]:
+    def get_moa_stream(self) -> Optional[_InstanceStream]:
         return self.moa_stream
 
     def restart(self):
diff --git a/tests/test_datasets.py b/tests/test_datasets.py
@@ -1,5 +1,6 @@
 from typing import Sized, Type
 import capymoa.datasets as capymoa_datasets
+from capymoa.stream import Stream
 from capymoa.datasets import ElectricityTiny
 from tempfile import TemporaryDirectory
 import pytest
@@ -59,13 +60,58 @@ def test_electricity_tiny_schema():
 @pytest.mark.parametrize("dataset_type", _ALL_DOWNLOADABLE_DATASET)
 def test_all_datasets(dataset_type: Type[_DownloadableDataset]):
     with TemporaryDirectory() as tmp_dir:
-        dataset = dataset_type(directory=tmp_dir)
+        dataset_arff = dataset_type(directory=tmp_dir)
+        assert isinstance(dataset_arff, Stream)
 
         i = 0
-        while dataset.has_more_instances():
-            dataset.next_instance()
+        while dataset_arff.has_more_instances():
+            dataset_arff.next_instance()
             i += 1
 
-        assert str(dataset)
-        assert isinstance(dataset, Sized), "Dataset must be an instance of Sized"
-        assert len(dataset) == i, "Dataset length must be correct"
+        assert str(dataset_arff)
+        assert isinstance(dataset_arff, Sized), "Dataset must be an instance of Sized"
+        assert len(dataset_arff) == i, "Dataset length must be correct"
+        dataset_arff.restart()
+
+        try:
+            dataset_csv = dataset_type(directory=tmp_dir, file_type="csv")
+            assert isinstance(dataset_csv, Stream)
+        except ValueError:
+            return  # If the dataset does not support CSV, skip the rest of the test
+
+        # Both should return a schema object
+        assert dataset_arff.get_schema() is not None
+        assert dataset_csv.get_schema() is not None
+
+        i = 0
+        while dataset_arff.has_more_instances() and dataset_csv.has_more_instances():
+            instance_arff = dataset_arff.next_instance()
+            instance_csv = dataset_csv.next_instance()
+
+            assert instance_arff.x == pytest.approx(instance_csv.x)
+            if dataset_csv.get_schema().is_classification():
+                assert instance_arff.y_index == pytest.approx(instance_csv.y_index)
+            elif dataset_csv.get_schema().is_regression():
+                assert instance_arff.y_value == pytest.approx(instance_csv.y_value)
+
+            i += 1
+
+        # Both datasets should be exhausted by now.
+        assert not dataset_arff.has_more_instances()
+        assert not dataset_csv.has_more_instances()
+
+        # The datasets should be restartable.
+        dataset_arff.restart()
+        dataset_csv.restart()
+
+        # After restarting, the datasets should have more instances.
+        assert dataset_arff.has_more_instances()
+        assert dataset_csv.has_more_instances()
+
+        # The string representation of the datasets should not throw an error
+        assert str(dataset_arff)
+        assert str(dataset_csv)
+        # The datasets should be the same length, and should have a size.
+        assert isinstance(dataset_arff, Sized)
+        assert isinstance(dataset_csv, Sized)
+        assert len(dataset_arff) == len(dataset_csv) == i

Original file line number	Diff line number	Diff line change
`@@ -42,8 +42,7 @@`
`42`	`42`	`]`
`43`	`43`
`44`	`44`	`nitpick_ignore_regex = [`
`45`		`- ("py:class", r".\._[\w_]"), # Ignore private classes from nitpick errors`
`46`		`- ("py:obj", r".\._[\w_]"), # Ignore private objects from nitpick errors`
	`45`	`+ (r"py:(class\|obj)", r"(.\.)?_[\w_]"), # Ignore private objects`
`47`	`46`	`("py:class", r"abc\..*"),`
`48`	`47`	`("py:class", r"com\..*"),`
`49`	`48`	`("py:class", r"java\..*"),`