feat: PandasLabeledDataProvider Added

AndreyIsakov01 · AndreyIsakov01 · commit 8556d76b762f · 2026-04-14T04:48:05.000+03:00
diff --git a/examples/tutorial_dataset.ipynb b/examples/tutorial_dataset.ipynb
@@ -0,0 +1,152 @@
+{
+ "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "# Dataset and PandasLabeledDataProvider tutorial\n",
+    "\n",
+    "This notebook demonstrates how to build annotated time series with `PandasLabeledDataProvider`, combine them into `Dataset`, and select bisegments for NoReset experiments."
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "import pandas as pd\n",
+    "\n",
+    "from pysatl_cpd.core.data_providers.dataset import (\n",
+    "    Annotation,\n",
+    "    Dataset,\n",
+    "    PandasLabeledDataProvider,\n",
+    ")\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "ts_one = pd.DataFrame(\n",
+    "    {\n",
+    "        \"value\": [1.0, 1.2, 1.1, 4.0, 3.9, 8.0, 8.1],\n",
+    "        \"aux\": [10, 11, 12, 20, 21, 30, 31],\n",
+    "        \"segments\": [0, 0, 0, 1, 1, 2, 2],\n",
+    "    }\n",
+    ")\n",
+    "\n",
+    "segment_info_one = pd.DataFrame(\n",
+    "    {\n",
+    "        \"start\": [0, 3, 5],\n",
+    "        \"end\": [2, 4, 6],\n",
+    "        \"label\": [\"stable\", \"middle\", \"shifted\"],\n",
+    "    }\n",
+    ")\n",
+    "\n",
+    "provider_one = PandasLabeledDataProvider(\n",
+    "    dataset=ts_one,\n",
+    "    segment_info=segment_info_one,\n",
+    "    annotation=Annotation(path=\"ts_one.csv\", scenario=\"A\", version=\"v1\"),\n",
+    "    name=\"series_one\",\n",
+    ")\n",
+    "\n",
+    "ts_two = pd.DataFrame(\n",
+    "    {\n",
+    "        \"value\": [0.5, 0.4, 2.5, 2.7],\n",
+    "        \"aux\": [7, 8, 9, 10],\n",
+    "        \"segments\": [0, 0, 1, 1],\n",
+    "    }\n",
+    ")\n",
+    "\n",
+    "segment_info_two = pd.DataFrame(\n",
+    "    {\n",
+    "        \"start\": [0, 2],\n",
+    "        \"end\": [1, 3],\n",
+    "        \"label\": [\"baseline\", \"changed\"],\n",
+    "    }\n",
+    ")\n",
+    "\n",
+    "provider_two = PandasLabeledDataProvider(\n",
+    "    dataset=ts_two,\n",
+    "    segment_info=segment_info_two,\n",
+    "    annotation=Annotation(path=\"ts_two.csv\", scenario=\"B\", version=\"v1\"),\n",
+    "    name=\"series_two\",\n",
+    ")\n",
+    "\n",
+    "dataset = Dataset([provider_one, provider_two])\n",
+    "dataset"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# 1) Change points are inferred from the `segments` column.\n",
+    "provider_one.change_point\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# 2) Select a subset of features while keeping the internal segmentation.\n",
+    "provider_one_value_only = provider_one.select_columns([\"value\"])\n",
+    "list(provider_one_value_only)[:3]\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# 3) Filter full dataset by annotation.\n",
+    "scenario_a = dataset.filter_by_annotation(lambda ann: ann.scenario == \"A\")\n",
+    "len(scenario_a.timeserieses)\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# 4) Select bisegments for NoReset mode.\n",
+    "# Keep only pairs where the next segment starts from index >= 3.\n",
+    "bisegments = dataset.select_bisegments_by_filter(lambda pair: pair[1].start >= 3)\n",
+    "len(bisegments), [b.name for b in bisegments]\n"
+   ]
+  },
+  {
+   "cell_type": "code",
+   "execution_count": null,
+   "metadata": {},
+   "outputs": [],
+   "source": [
+    "# 5) Inspect one resulting bisegment.\n",
+    "example_bisegment = bisegments[0]\n",
+    "example_bisegment.dataset, example_bisegment.segment_info\n"
+   ]
+  }
+ ],
+ "metadata": {
+  "kernelspec": {
+   "display_name": "Python 3",
+   "language": "python",
+   "name": "python3"
+  },
+  "language_info": {
+   "name": "python",
+   "version": "3.12"
+  }
+ },
+ "nbformat": 4,
+ "nbformat_minor": 5
+}
diff --git a/pysatl_cpd/analysis/labeled_data.py b/pysatl_cpd/analysis/labeled_data.py
@@ -9,7 +9,7 @@
 
 from collections.abc import Collection, Iterator, Sequence
 
-from pysatl_cpd.core.data_providers import DataProvider
+from pysatl_cpd.core.data_providers.idata_provider import DataProvider
 
 
 class LabeledData[T](DataProvider[T]):
diff --git a/pysatl_cpd/core/data_providers/__init__.py b/pysatl_cpd/core/data_providers/__init__.py
@@ -12,6 +12,7 @@
 __license__ = "SPDX-License-Identifier: MIT"
 
 
+from pysatl_cpd.core.data_providers.dataset import Annotation, Dataset, PandasLabeledDataProvider, SegmentInfo
 from pysatl_cpd.core.data_providers.idata_provider import DataProvider
 from pysatl_cpd.core.data_providers.numpy_data_provider import (
     NDArrayMultivariateProvider,
@@ -20,6 +21,10 @@
 
 __all__ = [
     "DataProvider",
+    "Annotation",
+    "SegmentInfo",
+    "PandasLabeledDataProvider",
+    "Dataset",
     "NDArrayMultivariateProvider",
     "NDArrayUnivariateProvider",
 ]
diff --git a/pysatl_cpd/core/data_providers/dataset.py b/pysatl_cpd/core/data_providers/dataset.py