sdpython
diff --git a/‎.gitignore‎
Lines changed: 1 addition & 0 deletions b/‎.gitignore‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎_doc/articles/2026/2026-03-15-route2026-ml.rst‎
Lines changed: 148 additions & 28 deletions b/‎_doc/articles/2026/2026-03-15-route2026-ml.rst‎
Lines changed: 148 additions & 28 deletions
diff --git a/‎_doc/conf.py‎
Lines changed: 1 addition & 0 deletions b/‎_doc/conf.py‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎_doc/examples/ml/plot_template_data.py‎
Lines changed: 131 additions & 0 deletions b/‎_doc/examples/ml/plot_template_data.py‎
Lines changed: 131 additions & 0 deletions
diff --git a/‎_doc/practice/index_algo.rst‎
Lines changed: 1 addition & 1 deletion b/‎_doc/practice/index_algo.rst‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎_doc/practice/index_python.rst‎
Lines changed: 1 addition & 1 deletion b/‎_doc/practice/index_python.rst‎
Lines changed: 1 addition & 1 deletion
@@ -78,3 +78,4 @@ _doc/c_data/*.txt
 _doc/c_data/*.xlsx
 _doc/c_data/*.zip
 _doc/c_data/*.dbf
+_notebooks/*qwen*
@@ -17,16 +17,16 @@ Fonctions utiles:
 
 * :func:`teachpyx.tools.pandas.read_csv_cached`
 
-Séance 1 (6/2)
-==============
+Séance 1 (27/2)
+===============
 
 * rappels sur la régression, classification, clustering, ACP, prétraitements
 * train test, validation croisée
 * rappels sur l'apprentissage d'un arbre de régression
 
 *présentation de modules*
 
-* données : :epkg:`pandas`
+* données : :epkg:`pandas`, :epkg:`skrub`
 * graphes : :epkg:`matplotlib`, :epkg:`seaborn`, :epkg:`bokeh`, :epkg:`altair`
 * cartes : :epkg:`geopandas`, :epkg:`folium`
 * machine learning : :epkg:`scikit-learn`, :epkg:`skrub`, :epkg:`skore`, :epkg:`imbalanced-learn`, :epkg:`hazardous`, :epkg:`fairlearn`,
@@ -40,28 +40,155 @@ Séance 1 (6/2)
 
 *problème*
 
-Peut-on prédire le nombre de condidatures en 2026 pour chaque établissement ? 
+Peut-on prédire le nombre de candidatures en 2026 pour chaque établissement ? 
 
 :ref:`Données parcours-sup 2021-2025 <nbl-practice-years-2026-parcoursup_2026>`
 
-Séance 2 (13/2)
+Séance 2 (5/3)
+==============
+
+* tests unitaires, pourquoi en faire
+* pipelines : pourquoi en faire
+* arbre de décision, comment ça marche ?
+* pourquoi les random forest sont résistantes à l'overfitting
+* qu'est-ce que le gradient boosting tree ?
+* réseau de neurones, comment ça marche ?
+* réseau diabolo et la compression
+* notion d'embedding
+
+quelques notebooks
+
+* arbre de régression, de classification
+  :ref:`RandomForest, Overfitting <nbl-practice-ml-ml_a_tree_overfitting>`
+* Gradient Boosting, :ref:`Gradient Boosting et Learning Rate avec les Random Forest <nbl-practice-ml-gradient_boosting>`
+* Régression linéaire et contraintes sur les coefficients,
+  `Ridge <https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html>`_,
+  `Lasso <https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html>`_,
+  `ElasticNet <https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html>`_,
+  :ref:`Ridge, Lasso, mathématiques <nbl-practice-ml-ridge_lasso>`
+* paramètres et hyper paramètres, :ref:`Sélection des hyper-paramètres <nbl-practice-ml-winesr_knn_hyper>`,
+  :class:`sklearn.model_selection.GridSearchCV`
+* `Data challenge - Algorithme machine learning qui permet de prédire la gravité d’un accident de la rout
+  <https://www.data.gouv.fr/fr/reuses/data-challenge-algorithme-machine-learning-qui-permet-de-predire-la-gravite-dun-accident-de-la-route/>`_
+
+Séance 3 (12/3)
 ===============
 
+* Régression linéaire et contraintes sur les coefficients,
+  `Ridge <https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html>`_,
+  `Lasso <https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html>`_,
+  `ElasticNet <https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html>`_,
+  :ref:`Ridge, Lasso, mathématiques <nbl-practice-ml-ridge_lasso>`
+* paramètres et hyper paramètres, :ref:`Sélection des hyper-paramètres <nbl-practice-ml-winesr_knn_hyper>`,
+  :class:`sklearn.model_selection.GridSearchCV`
+* pipelines (encore)
+* créer son propre estimateur
 * tests unitaires
-* pipelines : pourquoi en faire
 
-Séance 3 (27/2)
-===============
+Pour cette séance, on souhaite construire un estimateur qui estime
+une régression linéaire à coefficients positifs, une autre avec
+des coefficients uniquement négatifs puis pour finir une dernière
+régression linéaire qui considère les deux premières comme features.
 
-Séance 4 (6/3)
-==============
+Une régression linéaire minimise l'erreur
+:math:`\sum_i \left\Vert X_i\theta - y_i \right\Vert^2`.
+Le gradient est :math:`\sum_i X_i'\left( X_i\theta - y_i \right)`.
+
+Comme le modèle souhaité est équivalent à une optimisation sous contrainte,
+on propose de le résoudre comme ceci :
 
-Séance 5 (13/3)
+* On applique une itération de l'algorithme de la descente de gradient :
+  :math:`\theta_{t+1} = \theta_t - \epsilon_t \sum_i X_i'\left( X_i\theta - y_i \right)`.
+* On ne garde que les coefficients positifs : :math:`\theta_{t+1} = \max(0, \theta_t)`.
+* On retourne à l'étape 1 ou on s'arrête si l'algorithme a convergé.
+
+On appliquera cela au jeu de données :func:`sklearn.datasets.load_diabetes` ou
+`Wine Quality <https://archive.ics.uci.edu/datasets?search=wine>`_
+on comparera à une simple régression linéaire, les coefficients sont-ils
+équivalents ? Comment comparer les modèles ?
+
+* :ref:`Nouvel estimateur <nbl-practice-ml-custom_estimator>`
+
+Si on a le temps, traitement des données manquantes.
+
+Séance 4 (19/3)
 ===============
 
-Séance 6 (20/3)
+* rappel : créer son propre estimateur
+* retour sur les tests unitaires
+
+Et puis
+
+* prétraitements : catégorie, dirty catégories, :epkg:`category_encoders`
+* anomalie
+* cartes : :ref:`Tracer une carte <nbl-c_data-enedis_cartes>`,
+  :epkg:`cartopy`, :epkg:`folium`, :epkg:`geopandas`
+* clustering (trainable and pas trainable)
+* TSNE
+
+Un exemple :
+
+* `clustering <https://scikit-learn.org/stable/modules/clustering.html>`_
+* Vieux notebooks sur l'utilisation de vélos à Chicago
+  `City Bike Views <https://github.com/sdpython/ensae_projects/blob/master/_doc/notebooks/challenges/city_bike/city_bike_views.ipynb>`_,
+  `City Bike Clustering <https://github.com/sdpython/ensae_projects/blob/master/_doc/notebooks/challenges/city_bike/city_bike_solution_cluster_start.ipynb>`_,
+
+Séance 5 (26/3)
 ===============
 
+série temporelles
+
+Le modèle de référence est :epkg:`statsmodels`
+
+* :ref:`Single Spectrum Analysis (SSA) <nbl-practice-ml-timeseries_ssa>`
+* :ref:`Décomposition d'une série temporelle <nbl-practice-ml-timeseries_seasonal>`
+
+:epkg:`sktime` propose une API plus proche de :epkg:`scikit-learn`
+et d'autres modèles comme le clusting ou la segmentation de séries temporelles.
+Voir `Estimator Overview <https://www.sktime.net/en/v0.40.1/estimator_overview.html>`_.
+
+* moyennes mobiles
+* saisonnalité
+* DTW
+* HMM, Gaussian HMM
+* ruptures (changements de régime)
+
+:epkg:`prophet` fait aussi de la prédiction et contient aussi des algorithmes
+de détection de changement de régime, il contient une bonne base de jours
+fériés.
+
+**Analyse de survie**
+
+* :epkg:`scikit-survival`, :epkg:`lifelines`, analyses de survie,
+  `Analyse de survie <https://sdpython.github.io/doc/mlstatpy/dev/c_ml/survival_analysis.html>`_,
+
+**Interprétabilité**
+
+* `Partial Dependence <https://scikit-learn.org/stable/modules/partial_dependence.html>`_
+* `Permutation Importance <https://scikit-learn.org/stable/modules/permutation_importance.html>`_
+* `LIME <https://arxiv.org/abs/1602.04938>`_
+* `Shapley value <https://en.wikipedia.org/wiki/Shapley_value>`_,
+  `SHAP <https://shap.readthedocs.io/en/latest/index.html>`_
+* `Counterfactual Reasoning and Learning Systems <https://arxiv.org/abs/1209.2355>`_
+
+**Municipales 2026**
+
+* `premier tour <https://www.data.gouv.fr/datasets/elections-municipales-2026-resultats-du-premier-tour>`_
+* `liste candidates second tour <https://www.data.gouv.fr/datasets/elections-municipales-2026-listes-candidates-au-second-tour>`_
+* `second tour <https://www.data.gouv.fr/datasets/elections-municipales-2026-resultats-du-second-tour>`_
+
+Séance 6 (3/4)
+==============
+
+* anonymisation : `Latanya Sweeney <https://en.wikipedia.org/wiki/Latanya_Sweeney>`_, vidéo : `Latanya Sweeney: When anonymized data is anything but anonymous <https://www.youtube.com/watch?v=tivCK_fBBfo>`_
+  (k-anonimity, l-diversité, hasard, ...)
+* éthique : apprendre avec et sans, grille
+* LLMs et code
+
+* `premier tour <https://www.data.gouv.fr/datasets/elections-municipales-2026-resultats-du-premier-tour>`_
+* `liste candidates second tour <https://www.data.gouv.fr/datasets/elections-municipales-2026-listes-candidates-au-second-tour>`_
+* `second tour <https://www.data.gouv.fr/datasets/elections-municipales-2026-resultats-du-second-tour>`_
+
 Evaluation
 ==========
 
@@ -73,21 +200,14 @@ Evaluation
 Quelques jeux de données
 ========================
 
-* `Parcoursup 2025 - vœux de poursuite d'études et de réorientation dans l'enseignement supérieur et réponses des établissements
-  <https://www.data.gouv.fr/datasets/parcoursup-2025-voeux-de-poursuite-detudes-et-de-reorientation-dans-lenseignement-superieur-et-reponses-des-etablissements>`_
-* `Patrimoine immobilier des opérateurs de l’Enseignement supérieur
-  <https://www.data.gouv.fr/datasets/patrimoine-immobilier-des-operateurs-de-lenseignement-superieur>`_
-* `Prix des carburants en France - Flux quotidien
-  <https://www.data.gouv.fr/datasets/prix-des-carburants-en-france-flux-quotidien-1>`_
-* `Prix des carburants en France - Flux instantané - v2
-  <https://www.data.gouv.fr/datasets/prix-des-carburants-en-france-flux-instantane-v2-amelioree>`_
-* `Séries sur les surfaces, rendements, production céréales
-  <https://visionet.franceagrimer.fr/Pages/SeriesChronologiques.aspx?menuurl=SeriesChronologiques/productions%20vegetales/grandes%20cultures/surfaces,productions,rendements>`_
-* `Effectifs d'étudiants inscrits dans les établissements et les formations de l'enseignement supérieur - détail par établissements 
-  <https://www.data.gouv.fr/datasets/effectifs-detudiants-inscrits-dans-les-etablissements-et-les-formations-de-lenseignement-superieur-detail-par-etablissements>`_
-* `Résultats du contrôle sanitaire de l'eau distribuée commune par commune 
-  <https://www.data.gouv.fr/datasets/resultats-du-controle-sanitaire-de-leau-distribuee-commune-par-commune>`_
+* `Parcoursup 2025 - vœux de poursuite d'études et de réorientation dans l'enseignement supérieur et réponses des établissements <https://www.data.gouv.fr/datasets/parcoursup-2025-voeux-de-poursuite-detudes-et-de-reorientation-dans-lenseignement-superieur-et-reponses-des-etablissements>`_
+* `Patrimoine immobilier des opérateurs de l'Enseignement supérieur <https://www.data.gouv.fr/datasets/patrimoine-immobilier-des-operateurs-de-lenseignement-superieur>`_
+* `Prix des carburants en France - Flux quotidien <https://www.data.gouv.fr/datasets/prix-des-carburants-en-france-flux-quotidien-1>`_
+* `Prix des carburants en France - Flux instantané - v2 <https://www.data.gouv.fr/datasets/prix-des-carburants-en-france-flux-instantane-v2-amelioree>`_
+* `Séries sur les surfaces, rendements, production céréales <https://visionet.franceagrimer.fr/Pages/SeriesChronologiques.aspx?menuurl=SeriesChronologiques/productions%20vegetales/grandes%20cultures/surfaces,productions,rendements>`_
+* `Effectifs d'étudiants inscrits dans les établissements et les formations de l'enseignement supérieur - détail par établissements <https://www.data.gouv.fr/datasets/effectifs-detudiants-inscrits-dans-les-etablissements-et-les-formations-de-lenseignement-superieur-detail-par-etablissements>`_
+* `Résultats du contrôle sanitaire de l'eau distribuée commune par commune <https://www.data.gouv.fr/datasets/resultats-du-controle-sanitaire-de-leau-distribuee-commune-par-commune>`_
 * `Résultats du contrôle sanitaire de l'eau du robinet <https://www.data.gouv.fr/datasets/resultats-du-controle-sanitaire-de-leau-du-robinet>`_
 * `Données climatologiques de base - horaires <https://www.data.gouv.fr/datasets/donnees-climatologiques-de-base-horaires>`_
-* `Données climatologiques de base - mensuelles  <https://www.data.gouv.fr/datasets/donnees-climatologiques-de-base-mensuelles>`_
-
+* `Données climatologiques de base - mensuelles <https://www.data.gouv.fr/datasets/donnees-climatologiques-de-base-mensuelles>`_
+* `Base de donnée de surveillance de pesticides dans l air par les AASQA à partir de 2002 <https://www.data.gouv.fr/datasets/base-de-donnee-de-surveillance-de-pesticides-dans-l-air-par-les-aasqa-a-partir-de-2002>`_
@@ -113,6 +113,7 @@ def linkcode_resolve(domain, info):
 nitpick_ignore = [
     ("py:class", "False"),
     ("py:class", "True"),
+    ("py:class", "pandas.core.frame.DataFrame"),
     ("py:class", "pipeline.Pipeline"),
     ("py:class", "default=sklearn.utils.metadata_routing.UNCHANGED"),
     ("py:class", "sklearn.utils._metadata_requests.RequestMethod"),
 
@@ -0,0 +1,131 @@
+"""
+Données parcours-sup 2021-2025
+==============================
+
+"""
+
+import pandas
+from teachpyx.tools.pandas import read_csv_cached
+from sklearn.metrics import mean_absolute_error
+from sklearn.pipeline import Pipeline
+from sklearn.compose import ColumnTransformer
+from sklearn.preprocessing import OneHotEncoder, StandardScaler
+from sklearn.ensemble import HistGradientBoostingRegressor
+
+# from skrub import TableReport
+
+
+def get_data():
+    urls = {
+        "2021": "https://data.enseignementsup-recherche.gouv.fr/api/explore/v2.1/catalog/datasets/fr-esr-parcoursup_2021/exports/csv?lang=fr&timezone=Europe%2FBerlin&use_labels=true&delimiter=%3B",
+        "2022": "https://data.enseignementsup-recherche.gouv.fr/api/explore/v2.1/catalog/datasets/fr-esr-parcoursup_2022/exports/csv?lang=fr&timezone=Europe%2FBerlin&use_labels=true&delimiter=%3B",
+        "2023": "https://data.enseignementsup-recherche.gouv.fr/api/explore/v2.1/catalog/datasets/fr-esr-parcoursup_2023/exports/csv?lang=fr&timezone=Europe%2FBerlin&use_labels=true&delimiter=%3B",
+        "2024": "https://data.enseignementsup-recherche.gouv.fr/api/explore/v2.1/catalog/datasets/fr-esr-parcoursup_2024/exports/csv?lang=fr&timezone=Europe%2FBerlin&use_labels=true&delimiter=%3B",
+        "2025": "https://data.enseignementsup-recherche.gouv.fr/api/explore/v2.1/catalog/datasets/fr-esr-parcoursup/exports/csv?lang=fr&timezone=Europe%2FBerlin&use_labels=true&delimiter=%3B",
+    }
+
+    dfs = {}
+    for k, url in urls.items():
+        print(f"loading {k!r}")
+        dfs[k] = read_csv_cached(url, sep=";")
+
+    return pandas.concat(dfs.values(), axis=0)
+
+
+def select_variables_and_clean(df):
+    keys = [
+        "Région de l’établissement",
+        "Session",
+        "Statut de l’établissement de la filière de formation (public, privé…)",
+        "Sélectivité",
+        "Code UAI de l'établissement",
+        "Établissement",
+        "Filière de formation détaillée bis",
+        "Filière de formation très agrégée",
+        "Filière de formation.1",
+        "Académie de l’établissement",
+        "Code départemental de l’établissement",
+        "Commune de l’établissement",
+        "Concours communs et banque d'épreuves",
+    ]
+    cible = "Effectif total des candidats pour une formation"
+    columns = set(df.columns)
+    assert set(keys) & set(columns) == set(
+        keys
+    ), f"Missing columns {set(keys) - set(keys) & set(columns)} in {sorted(df.columns)}"
+    subset = df[[*keys, cible]]
+    mask = subset.duplicated(subset=keys, keep=False)
+    return subset[~mask].reset_index(drop=True), cible
+
+
+def compute_oracle(table, cible):
+    vars = [c for c in table.columns if c != cible]
+    f2025 = table["Session"] == 2025
+    f2024 = table["Session"] == 2024
+    ftwo = table[f2025 | f2024]
+    piv = (
+        pandas.pivot_table(
+            ftwo,
+            index=[c for c in vars if c != "Session"],
+            columns="Session",
+            values=cible,
+        )
+        .dropna(axis=0)
+        .sort_index()
+    )
+    # Keep only rows where both 2024 and 2025 have non-missing values
+    piv = piv.dropna(axis=0, how="any")
+    if piv.empty:
+        raise ValueError(
+            "Not enough overlapping data between 2024 and 2025 to compute oracle."
+        )
+    return mean_absolute_error(piv[2025], piv[2024])
+
+
+def split_train_test(table, cible):
+    X, y = table.drop(cible, axis=1), table[cible]
+
+    train_test = X["Session"] < 2025
+
+    drop = ["Session", "Code UAI de l'établissement", "Établissement"]
+
+    train_X = X[train_test].drop(drop, axis=1)
+    train_y = y[train_test]
+    test_X = X[~train_test].drop(drop, axis=1)
+    test_y = y[~train_test]
+    return train_X, test_X, train_y, test_y
+
+
+def make_pipeline(table, cible):
+    vars = [c for c in table.columns if c != cible]
+    num_cols = ["Capacité de l’établissement par formation"]
+    cat_cols = [c for c in vars if c not in num_cols]
+
+    transformers = []
+    if num_cols:
+        transformers.append(("num", StandardScaler(), num_cols))
+    if cat_cols:
+        transformers.append(
+            ("cats", OneHotEncoder(handle_unknown="ignore"), cat_cols)
+        )
+
+    model = Pipeline(
+        [
+            (
+                "preprocessing",
+                ColumnTransformer(transformers),
+            ),
+            ("regressor", HistGradientBoostingRegressor()),
+        ]
+    )
+    return model
+
+
+data = get_data()
+table, cible = select_variables_and_clean(data)
+# oracle = compute_oracle(table, cible)
+# print(f"oracle : {oracle}")
+
+# train_X, test_X, train_y, test_y = split_train_test(table, cible)
+# model = make_pipeline(table, cible)
+# model.fit(train_X, train_y)
@@ -70,7 +70,7 @@ angles d'approches.
     algo-compose/vigenere
     algo-compose/exercice_morse
 
-Les exercices suivants fonctionnent par pair énoncé et correction.
+Les exercices suivants fonctionnent par paire énoncé et correction.
 
 .. toctree::
     :maxdepth: 1
 
@@ -68,7 +68,7 @@ Exercices sur le langage python
     ../auto_examples/prog/plot_gil_example
     ../auto_examples/prog/plot_lambda_function
 
-Les exercices suivants fonctionnent par pair énoncé et correction.
+Les exercices suivants fonctionnent par paire énoncé et correction.
 
 .. toctree::
     :maxdepth: 1