@@ -17,8 +17,8 @@ Fonctions utiles:
1717
1818* :func: `teachpyx.tools.pandas.read_csv_cached `
1919
20- Séance 1 (6 /2)
21- ==============
20+ Séance 1 (27 /2)
21+ ===============
2222
2323* rappels sur la régression, classification, clustering, ACP, prétraitements
2424* train test, validation croisée
@@ -44,8 +44,8 @@ Peut-on prédire le nombre de candidatures en 2026 pour chaque établissement ?
4444
4545:ref: `Données parcours-sup 2021-2025 <nbl-practice-years-2026-parcoursup_2026 >`
4646
47- Séance 2 (13/2 )
48- ===============
47+ Séance 2 (5/3 )
48+ ==============
4949
5050* tests unitaires, pourquoi en faire
5151* pipelines : pourquoi en faire
@@ -71,7 +71,7 @@ quelques notebooks
7171* `Data challenge - Algorithme machine learning qui permet de prédire la gravité d’un accident de la rout
7272 <https://www.data.gouv.fr/fr/reuses/data-challenge-algorithme-machine-learning-qui-permet-de-predire-la-gravite-dun-accident-de-la-route/> `_
7373
74- Séance 3 (27/2 )
74+ Séance 3 (12/3 )
7575===============
7676
7777* Régression linéaire et contraintes sur les coefficients,
@@ -111,15 +111,68 @@ on comparera à une simple régression linéaire, les coefficients sont-ils
111111
112112Si on a le temps, traitement des données manquantes.
113113
114- Séance 4 (6 /3)
114+ Séance 4 (19 /3)
115115==============
116116
117- Séance 5 (13/3)
118- ===============
117+ * rappel : créer son propre estimateur
118+ * retour sur les tests unitaires
119+
120+ Et puis
119121
120- Séance 6 (20/3)
122+ * prétraitements : catégorie, dirty catégories, :epkg: `category_encoders `
123+ * anomalie
124+ * cartes : :ref: `Tracer une carte <nbl-c_data-enedis_cartes >`,
125+ :epkg: `cartopy `, :epkg: `folium `, :epkg: `geopandas `
126+ * clustering (trainable and pas trainable)
127+ * TSNE
128+
129+ Un exemple :
130+
131+ * `clustering <https://scikit-learn.org/stable/modules/clustering.html >`_
132+ * Vieux notebooks sur l'utilisation de vélos à Chicago
133+ `City Bike Views <https://github.com/sdpython/ensae_projects/blob/master/_doc/notebooks/challenges/city_bike/city_bike_views.ipynb >`_,
134+ `City Bike Clustering <https://github.com/sdpython/ensae_projects/blob/master/_doc/notebooks/challenges/city_bike/city_bike_solution_cluster_start.ipynb >`_,
135+
136+ Séance 5 (26/3)
121137===============
122138
139+ série temporelles
140+
141+ Le modèle de référence est :epkg: `statsmodels `
142+
143+ Le modèle de référence est :epkg: `statsmodels `
144+
145+ * :ref: `Single Spectrum Analysis (SSA) <nbl-practice-ml-timeseries_ssa >`
146+ * :ref: `Décomposition d'une série temporelle <nbl-practice-ml-timeseries_seasonal >`
147+
148+ :epkg: `sktime ` propose une API plus proche de :epkg: `scikit-learn `
149+ et d'autres modèles comme le clusting ou la segmentation de séries temporelles.
150+
151+ :epkg: `prophet ` fait aussi de la prédiction et contient aussi des algorithmes
152+ de détection de changement de régime, il contient une bonne base de jours
153+ fériés.
154+
155+ :epkg: `pyflux ` permet d'estimer des modules `GARCH
156+ <https://en.wikipedia.org/wiki/Autoregressive_conditional_heteroskedasticity> `_.
157+
158+ **Analyse de survie **
159+
160+ * :epkg: `scikit-survival `, :epkg: `lifelines `, analyses de survie,
161+ `Analyse de survie <https://sdpython.github.io/doc/mlstatpy/dev/c_ml/survival_analysis.html >`_,
162+
163+ **Interprétabilité **
164+
165+ * `Partial Dependence <https://scikit-learn.org/stable/modules/partial_dependence.html >`_
166+ * `Permutation Importance <https://scikit-learn.org/stable/modules/permutation_importance.html >`_
167+ * `LIME <https://arxiv.org/abs/1602.04938 >`_
168+ * `Shapley value <https://en.wikipedia.org/wiki/Shapley_value >`_,
169+ `SHAP <https://shap.readthedocs.io/en/latest/index.html >`_
170+ * `Counterfactual Reasoning and Learning Systems <https://arxiv.org/abs/1209.2355 >`_
171+
172+
173+ Séance 6 (3/4)
174+ ==============
175+
123176Evaluation
124177==========
125178
0 commit comments