wdr-data · JanEggers-hr · Apr 2, 2026 · Apr 5, 2026 · Apr 10, 2026 · Apr 10, 2026
diff --git a/.github/workflows/deploy.yml b/.github/workflows/deploy.yml
@@ -98,6 +98,8 @@ jobs:
           TALSPERREN_DATAWRAPPER_TOKEN: ${{ secrets.NASA_WALDBRANDDATEN_RHODOS_DATAWRAPPER_TOKEN }}
           DB_CLIENT_ID: ${{ secrets.DB_CLIENT_ID }}
           DB_API_KEY: ${{ secrets.DB_API_KEY }}
+          # Datawrapper key for Jan Eggers' account
+          DW_API_KEY_JE: ${{ secrets.DW_API_KEY_JE }}
 
       - name: Log artifact sizes
         run: |

diff --git a/.vscode/extensions.json b/.vscode/extensions.json
@@ -2,6 +2,7 @@
   "recommendations": [
     "charliermarsh.ruff",
     "ms-python.python",
-    "ms-python.vscode-pylance"
+    "ms-python.vscode-pylance",
+    "continue.continue"
   ]
 }
diff --git a/README.md b/README.md
@@ -87,7 +87,7 @@ Find the scraper you created in the `ddj_cloud/scrapers` folder and open the `.p
 You can run the following command to test your scraper:
 
     uv run manage test <scraper_name>
-
+ 
 where `<scraper_name>` is the Python module name of your scraper.
 
 If a local `.env` file exists in the repository root, `manage test` will load it automatically before importing the scraper.

diff --git a/ddj_cloud/scrapers/klimadashboard/.claude/settings.json b/ddj_cloud/scrapers/klimadashboard/.claude/settings.json
@@ -0,0 +1,13 @@
+{
+  "permissions": {
+    "allow": [
+      "WebFetch(domain:github.com)",
+      "WebFetch(domain:raw.githubusercontent.com)",
+      "Read(//Users/janeggers/Code/wdr-ddj-cloud/ddj_cloud/scrapers/talsperren/**)",
+      "WebFetch(domain:open-mastr.readthedocs.io)",
+      "WebFetch(domain:api.github.com)",
+      "Read(//Users/janeggers/miniconda3/lib/python3.12/site-packages/open_mastr/**)",
+      "Read(//Users/janeggers/Code/wdr-ddj-cloud/**)"
-      "Read(//Users/janeggers/Code/wdr-ddj-cloud/ddj_cloud/scrapers/talsperren/**)",
-      "WebFetch(domain:open-mastr.readthedocs.io)",
-      "WebFetch(domain:api.github.com)",
-      "Read(//Users/janeggers/miniconda3/lib/python3.12/site-packages/open_mastr/**)",
-      "Read(//Users/janeggers/Code/wdr-ddj-cloud/**)"
+      "Read(ddj_cloud/scrapers/talsperren/**)",
+      "WebFetch(domain:open-mastr.readthedocs.io)",
+      "WebFetch(domain:api.github.com)",
+      "Read(ddj_cloud/**)"
-      "Read(//Users/janeggers/Code/wdr-ddj-cloud/ddj_cloud/scrapers/talsperren/**)",
-      "WebFetch(domain:open-mastr.readthedocs.io)",
-      "WebFetch(domain:api.github.com)",
-      "Read(//Users/janeggers/miniconda3/lib/python3.12/site-packages/open_mastr/**)",
-      "Read(//Users/janeggers/Code/wdr-ddj-cloud/**)"
+      "Read(ddj_cloud/scrapers/talsperren/**)",
+      "WebFetch(domain:open-mastr.readthedocs.io)",
+      "WebFetch(domain:api.github.com)",
+      "Read(ddj_cloud/**)"
+    ]
+  }
+}
diff --git a/ddj_cloud/scrapers/klimadashboard/.copier-answers.yml b/ddj_cloud/scrapers/klimadashboard/.copier-answers.yml
@@ -0,0 +1,14 @@
+# Changes here will be overwritten by Copier; NEVER EDIT MANUALLY
+_src_path: /Users/janeggers/Code/wdr-ddj-cloud/scraper_template
+contact_email: jan.eggers@fm.wdr.de
+contact_name: Jan Eggers
+description: 'Automation für Quarks.de: Ausbau von Wind- und Solarenergie, Energiemix
+    in D und mehr
+
+    '
+display_name: klimadashboard
+ephemeral_storage: '512'
+interval: daily
+memory_size: '1024'
+preset: pandas
+
diff --git a/ddj_cloud/scrapers/klimadashboard/.gitignore b/ddj_cloud/scrapers/klimadashboard/.gitignore
@@ -0,0 +1,2 @@
+# MaStR databases
+*.db
diff --git a/ddj_cloud/scrapers/klimadashboard/CLAUDE.md b/ddj_cloud/scrapers/klimadashboard/CLAUDE.md
@@ -0,0 +1,52 @@
+# Technology stack
+
+- Python 3.11
+- uv
+- Datawrapper (Charts)
+- SQLite Database (MaStR-Daten)
+- Fraunhofer Energy Charts API (Energiemix)
+- MaStR SOAP API (Windkraft-Ausbau)
- MaStR SOAP API (Windkraft-Ausbau)
+- open-mastr (Bulk-Download für Windkraft-Ausbau)
- MaStR SOAP API (Windkraft-Ausbau)
+- open-mastr (Bulk-Download für Windkraft-Ausbau)
+- Sentry (Monitoring)
+
+## Step 1: POC Datawrapper -- DONE
+
+- Look at src/energiemix.py which is a crude sample of a gather-process-store-publish pipeline
+- Look for errors and improve the code
+
+### Findings & Fixes (2026-03-30)
+
+7 bugs fixed in `src/energiemix.py`:
+1. `MIX_NOTES` was defined twice, shadowing `POWER_NOTES` -> renamed second to `POWER_NOTES`
+2. `fetch_public_power()` called wrong API endpoint (`SHARE_FORECAST` instead of `PUBLIC_POWER`)
+3. `upload_to_datawrapper()` used undefined `DATAWRAPPER_CHART_ID` -> changed to `dw_id` param
+4. Column selection used tuple syntax instead of list (`df["a", "b"]` -> `df[["a", "b"]]`)
+5. `POWER_NOTES` was undefined because of bug #1
+6. Raw DataFrame passed to `upload_to_datawrapper` instead of CSV -> added `build_csv_from_index()`
+7. Returned CSV string but caller expected DataFrame -> now returns `df_combined`
+
+## Step 2: PHP to Python -- DONE
+
+- Look at the msr_php subfolder containing PHP scripts to scrape and process wind data
+- Construct a Python version of it "msr_wind.py", analog to the src/energiemix.py
+- Document in README_msr.md, noting all secrets and keys needed
+- Suggest msr_solar.py for solar energy
+
+### Findings (2026-03-30)
+
+Created `src/msr_wind.py` porting `msr_php/wka_daily.php` + `msr_php/wka_to_data.php`:
+- Uses SQLite instead of MySQL, requests instead of PHP SoapClient, pandas instead of per-row SQL
+- `fetch_recent_units()`: fetches new/updated wind units from MaStR API
+- `process_daily_data()`: calculates daily capacity (installed, planned, required for 2030 targets)
+- Documented all secrets in `README_msr.md`
+- Solar suggestion included in README_msr.md (energietraeger: "Solare Strahlungsenergie", 215 GW target)
+
+## Step 3: Add monitoring -- DONE
+
+- Look at the ../../utils to understand sentry
+- Add useful sentry functions
+
+### Findings (2026-03-30)
+
+Added `sentry_sdk.capture_exception(e)` to all API calls in both files:
+- `energiemix.py`: all 4 Fraunhofer API fetch functions
+- `msr_wind.py`: SOAP API call + per-unit error handling (individual failures don't crash the run)
diff --git a/ddj_cloud/scrapers/klimadashboard/README.md b/ddj_cloud/scrapers/klimadashboard/README.md
@@ -0,0 +1,112 @@
+# klimadashboard
+
+**Contact:** Jan Eggers (jan.eggers@fm.wdr.de)
+
+Automation für Quarks.de: Ausbau von Wind- und Solarenergie, Energiemix in D und mehr
+
+## Architektur
+
+```
+klimadashboard.py (Orchestrator)
+  │
+  ├── msr_scraper.py  → alle Energiearten aus MaStR (isoliertes venv via uv run)
+  ├── msr_wind_processor.py → Wind-Tagesdaten berechnen
+  ├── msr_solar_processor.py → Solar-Tagesdaten berechnen
+  ├── msr_dw_display.py → Datawrapper-Charts aktualisieren
+  ├── S3: upload mastr.db + CSVs
+  └── energiemix.py → Fraunhofer-Daten + DW-Charts
+```
+
+
+## MaStR-Scraper; Auswertung Wind- und Solarenergie
+
+Ausbaustand Wind- und Solarenenergie: Wie geht es voran? Was muss passieren, um die Ziele des EEG zu erreichen?
+
+Ursprünglich ein Python-Port der PHP-Skripte `msr_php/wka_daily.php` und `msr_php/wka_to_data.php`, jetzt basierend auf der [open-mastr](https://github.com/OpenEnergyPlatform/open-mastr)-Bibliothek des [Rainer-Lemoine-Instituts](https://wam.rl-institut.de/#showcase). Die Maintainer dort sind Jonathan Amme und Ludwig Hülk - die das mehr oder weniger nebenbei entwickeln und für Props und Kooperationen offen sind.
+
+
+### 1. Scraper (`src/msr_scraper.py`)
+
+Lädt alle Energiearten (Wind, Solar, Biomasse, Wasser, Kernkraft, Verbrennung, Geothermie/Grubengas, Speicher)
+über den open-mastr Bulk-Download und speichert sie in `mastr.db`.
+
+**Kein API-Key nötig** -- nutzt die öffentlichen Bulk-Daten des MaStR.
+
+**Isoliertes venv:** Der Scraper nutzt PEP 723 inline script metadata und wird via `uv run`
+in einem eigenen virtuellen Environment ausgeführt (open-mastr benötigt pandas>=2.2,
+das Hauptprojekt nutzt pandas~=1.5).
+
+**Caching:** Wenn `mastr.db` bereits Daten von heute enthält (`DatumDownload`), wird der Download übersprungen.
+
+### 2. Wind-Prozessor (`src/msr_wind_processor.py`)
+
+Berechnet tägliche Ausbaudaten (2010-2030) für Onshore und Offshore Wind:
+- Kumulierte installierte Leistung (GW)
+- Täglicher Zubau/Abbau (MW)
+- Geplante zukünftige Installationen
+- Nötiger täglicher Ausbau für die Klimaschutzziele 2030
+- Monatliche und jährliche Zusammenfassungen
+
+**Klimaziele 2030:**
+- Onshore: 115 GW (Wind-an-Land-Gesetz, seit 01.02.2023)
+- Offshore: 30 GW (Wind-auf-See-Gesetz, seit 01.01.2023)
+
+### 3. Solar-Prozessor (`src/msr_solar_processor.py`)
+
+Berechnet tägliche Ausbaudaten (2010-2030) für Solarenergie:
+- Kumulierte installierte Leistung (GW)
+- Täglicher Zubau/Abbau (MW)
+- Geplante zukünftige Installationen
+- Nötiger täglicher Ausbau für das Klimaziel 2030
+- Monatliche und jährliche Zusammenfassungen
+
+**Klimaziel 2030:** 215 GW (EEG 2023)
+
+### 4. Datawrapper-Display (`src/msr_dw_display.py`)
+
+Lädt aufbereitete Daten in Datawrapper-Charts hoch:
+- **Wind-Ausbau** (`EgOti`): Gesamtleistung Onshore/Offshore
+- **Solar-Ausbau** (`1rxLQ`): Gesamtleistung Solar
+- **Wind-Zubau** (`7yMTK`): Zubau pro Monat/Jahr
+- **Solar-Zubau** (`kPzGf`): Zubau pro Monat/Jahr
+
+Umschaltbar zwischen monatlicher und jährlicher Aggregation via `YEARLY_AGGREGATES`.
+
+## Benötigte Secrets / Umgebungsvariablen
+
+| Variable | Beschreibung | Wo? |
+|----------|-------------|-----|
+| `DATAWRAPPER_API_KEY` | API-Token für Datawrapper-Charts | [Datawrapper Account Settings](https://app.datawrapper.de/account/api-tokens), in .env des Projekts |
-| `DATAWRAPPER_API_KEY` | API-Token für Datawrapper-Charts | [Datawrapper Account Settings](https://app.datawrapper.de/account/api-tokens), in .env des Projekts |
+| `DW_API_KEY_JE` | API-Token für Datawrapper-Charts; diese Umgebungsvariable wird von den Skripten und der Deploy-Konfiguration erwartet | [Datawrapper Account Settings](https://app.datawrapper.de/account/api-tokens), in `.env` des Projekts |
-| `DATAWRAPPER_API_KEY` | API-Token für Datawrapper-Charts | [Datawrapper Account Settings](https://app.datawrapper.de/account/api-tokens), in .env des Projekts |
+| `DW_API_KEY_JE` | API-Token für Datawrapper-Charts; diese Umgebungsvariable wird von den Skripten und der Deploy-Konfiguration erwartet | [Datawrapper Account Settings](https://app.datawrapper.de/account/api-tokens), in `.env` des Projekts |
+
+Der Upload ins S3-Bucket erfolgt über eine Bibliotheksfunktion des Projekts; keine Extra-Keys nötig.
+
+## Datenbank
+
+Die SQLite-Datenbank `mastr.db` liegt in `local_storage/klimadashboard/` und wird nach Verarbeitung auf S3 hochgeladen.
+
+**Tabellen aus MaStR** (open-mastr-Schema):
+- `wind_extended`, `solar_extended`, `biomass_extended`, `hydro_extended`,
+  `combustion_extended`, `nuclear_extended`, `gsgk_extended`, `storage_extended`
+
+**Berechnete Tabellen:**
+- `ee_wind_taeglich`: Tägliche Wind-Ausbaudaten pro Lage (onshore/offshore)
+- `ee_solar_taeglich`: Tägliche Solar-Ausbaudaten
+
+## Erweiterbarkeit
+
+Weitere Prozessoren können hinzugefügt werden, die auf denselben Daten in `mastr.db` arbeiten:
+- `msr_biomasse_processor.py`
+- `energiemix_processor.py` (ersetzt energiemix.py mit den Fraunhofer-Daten; erzeugt aktuelle Verlaufsdaten zum Energiemix)
+
+## Energiemix (`src/energiemix.py`)
+
+Monolithischer Scraper, der Daten des [Fraunhofer ISE](https://www.energy-charts.info/?l=de&c=DE) über die API holt, aufarbeitet und auf zwei Datawrapper-Grafiken schiebt.
+
+- **Chart "Erneuerbare-Anteil"** (`n3FOA`): Monatsmittel + Jahresdurchschnitte, 10 Jahre
+- **Chart "Installierte Leistung"** (`p5sHV`): Kapazitäten nach Energieträger
+
+**Weshalb nicht aus dem MaStR?** Dort findet sich die *installierte* Leistung; was aus dieser Kapazität tatsächlich herauskommt, kann man erst im Nachhinein sagen - bzw. mit Modellen und unter Zuhilfenahme anderer Quellen ergänzen. Das tut die Fraunhofer-Plattform.
+
+## Einstiegspunkt
+
+`klimadashboard.py` wird vom zentralen Handler aufgerufen und orchestriert die einzelnen Module.
diff --git a/ddj_cloud/scrapers/klimadashboard/__init__.py b/ddj_cloud/scrapers/klimadashboard/__init__.py
diff --git a/ddj_cloud/scrapers/klimadashboard/klimadashboard.py b/ddj_cloud/scrapers/klimadashboard/klimadashboard.py
@@ -0,0 +1,73 @@
+from pathlib import Path
+
+import pandas as pd
+
+from ddj_cloud.scrapers.klimadashboard.src.energiemix import update_energiemix
+from ddj_cloud.scrapers.klimadashboard.src.msr_dw_display import upload_all as upload_dw_charts
+from ddj_cloud.scrapers.klimadashboard.src.msr_scraper import scrape_mastr
+from ddj_cloud.scrapers.klimadashboard.src.msr_solar_processor import process_solar
+from ddj_cloud.scrapers.klimadashboard.src.msr_wind_processor import process_wind
+from ddj_cloud.utils.storage import (
+    upload_dataframe,
+    upload_file,
+)
+
+VERSION_STRING = "V0.05 vom 13.04.2026"
+
+# mastr.db in local_storage (analog zu anderen Scrapern)
+DB_LOCAL_PATH = Path(__file__).parent.parent.parent.parent / "local_storage" / "klimadashboard" / "mastr.db"
+DB_S3_KEY = "klimadashboard/mastr.db"
+
+
+def _upload_db():
+    """Lädt mastr.db auf S3 hoch."""
+    if not DB_LOCAL_PATH.exists():
+        print("  Warnung: mastr.db nicht gefunden, Upload übersprungen.")
+        return
+    upload_file(
+        DB_LOCAL_PATH.read_bytes(),
+        DB_S3_KEY,
+        archive=False,
+    )
+    size_mb = DB_LOCAL_PATH.stat().st_size / 1024 / 1024
+    print(f"  mastr.db auf S3 hochgeladen ({size_mb:.1f} MB)")
+
+
+def run():
+    # Energiemix (Fraunhofer API)
+    df = update_energiemix()
+    upload_dataframe(df, "klimadashboard/test_energiemix1.csv")
+
+    # MaStR: Scraper, Prozessoren, DB auf S3
+    print("MaStR-Daten aktualisieren...")
+    DB_LOCAL_PATH.parent.mkdir(parents=True, exist_ok=True)
+    counts = scrape_mastr(DB_LOCAL_PATH)
+    total = sum(counts.values())
+    print(f"  MaStR-Scraper: {total} Einheiten geladen")
+
+    # Wind
+    print("Wind-Daten verarbeiten...")
+    df_onshore, df_offshore, wind_summaries = process_wind(DB_LOCAL_PATH)
+    df_wind = pd.concat([df_onshore, df_offshore], ignore_index=True)
+    upload_dataframe(df_wind, "klimadashboard/wind_taeglich.csv")
+    for name, df_summary in wind_summaries.items():
+        upload_dataframe(df_summary, f"klimadashboard/wind_{name}.csv")
+
+    # Solar
+    print("Solar-Daten verarbeiten...")
+    df_solar, solar_summaries = process_solar(DB_LOCAL_PATH)
+    upload_dataframe(df_solar, "klimadashboard/solar_taeglich.csv")
+    for name, df_summary in solar_summaries.items():
+        upload_dataframe(df_summary, f"klimadashboard/solar_{name}.csv")
+
+    # Datawrapper-Charts aktualisieren
+    print("Datawrapper-Charts aktualisieren...")
+    upload_dw_charts(
+        wind_summaries=wind_summaries,
+        solar_summaries=solar_summaries,
+    )
+
+    # DB auf S3 hochladen
+    _upload_db()
+
+    print("MaStR-Daten aktualisiert.")
diff --git a/ddj_cloud/scrapers/klimadashboard/msr_php/Dokumentation MaStR Gesamtdatenexport.pdf b/ddj_cloud/scrapers/klimadashboard/msr_php/Dokumentation MaStR Gesamtdatenexport.pdf
diff --git a/ddj_cloud/scrapers/klimadashboard/msr_php/Tabellenstrukturen.txt b/ddj_cloud/scrapers/klimadashboard/msr_php/Tabellenstrukturen.txt
@@ -0,0 +1,85 @@
+--
+-- Tabellenstruktur für Tabelle `ee_wind`
+-- (Tabelle mit allen WKA-Anlagen)
+--
+
+CREATE TABLE `ee_wind` (
+  `mastrnr_einheit` varchar(32) NOT NULL,
+  `name_einheit` text DEFAULT NULL,
+  `betriebsstatus` text DEFAULT NULL,
+  `bruttoleistung` decimal(10,1) DEFAULT NULL,
+  `nettonennleistung` decimal(10,1) DEFAULT NULL,
+  `datum_inbetriebnahme` date DEFAULT NULL,
+  `datum_registrierung` date DEFAULT NULL,
+  `bundesland` text DEFAULT NULL,
+  `landkreis` mediumtext DEFAULT NULL,
+  `gemeinde` mediumtext DEFAULT NULL,
+  `plz` mediumtext DEFAULT NULL,
+  `ort` mediumtext DEFAULT NULL,
+  `strasse` mediumtext DEFAULT NULL,
+  `hausnummer` mediumtext DEFAULT NULL,
+  `gemarkung` mediumtext DEFAULT NULL,
+  `flurstueck` mediumtext DEFAULT NULL,
+  `gemeindeschluessel` int(11) DEFAULT NULL,
+  `breitengrad` decimal(10,6) DEFAULT NULL,
+  `laengengrad` decimal(10,6) DEFAULT NULL,
+  `name_windpark` mediumtext DEFAULT NULL,
+  `nabenhoehe` decimal(10,2) DEFAULT NULL,
+  `rotordurchmesser` decimal(10,2) DEFAULT NULL,
+  `hersteller_windanlage` mediumtext DEFAULT NULL,
+  `typenbezeichnung` mediumtext DEFAULT NULL,
+  `technologie` mediumtext DEFAULT NULL,
+  `lage_einheit` mediumtext DEFAULT NULL,
+  `letzte_aktualisierung` date DEFAULT NULL,
+  `datum_stilllegung` date DEFAULT NULL,
+  `datum_geplante_inbetriebnahme` date DEFAULT NULL
+) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4 COLLATE=utf8mb4_bin;
+
+--
+-- Indizes für die Tabelle `ee_wind`
+--
+ALTER TABLE `ee_wind`
+  ADD KEY `idx_lage_einheit` (`lage_einheit`(17)),
+  ADD KEY `idx_betriebsstatus` (`betriebsstatus`(25)),
+  ADD KEY `idx_datum_inbetriebnahme` (`datum_inbetriebnahme`),
+  ADD KEY `idx_datum_stilllegung` (`datum_stilllegung`),
+  ADD KEY `idx_datum_geplante_inbetriebnahme` (`datum_geplante_inbetriebnahme`),
+  ADD KEY `idx_lage_status_datum_inbetriebnahme` (`lage_einheit`(17),`betriebsstatus`(25),`datum_inbetriebnahme`),
+  ADD KEY `idx_lage_status_datum_stilllegung` (`lage_einheit`(17),`betriebsstatus`(25),`datum_stilllegung`),
+  ADD KEY `idx_lage_status_datum_geplante_inbetriebnahme` (`lage_einheit`(17),`betriebsstatus`(25),`datum_geplante_inbetriebnahme`),
+  ADD KEY `idx_mastrnr` (`mastrnr_einheit`);
+COMMIT;
+
+
+-------------------------------------------------------------------------------
+
+
+--
+-- Tabellenstruktur für Tabelle `ee_wind_taeglich`
+-- (Tabelle, aus denen ich meine Ausgaben an die Diagramme generiere: Zeitliche Verläufe etc.)
+--
+
+CREATE TABLE `ee_wind_taeglich` (
+  `datum` date NOT NULL,
+  `lage_einheit` text NOT NULL,
+  `installiert_gesamt` text NOT NULL,
+  `installiert_taeglich` text NOT NULL,
+  `geplant_gesamt` text NOT NULL,
+  `geplant_taeglich` text NOT NULL,
+  `noetig_gesamt` text NOT NULL,
+  `noetig_taeglich` text NOT NULL,
+  `stand` date NOT NULL,
+  `installiert_taeglich_wert` float NOT NULL,
+  `geplant_taeglich_wert` float NOT NULL,
+  `noetig_taeglich_wert` float NOT NULL
+) ENGINE=InnoDB DEFAULT CHARSET=utf8mb3 COLLATE=utf8mb3_bin;
+
+
+--
+-- Indizes für die Tabelle `ee_wind_taeglich`
+--
+ALTER TABLE `ee_wind_taeglich`
+  ADD KEY `idx_datum` (`datum`),
+  ADD KEY `idx_lage_einheit` (`lage_einheit`(17));
+COMMIT;
+