@@ -1204,12 +1204,31 @@ jobs:
12041204 _to_drop.append(ip)
12051205 continue
12061206 # 2) Aufnahme-Filter: >= 2 Feeds gesamt ODER hq ODER community_report
1207+ # ODER auto_feed_discovery (siehe FIX BUG-AUTOFEED-DROP unten)
12071208 feeds = data.get("feeds", [])
12081209 if not isinstance(feeds, list):
12091210 _corrupt_dropped += 1
12101211 _to_drop.append(ip)
12111212 continue
1212- if not (len(feeds) >= 2 or data.get("hq") or "community_report" in feeds):
1213+ # FIX BUG-AUTOFEED-DROP: 'auto_feed_discovery' als Single-Feed-Bypass.
1214+ # Vorher: Eine durch auto_feed_discovery (wöchentlich, So 04:37 UTC)
1215+ # neu eingetragene IP hat zunaechst nur feeds=["auto_feed_discovery"]
1216+ # (len=1, kein hq, kein community_report). Sie ueberlebt den Aufnahme-
1217+ # Filter nur dann, wenn der naechste combined-Lauf den entsprechenden
1218+ # auto-discovered Feed erfolgreich abruft und einen zweiten Feed-
1219+ # Namen hinzufuegt. Faellt dieser Fetch beim ersten combined-Lauf
1220+ # nach So 04:37 aus (GitHub-raw-404-Bug, Timeout, 5xx), wird die IP
1221+ # geloescht und kommt erst die naechste Woche wieder zurueck.
1222+ # In den 4,76M Eintraegen der echten seen_db sehen wir 0 IPs mit
1223+ # nur ["auto_feed_discovery"] – exakt das Symptom des sofortigen
1224+ # Loeschens nach Feed-Ausfall. Fix: solche IPs ueberleben den
1225+ # Aufnahme-Filter, bis combined den auto-discovered Feed wieder
1226+ # erreicht. Risiko gering, weil auto_feed_discovery selbst strenge
1227+ # Validierung anwendet (FP-Rate <5%, HQ-Overlap >=20% oder >=50,
1228+ # Format-Qualitaet >=30%, Repo-Aktualitaet <=30 Tage, Groesse
1229+ # 100-500k IPs).
1230+ if not (len(feeds) >= 2 or data.get("hq") or "community_report" in feeds
1231+ or "auto_feed_discovery" in feeds):
12131232 aufnahme_removed += 1
12141233 _to_drop.append(ip)
12151234 continue
0 commit comments