Scraper: fetch_wiki_images striktere Bildfilterung (kein PDF/Stadtfoto/Dokument)

2026-04-25 09:19:15 +02:00 · 2026-04-25 09:19:15 +02:00 · fc4cfcf19b
commit fc4cfcf19b
parent 93ea8a69fd
1 changed files with 54 additions and 7 deletions
--- a/backend/scraper/fetch_wiki_images.py
+++ b/backend/scraper/fetch_wiki_images.py
@ -37,9 +37,11 @@ _WP_HEADERS = {
 }
 _THUMB_SIZE = 600

+# Nur diese Bildformate akzeptieren
+_VALID_EXTENSIONS = (".jpg", ".jpeg", ".png", ".webp")
+
 # Dateinamen-Fragmente, die auf unbrauchbare Bilder hindeuten
 _SKIP_PATTERNS = (
-    ".svg",
    "flag_of_",
    "coat_of_arms",
    "emblem_of_",
@ -57,6 +59,35 @@ _SKIP_PATTERNS = (
    "_icon",
    "logo_",
    "_logo",
+    # Historische Dokumente / Bücher / Karten
+    "_survey_",
+    "_register_",
+    "_magazine_",
+    "_journal_",
+    "_bulletin_",
+    "_catalogue_",
+    "_glossaire_",
+    "_aarbog_",
+    "_museum_",
+    "_tales_",
+    "_history_",
+    "_stories_",
+    "_inn_",
+    "curiosities",
+    "viviparous",
+    "quadrupeds",
+    # Geo / Städte
+    "spain.jpg",
+    "italy.jpg",
+    "france.jpg",
+    "germany.jpg",
+    "austria.jpg",
+    "map_of_",
+    # Militär / Dokumente
+    "military_working",
+    "mod_45",
+    "federal_register",
+    "prairie_dog",   # ist kein Hund
 )

 # Suffixe die beim Normalisieren abgeschnitten werden
@ -64,9 +95,21 @@ _BREED_SUFFIXES = (" dog", " hound", " terrier", " spaniel", " shepherd")


 def _is_usable(url: str) -> bool:
+    """Gibt True zurück wenn die URL eine brauchbare Hundebild-URL ist."""
    low = url.lower()
-    if low.endswith(".svg"):
+
+    # Nur echte Bildformate — keine PDFs, DjVu, Karten etc.
+    # Prüfe gegen den Dateinamen (nach dem letzten /)
+    fname = low.split("/")[-1].split("?")[0]
+    # Bei Thumbnail-URLs: Originaldatei-Endung extrahieren
+    # z.B. "960px-foo.jpg" → ".jpg"  |  "page1-500px-foo.pdf.jpg" → ablehnen
+    if ".pdf" in fname or ".djvu" in fname or ".svg" in fname:
        return False
+    if not any(fname.endswith(ext) or (ext + "/") in low for ext in _VALID_EXTENSIONS):
+        # Manchmal ist die Extension mitten in der URL (Thumbnail-Pfad)
+        if not any(ext in low for ext in _VALID_EXTENSIONS):
+            return False
+
    for pattern in _SKIP_PATTERNS:
        if pattern in low:
            return False
@ -196,7 +239,9 @@ async def _commons_search(query: str, client: httpx.AsyncClient) -> str | None:
        pages = resp2.json().get("query", {}).get("pages", {})

        # Trefferqualität: bevorzuge Bilder die den Suchbegriff im Dateinamen haben
-        query_lower = query.lower().replace(" ", "_")
+        # und lehne Treffer ab die keine Hundbezug haben
+        query_words = [w for w in query.lower().split() if len(w) > 3]
+        best_score  = -1
        best: str | None = None

        for page in pages.values():
@ -207,12 +252,14 @@ async def _commons_search(query: str, client: httpx.AsyncClient) -> str | None:
                if not thumb or not _is_usable(thumb):
                    continue
                fname = urllib.parse.unquote(thumb).lower()
-                if query_lower in fname and best is None:
+                # Score: wie viele Suchbegriff-Wörter sind im Dateinamen?
+                score = sum(1 for w in query_words if w in fname)
+                if score > best_score:
+                    best_score = score
                    best = thumb
-                elif best is None:
-                    best = thumb  # Fallback: erster brauchbarer Treffer

-        return best
+        # Mindestens 1 Wort des Suchbegriffs muss im Dateinamen vorkommen
+        return best if best_score >= 1 else None

    except Exception as exc:
        logger.debug("Commons search (%s): %s", query, exc)