LLM-basierte Literaturrecherche zum Ursprung von Stadt, Land, Fluss

Quellen

Berlin State Library (2023). Fulltexts of the Digitized Collections of the Berlin State Library (SBB)
- 4.998.099 Seiten
- 28.909 Werke
- fulltext.sqlite3
Berlin State Library (2023). Metadata of the Digitized Collections of the Berlin State Library (SBB)
- Metadaten zu o.g. Werken
[Fulltext and Metadata of the German Daily Newspaper "Der Tag" (1900-1921)](Fulltext and Metadata of the German Daily Newspaper "Der Tag" (1900-1921))
- evtl.

Vorgehen

LLM-if
- Alle 5M Seiten durchgehen und LLM jeweils entscheiden lassen, ob Inhalt einen Stadt-Land-Fluss-Vorgänger beschreibt
- Aus Ergebnissen von Systematische Literaturrecherche zum Ursprung von Stadt, Land, Fluss valide und invalide Beispiele als ICL-Input bereitstellen
- Im Voraus
  - Detektion of Stichprobe testen
  - Kosten abschätzen
    - ~5,000 Input-Tokens
    - ~25 Output-Tokens
    - ✕200,000
    - Mistral Medium 3.1
      - ((5000*(0.4/1000000))+(25*(2/1000000)))*200000 = 410
    - Mistral Small 3.1 24B
      - ((5000*(0.05/1000000))+(25*(0.1/1000000)))*200000 = 50
    - Mistral Nemo
      - ((5000*(0.02/1000000))+(25*(0.04/1000000)))*200000 = 20
Voll LLM-orchestriert
- MCP-Server für DB bereitstellen
  - https://github.com/executeautomation/mcp-database-server
- LLM frei suchen lassen

Verarbeitungs-Vorbereitung

Daten-Verifikation

Tabelle "text" hat Spalten "id", "file_name", "ppn", "text"
Test mit Mit gegebenen Anfangsbuchſtaben (1882)
- PPN: 745171761
- select count(*) from text where ppn = '745171761';
  - 783
  - → stimmt mit Seitenzahl überein
- select * from text where ppn = '745171761' limit 66;
  - letztes Ergebnis (Seite 66) enthält Text von Mit gegebenen Anfangsbuchſtaben (1882)
  - id: 2290531

Vorbereitung Positiv- und Negativbeispiele

Positiv
- Mit gegebenen Anfangsbuchſtaben (1882)
  - id: 2290531
- Reiſeſpiel (1899)
  - id: 2429526 + 2429577
    - (über Seitenumbruch)
- Mit gegebenen Anfangsbuchſtaben (1905)
  - (id: 3148256)
- Mein Nachbar gefällt mir (1909 a)
  - id: 4969308
- Das ABC der Großen oder das Reiſeſpiel (1909)
  - id: 1608883
- Schreibspiel (1911)
  - id: 1814578
Negativ
- Illustrirtes Spielbuch für Mädchen (1865)
  - id: 3973548
    - „Komplimente nach dem ABC“ involviert nur eine „Kategorie“, daher irrelevant
  - (id: 3973667 „Die Bestimmung nach dem ABC“)
- Spiele zur Uebung und Erholung des Körpers und des Geistes (1878)
  - id: 4191016
    - „Die Bestimmung nach dem ABC“: Buchstabe gegeben durch Gegenstand, gefordert Tätigkeit/Bestimmung. Involviert nur eine „Kategorie“, daher irrelevant
- Das Spiel im Zimmer 1887
  - id: 2110021
    - „Die drei Dinge“: beliebige Wörter (keine Kategorien), daher als irrelevant betrachtet
  - (id: 2109917 „Die Bestimmung nach dem ABC“)
- Großes illustriertes Spielbuch für Mädchen : eine Auswahl der schönsten Spiele, anregender und unterhaltender Beschäftigungen und Belustigungen im Freien und im Zimmer (1900)
  - id: 2948770
    - „Das Freundschafts-ABC“ nur eine „Kategorie“, daher als irrelevant betrachtet
Nicht in DB?
- Mein Nachbar gefällt mir (1836)
  - PPN 766629139
- Das Buch der Spiele und Kunststücke für die fröhliche Jugend (1846)
  - PPN 1818359847

Vorfilter-Test

Spiel
- r"(?<!bei)([sſf]\s?p\s?i\s?e\s?l)", re.I
- 253,472 Seiten ohne Text
- 4,562,036 Seiten ohne Treffer
- 172,591 Seiten mit Treffer
Spiel / Alphabet / Anfangsbuchstabe
- r"(?<!bei)([sſf]\s?p\s?i\s?e\s?l)", re.I
- r"(a\s?l[\s-]?p\s?h\s?a[\s-]?[bß]\s?e\s?t(?!a)|a\s?n[\s-]?[sſf]\s?a\s?n\s?g\s?s[\s-]?[bß]\s?u\s?c\s?h[\s-]?[sſf]\s?t\s?a[\s-]?[bß]\s?e)", re.I
- 253,472 Seiten ohne Text
- 4,532,390 Seiten ohne Treffer
- 202,237 Seiten mit Treffer

Spiel / Alphabet / Anfangsbuchstabe optimiert

Regex

"""
(?<!be[iy])
(?<!kirch)
(?<!schau)
(?<!gl[üu]cks)
(?<!gl[üu]ck)
(?<!kost)
(?<!lust)
(?<!hazard)
(?<!karten)
(?<!sing)
(?<!ball)
(?<!vor)
(?<!gast)
(?<!orgel)
(?<!schach)
(?<!taschen)
(?<!würfel)
(?<!marionetten)
(?<!puppen)
(?<!fest)
(?<!licht)
(?<!aus)
(?<!rolle\s)
([sſf]\s?p\s?i\s?e\s?l)
(?!zeug)
(?!war)
(?!raum)
(?!kart)
(?!tisch)
""", re.I | re.X

r"""
(
a\s?l[\s-]?p\s?h\s?a[\s-]?[bß]\s?e\s?t
(?!a)
(?!isch\sge)
(?!isches\sreg)
(?!isches\sver)
(?!ischer\sord)
|
a\s?n[\s-]?[sſf]\s?a\s?n\s?g\s?s[\s-]?[bß]\s?u\s?c\s?h[\s-]?[sſf]\s?t\s?a[\s-]?[bß]\s?e
)
""", re.I | re.X

253,472 Seiten ohne Text
4,596,378 Seiten ohne Treffer
138,249 valid Seiten mit Treffer

LLM-Tests

Mistral Nemo
- hält sich nicht an Anweisungen
Mistral Small 3.1 24B
- scheint zu funktionieren
Google Gemini 2.5 Flash Lite
- solala, nennt Antworten als Kategorien
GPT-4.1 Nano
- falsch-negative Antwort in erstem Test
DeepSeek R1 Distill Llama 70B
- würde Kapazität für Reasoning-Tokens beanspruchen

Ergebnis in Zahlen

Seiten
- fulltext.sqlite3
  - → 4.998.099
- Ohne Text: 253.472
  - → 4.734.627
- Text kürzer als 250 Zeichen: 173.034
  - → 4.561.593
- Stichwort-Filter Spiel / Alphabet / Anfangsbuchstabe: 4.423.795
  - → 138.249
- LLM-Kategorisierung
  - → 139
- Manuelle Überprüfung
  - → 22 (2 ICL, 8 bekannt, 12 neu)
Klassifikation
- 2 ICL-Texte ausgeschlossen
- 20 korrekt-positive (TP)
- 117 falsch-positive (FP)
- Genauigkeit (precision)
  - 20/20+117 = 0.15
- Trefferquote (recall)
  - Von LLM als nicht relevant klassifizierte 138,110 nicht manuell geprüft, daher keine Zahl für falsch-negative Klassifikationen und somit Trefferquote nicht bestimmbar. Bei niedriger Genauigkeit (0.15), sprich zu freizügiger Klassifikation als relevant, aber vermutlich eher hoch als tief.
LLM
- 66.59 $
- 670M Tokens
  - 667M Prompt
  - 2.65M Completion

Neue Funde (DB ID, PPN, Seite)

(2109991, 745139965, 00000065.xml)
- Mein Nachbar gefällt mir (1887)
(2109991, 745139965, 00000070.xml)
- Die Poſt (1887)
~~(2109991, 745139965, 00000111.xml)~~
- ~~Die vier Wortklaſſen (1887)~~
(1121138, 74518166X, 00000740.xml)
- Mein Nachbar gefällt mir (1911)
(4507196, 74518961X, 00000094.xml)
- Die Poſt (1894)
(1380111, 745280099, 00000110.xml)
- The Holiday ABC (1910)
(908229, 745605478, 00000115.xml)
- Steeple-Chase (1887)
(4800020, 745725198, 00000048.xml)
- Das Handel-Bandel-Spiel (1911)
(4702942, 745861873, 00000732.xml)
- Das ABC-Spiel (1874)
(3696366, 746238983, 00000336.xml)
- Die Handlungsreisenden (1890)
(3696347, 746238983, 00000345.xml)
- Das Fünfminutenſpiel (1890)
(948114, 746636121, 00000309.xml)
- Mein Nachbar gefällt mir (1879)
(2431996, 767214722, 00000203.xml)
- Le Logement (1860)