Quellen
Vorgehen
- LLM-if
- Alle 5M Seiten durchgehen und LLM jeweils entscheiden lassen, ob
Inhalt einen Stadt-Land-Fluss-Vorgänger beschreibt
- Aus Ergebnissen von Systematische
Literaturrecherche zum Ursprung von Stadt, Land, Fluss valide und
invalide Beispiele als ICL-Input bereitstellen
- Im Voraus
- Detektion of Stichprobe testen
- Kosten abschätzen
- ~5,000 Input-Tokens
- ~25 Output-Tokens
- ✕200,000
- Mistral Medium 3.1
((5000*(0.4/1000000))+(25*(2/1000000)))*200000 = 410
- Mistral Small 3.1 24B
((5000*(0.05/1000000))+(25*(0.1/1000000)))*200000 = 50
- Mistral Nemo
((5000*(0.02/1000000))+(25*(0.04/1000000)))*200000 = 20
- Voll LLM-orchestriert
- MCP-Server für DB bereitstellen
- LLM frei suchen lassen
Verarbeitungs-Vorbereitung
Daten-Verifikation
- Tabelle "text" hat Spalten "id", "file_name", "ppn", "text"
- Test mit Mit
gegebenen Anfangsbuchſtaben (1882)
- PPN: 745171761
select count(*) from text where ppn = '745171761';
- → stimmt mit Seitenzahl überein
select * from text where ppn = '745171761' limit 66;
Vorbereitung Positiv- und Negativbeispiele
- Positiv
- Negativ
- Nicht in DB?
Vorfilter-Test
- Spiel
r"(?<!bei)([sſf]\s?p\s?i\s?e\s?l)", re.I
- 253,472 Seiten ohne Text
- 4,562,036 Seiten ohne Treffer
- 172,591 Seiten mit Treffer
- Spiel / Alphabet / Anfangsbuchstabe
r"(?<!bei)([sſf]\s?p\s?i\s?e\s?l)", re.I
r"(a\s?l[\s-]?p\s?h\s?a[\s-]?[bß]\s?e\s?t(?!a)|a\s?n[\s-]?[sſf]\s?a\s?n\s?g\s?s[\s-]?[bß]\s?u\s?c\s?h[\s-]?[sſf]\s?t\s?a[\s-]?[bß]\s?e)", re.I
- 253,472 Seiten ohne Text
- 4,532,390 Seiten ohne Treffer
- 202,237 Seiten mit Treffer
- Spiel / Alphabet / Anfangsbuchstabe optimiert
- Regex
"""
(?<!be[iy])
(?<!kirch)
(?<!schau)
(?<!gl[üu]cks)
(?<!gl[üu]ck)
(?<!kost)
(?<!lust)
(?<!hazard)
(?<!karten)
(?<!sing)
(?<!ball)
(?<!vor)
(?<!gast)
(?<!orgel)
(?<!schach)
(?<!taschen)
(?<!würfel)
(?<!marionetten)
(?<!puppen)
(?<!fest)
(?<!licht)
(?<!aus)
(?<!rolle\s)
([sſf]\s?p\s?i\s?e\s?l)
(?!zeug)
(?!war)
(?!raum)
(?!kart)
(?!tisch)
""", re.I | re.X
r"""
(
a\s?l[\s-]?p\s?h\s?a[\s-]?[bß]\s?e\s?t
(?!a)
(?!isch\sge)
(?!isches\sreg)
(?!isches\sver)
(?!ischer\sord)
|
a\s?n[\s-]?[sſf]\s?a\s?n\s?g\s?s[\s-]?[bß]\s?u\s?c\s?h[\s-]?[sſf]\s?t\s?a[\s-]?[bß]\s?e
)
""", re.I | re.X
- 253,472 Seiten ohne Text
- 4,596,378 Seiten ohne Treffer
- 138,249 valid Seiten mit Treffer
LLM-Tests
- Mistral Nemo
- hält sich nicht an Anweisungen
- Mistral Small 3.1 24B
- Google Gemini 2.5 Flash Lite
- solala, nennt Antworten als Kategorien
- GPT-4.1 Nano
- falsch-negative Antwort in erstem Test
- DeepSeek R1 Distill Llama 70B
- würde Kapazität für Reasoning-Tokens beanspruchen
Ergebnis in Zahlen
- Seiten
fulltext.sqlite3
- Ohne Text: 253.472
- Text kürzer als 250 Zeichen: 173.034
- Stichwort-Filter Spiel / Alphabet / Anfangsbuchstabe: 4.423.795
- LLM-Kategorisierung
- Manuelle Überprüfung
- → 22 (2 ICL, 8 bekannt, 12 neu)
- Klassifikation
- 2 ICL-Texte ausgeschlossen
- 20 korrekt-positive (TP)
- 117 falsch-positive (FP)
- Genauigkeit (precision)
- Trefferquote (recall)
- Von LLM als nicht relevant klassifizierte 138,110 nicht manuell
geprüft, daher keine Zahl für falsch-negative Klassifikationen und somit
Trefferquote nicht bestimmbar. Bei niedriger Genauigkeit (0.15), sprich
zu freizügiger Klassifikation als relevant, aber vermutlich eher hoch
als tief.
- LLM
- 66.59 $
- 670M Tokens
- 667M Prompt
- 2.65M Completion
Neue Funde (DB ID, PPN, Seite)
- (2109991, 745139965, 00000065.xml)
- (2109991, 745139965, 00000070.xml)
(2109991, 745139965, 00000111.xml)
- (1121138, 74518166X, 00000740.xml)
- (4507196, 74518961X, 00000094.xml)
- (1380111, 745280099, 00000110.xml)
- (908229, 745605478, 00000115.xml)
- (4800020, 745725198, 00000048.xml)
- (4702942, 745861873, 00000732.xml)
- (3696366, 746238983, 00000336.xml)
- (3696347, 746238983, 00000345.xml)
- (948114, 746636121, 00000309.xml)
- (2431996, 767214722, 00000203.xml)