Enthält: Projektkontext, Epochen, Sprachen, Regionen, Korrespondenz-Netzwerk, LLM-Einschätzung. Wird bei jedem LLM-Call als System-Prompt mitgeschickt.
Explizite Anweisung an Claude: IMMER den Kandidaten bevorzugen der geographisch zum Netzwerk passt. Antike Ortsnamen = literarische Referenzen.
Extrahiert aus <correspAction>: Sender, Empfänger, Absende-/Empfangsorte. Wirkungsorte aus Register-Personen. Ergibt die reale Geographie.
<persName type="alt">Ἠχώ</persName> → Suche in WD + GND mit allen Namensformen.<birth when="1544"/> → +0.15 Boost bei Match, Anachronismus-Check bei Mismatch.Stark (+0.15): Burg, Kloster, Theologe, Universität...
Phrase (+0.12): "Kreis Neuss", "Burg Friedberg"
Jahr (+0.08): 1171, 1530
Normal (+0.03): ≥5 Zeichen, kein Stopwort
Stopwörter gefiltert: erstmals, erwähnt, gehörte...
LOBID kann falsche Wikidata-IDs liefern (z.B. Pseudo-Aristoteles Q1783131 statt Q868). Fix: Niedrigste Q-Nummer + direkte Verifikation gegen Wikidata-Suche.
Person: birth/death, occupation, floruit
Ort: Qualifier (Burg/Kirche/Fluss), location, district
Org: Qualifier (Universität/Zunft/Bistum), Gründungsdaten, Sitz
Quelltext-Kontext: "...Rhodomanus Echoni Nymphae dedicavit carmina..." — hilft Claude zu verstehen dass Echo eine mythologische Nymphe ist, nicht ein Musikpreis.
5 Entities pro Batch. Anthropic Batch API (50% Rabatt). 3-Stufen JSON-Parser für truncierte Antworten.
System: Corpus-Profil + Geo-Disambiguierung + Entity-Typ-Hinweise
User: Name, Typ, Alt-Namen, Lebensdaten, Amt/Beruf, Register-Notiz, Quelltext-Kontext, Top-3-Kandidaten
{"idx":1, "verdict":"MATCH", "best":1, "confidence":0.95, "reason":"...", "modern_name":"Aldekerk"}
Mythologische Figuren → SubjectHeading gültig.
NIEMALS moderne Personen für historische Begriffe.
Antike Ortsnamen = literarische Referenzen.
Phase 1.7 behandelt Entities ohne Kandidaten (kein API-Treffer). Phase 2.7 behandelt Entities mit Kandidaten, die aber alle vom LLM abgelehnt wurden — hier könnte eine Schreibweisen-Variante den richtigen Treffer bringen.
resp="#tei-ner-pipeline" cert="high|medium|low" an jedem generierten Element. Editorische Einträge (ohne @resp) sofort erkennbar.Wenn GND-Match keine Wikidata-ID hat:
Stufe 1: Vorhandene Kandidaten durchsuchen — Q207368 war schon in den Kandidaten, kostet $0.
Stufe 2: Alt-Namen in Wikidata suchen — "Ἠχώ" findet Q207368 auch wenn "Echo" zu mehrdeutig ist.
Stufe 3: Direkte Suche mit Match-Label (Fallback).
Jede Stufe hat Anachronismus-Check + Domänen-Abgleich.
<respStmt xml:id="tei-ner-pipeline"> mit Methode, Modell, Datum, Schwellenwerten. Automatisch eingefügt.
≥0.85 → cert="high"
0.65–0.84 → cert="medium" (Review empfohlen)
<0.65 → cert="low" (manuell prüfen)
//idno[@resp] → Tool-Einträge
//idno[not(@resp)] → Editorische
//idno[@cert='medium'] → Review-Kandidaten
Interaktiver Report mit: Suchfeld, Filter-Buttons (Status + Entity-Typ), sortierbare Spalten, klickbare GND/Wikidata-Links, Konflikte rot hervorgehoben, Confidence-Badges. Nachträglich erzeugbar mit python3 -m src.html_reporter.
periodOfActivity: 2017- → 2017 > Korpus 1606 + 100<idno type="GND" resp="#tei-ner-pipeline" cert="high">121852881</idno><idno type="Wikidata" resp="#tei-ner-pipeline" cert="medium">Q207368</idno>