TEI-NER-Pipeline — Workflow

PHASE 0

Corpus-Profiler

$0 · lokal

Analysiert das gesamte Korpus und erzeugt einen optimierten System-Prompt für die LLM-Verifikation. Spracherkennung, Epochen, Regionen, Korrespondenz-Netzwerk.

36 Sprachen

26 Epochen

Regionen (2-Stufen)

Korrespondenz-Netzwerk

LLM-Analyse (optional)

▸ Details

OUTPUT: SYSTEM-PROMPT

Enthält: Projektkontext, Epochen, Sprachen, Regionen, Korrespondenz-Netzwerk, LLM-Einschätzung. Wird bei jedem LLM-Call als System-Prompt mitgeschickt.

GEO-DISAMBIGUIERUNG

Explizite Anweisung an Claude: IMMER den Kandidaten bevorzugen der geographisch zum Netzwerk passt. Antike Ortsnamen = literarische Referenzen.

KORRESPONDENZ-NETZWERK

Extrahiert aus <correspAction>: Sender, Empfänger, Absende-/Empfangsorte. Wirkungsorte aus Register-Personen. Ergibt die reale Geographie.

PHASE 1

Register lesen & Normdaten suchen

$0 · API

Liest alle Metadaten aus dem Register, sucht Kandidaten in Wikidata und GND, führt Anachronismus-Filter und Disambiguierung durch.

Preload-Cache (SPARQL-Batch)

Externe DBs (6,5M+524K)

Name + Alt-Namen

<persName type="alt">Ἠχώ</persName> → Suche in WD + GND mit allen Namensformen.

Note / Desc

Lebensdaten

<birth when="1544"/> → +0.15 Boost bei Match, Anachronismus-Check bei Mismatch.

Qualifier-Erkennung

Wikidata + GND Suche

Anachronismus-Filter

Domänen-Boost

Namens-Überlappung

SubjectHeading Fallback

Note-qualifizierte Suche

▸ Details

NOTE-KEYWORD-GEWICHTUNG

Stark (+0.15): Burg, Kloster, Theologe, Universität...
Phrase (+0.12): "Kreis Neuss", "Burg Friedberg"
Jahr (+0.08): 1171, 1530
Normal (+0.03): ≥5 Zeichen, kein Stopwort
Stopwörter gefiltert: erstmals, erwähnt, gehörte...

LOBID-KORREKTUR

LOBID kann falsche Wikidata-IDs liefern (z.B. Pseudo-Aristoteles Q1783131 statt Q868). Fix: Niedrigste Q-Nummer + direkte Verifikation gegen Wikidata-Suche.

DREI ENTITY-TYPEN

Person: birth/death, occupation, floruit
Ort: Qualifier (Burg/Kirche/Fluss), location, district
Org: Qualifier (Universität/Zunft/Bistum), Gründungsdaten, Sitz

PHASE 1.5

Kontext aus Quelltexten

$0 · lokal

Sucht jeden Entity-Namen in den TEI-Quelltexten und extrahiert Textumgebungen als Kontext für die LLM-Verifikation.

Context-Harvester

▸ Details

WAS CLAUDE SIEHT

Quelltext-Kontext: "...Rhodomanus Echoni Nymphae dedicavit carmina..." — hilft Claude zu verstehen dass Echo eine mythologische Nymphe ist, nicht ein Musikpreis.

PHASE 1.7

Historische Schreibweisen

~$0.10 · LLM

Entities ohne Normdaten-Treffer werden per LLM auf historische Schreibweisen geprüft. Claude erkennt z.B. "Alderkyrchen" → "Aldekerk".

Schreibweisen-Erkennung

Nachsuche mit modernem Namen

▸ Details

BATCH-VERARBEITUNG

5 Entities pro Batch. Anthropic Batch API (50% Rabatt). 3-Stufen JSON-Parser für truncierte Antworten.

PHASE 2

LLM-Verifikation

~$0.10–0.80 · Gemini/Claude

LLM prüft jeden Kandidaten gegen Register-Daten, Quelltext-Kontext und Corpus-Profil. Vergibt MATCH / PARTIAL / NONE mit Begründung. PARTIAL-Fallback: Auto-Link bei GND-Confidence ≥0.70. Type Enforcement: Entity-Typ vom Editor ist nicht verhandelbar.

Gemma 4 / Gemini 2.5 Flash / Claude

Register-Notiz im Prompt

Lebensdaten im Prompt

Geo-Disambiguierung

Robuster JSON-Parser

▸ Details

WAS CLAUDE BEKOMMT

System: Corpus-Profil + Geo-Disambiguierung + Entity-Typ-Hinweise
User: Name, Typ, Alt-Namen, Lebensdaten, Amt/Beruf, Register-Notiz, Quelltext-Kontext, Top-3-Kandidaten

WAS CLAUDE ANTWORTET

{"idx":1, "verdict":"MATCH", "best":1, "confidence":0.95, "reason":"...", "modern_name":"Aldekerk"}

ENTITY-TYP-ANWEISUNGEN

Mythologische Figuren → SubjectHeading gültig.
NIEMALS moderne Personen für historische Begriffe.
Antike Ortsnamen = literarische Referenzen.

PHASE 2.7

Spelling-Recovery

~$0.05 · LLM

VERIFIED_NONE-Entities, bei denen Kandidaten vorhanden waren aber alle abgelehnt wurden, werden erneut per Schreibweisen-Analyse geprüft. Rettet Einträge mit historischen Namensvarianten.

Spelling Post-Processing

Nachsuche + Re-Verifikation

▶ Details

UNTERSCHIED ZU PHASE 1.7

Phase 1.7 behandelt Entities ohne Kandidaten (kein API-Treffer). Phase 2.7 behandelt Entities mit Kandidaten, die aber alle vom LLM abgelehnt wurden — hier könnte eine Schreibweisen-Variante den richtigen Treffer bringen.

PHASE 4

XML schreiben & Kreuzreferenz

$0 · lokal

Schreibt verifizierte IDs ins XML mit Provenienz-Attributen. Editorische IDs werden nie überschrieben. Kreuzreferenz ergänzt fehlende WD/GND-IDs.

@resp + @cert

resp="#tei-ner-pipeline" cert="high|medium|low" an jedem generierten Element. Editorische Einträge (ohne @resp) sofort erkennbar.

Editorische ID-Schutz

Kreuzreferenz (3-Stufen)

LOBID-Verifikation

Auto-Link (≥0.90)

Editorial Conflict Report

--crossref-editorial

HTML-Report

▸ Details

KREUZREFERENZ: 3-STUFEN-STRATEGIE

Wenn GND-Match keine Wikidata-ID hat:
Stufe 1: Vorhandene Kandidaten durchsuchen — Q207368 war schon in den Kandidaten, kostet $0.
Stufe 2: Alt-Namen in Wikidata suchen — "Ἠχώ" findet Q207368 auch wenn "Echo" zu mehrdeutig ist.
Stufe 3: Direkte Suche mit Match-Label (Fallback).
Jede Stufe hat Anachronismus-Check + Domänen-Abgleich.

PROVENIENZ IM TEI-HEADER

<respStmt xml:id="tei-ner-pipeline"> mit Methode, Modell, Datum, Schwellenwerten. Automatisch eingefügt.

CONFIDENCE → CERT MAPPING

≥0.85 → cert="high"
0.65–0.84 → cert="medium" (Review empfohlen)
<0.65 → cert="low" (manuell prüfen)

XPATH-FILTRIERBAR

//idno[@resp] → Tool-Einträge
//idno[not(@resp)] → Editorische
//idno[@cert='medium'] → Review-Kandidaten

HTML-REPORT

Interaktiver Report mit: Suchfeld, Filter-Buttons (Status + Entity-Typ), sortierbare Spalten, klickbare GND/Wikidata-Links, Konflikte rot hervorgehoben, Confidence-Badges. Nachträglich erzeugbar mit python3 -m src.html_reporter.

TEI-NER Pipeline

OUTPUT: SYSTEM-PROMPT

GEO-DISAMBIGUIERUNG

KORRESPONDENZ-NETZWERK

NOTE-KEYWORD-GEWICHTUNG

LOBID-KORREKTUR

DREI ENTITY-TYPEN

WAS CLAUDE SIEHT

BATCH-VERARBEITUNG

WAS CLAUDE BEKOMMT

WAS CLAUDE ANTWORTET

ENTITY-TYP-ANWEISUNGEN

UNTERSCHIED ZU PHASE 1.7

KREUZREFERENZ: 3-STUFEN-STRATEGIE

PROVENIENZ IM TEI-HEADER

CONFIDENCE → CERT MAPPING

XPATH-FILTRIERBAR

HTML-REPORT