Apokalyptikon/tei-ner-gazetteer
收藏Hugging Face2026-04-05 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/Apokalyptikon/tei-ner-gazetteer
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-sa-4.0
language:
- de
- la
- en
- fr
tags:
- digital-humanities
- TEI
- entity-linking
- historical-names
- authority-data
- GND
- Wikidata
size_categories:
- 1M<n<10M
---
# TEI-NER Gazetteer: Persons & Places
Externe Normdaten-Datenbanken fuer die [TEI-NER-Pipeline](https://git.uni-wuppertal.de/makowski/tei-llm-stack) -- automatisches Entity-Linking fuer historische TEI-Editionen.
## Dateien
| Datei | Eintraege | Groesse | Inhalt |
|-------|-----------|---------|--------|
| `persons.db` | ~6,5M | ~7 GB | Personen mit GND/Wikidata-IDs, Namensvarianten, Lebensdaten |
| `Places.db` | ~524K | ~936 MB | Orte mit Wikidata-IDs, historischen Schreibweisen, Koordinaten |
## Datenquellen
- **Wikidata** (CC0): Labels, Aliase, P1448 (official name), P1705 (native label), Koordinaten
- **GND/LOBID** (CC0): Normdaten der Deutschen Nationalbibliothek
- **Wikipedia** (CC BY-SA 4.0): Historische Ortsnamen aus Geschichtsartikeln (Regex + LLM-Extraktion)
- **GenWiki** (CC BY-SA): Urkundliche Belege historischer Ortsnamen
## Verwendung
Die Datenbanken werden von der TEI-NER-Pipeline als Preload-Cache und Lookup-Quelle verwendet:
```python
# In der Pipeline (normdaten_lookup.py)
# Places.db wird vor der Wikidata/GND-API konsultiert
# persons.db beschleunigt Phase 1 um ~70%
```
### Download
```bash
pip install huggingface_hub
huggingface-cli download Apokalyptikon/tei-ner-gazetteer --local-dir ./shared-data/cache/
```
## Format
Beide Dateien sind **SQLite-Datenbanken**. Schema-Details siehe die Dokumentation der TEI-NER-Pipeline.
## Lizenz
CC BY-SA 4.0 (aufgrund der Wikipedia-Extrakte, die unter CC BY-SA stehen).
## Autor
Stephan Makowski, Lehrstuhl fuer Digital Humanities, Bergische Universitaet Wuppertal
提供机构:
Apokalyptikon



