five

Apokalyptikon/tei-ner-gazetteer

收藏
Hugging Face2026-04-05 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/Apokalyptikon/tei-ner-gazetteer
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-sa-4.0 language: - de - la - en - fr tags: - digital-humanities - TEI - entity-linking - historical-names - authority-data - GND - Wikidata size_categories: - 1M<n<10M --- # TEI-NER Gazetteer: Persons & Places Externe Normdaten-Datenbanken fuer die [TEI-NER-Pipeline](https://git.uni-wuppertal.de/makowski/tei-llm-stack) -- automatisches Entity-Linking fuer historische TEI-Editionen. ## Dateien | Datei | Eintraege | Groesse | Inhalt | |-------|-----------|---------|--------| | `persons.db` | ~6,5M | ~7 GB | Personen mit GND/Wikidata-IDs, Namensvarianten, Lebensdaten | | `Places.db` | ~524K | ~936 MB | Orte mit Wikidata-IDs, historischen Schreibweisen, Koordinaten | ## Datenquellen - **Wikidata** (CC0): Labels, Aliase, P1448 (official name), P1705 (native label), Koordinaten - **GND/LOBID** (CC0): Normdaten der Deutschen Nationalbibliothek - **Wikipedia** (CC BY-SA 4.0): Historische Ortsnamen aus Geschichtsartikeln (Regex + LLM-Extraktion) - **GenWiki** (CC BY-SA): Urkundliche Belege historischer Ortsnamen ## Verwendung Die Datenbanken werden von der TEI-NER-Pipeline als Preload-Cache und Lookup-Quelle verwendet: ```python # In der Pipeline (normdaten_lookup.py) # Places.db wird vor der Wikidata/GND-API konsultiert # persons.db beschleunigt Phase 1 um ~70% ``` ### Download ```bash pip install huggingface_hub huggingface-cli download Apokalyptikon/tei-ner-gazetteer --local-dir ./shared-data/cache/ ``` ## Format Beide Dateien sind **SQLite-Datenbanken**. Schema-Details siehe die Dokumentation der TEI-NER-Pipeline. ## Lizenz CC BY-SA 4.0 (aufgrund der Wikipedia-Extrakte, die unter CC BY-SA stehen). ## Autor Stephan Makowski, Lehrstuhl fuer Digital Humanities, Bergische Universitaet Wuppertal
提供机构:
Apokalyptikon
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作