five

Potsdamer Zeitungskorpus - diachron

收藏
DataCite Commons2025-02-10 更新2025-04-15 收录
下载链接:
https://fdat.uni-tuebingen.de/records/crpb9-vpr31
下载链接
链接失效反馈
官方服务:
资源简介:
Das Potsdamer Zeitungskorpus ist eine diachrone Dependenzbaumbank, die sowohl Informationen zu den Lemmata und Wortarten als auch ausgewählte Dependenzrelationen der Universal Dependencies enthält. Das annotierte Korpus umfasst Zeitungstexte in strukturierter Auswahl, die in der Zeit von 1600 bis 1950 in unterschiedlichen Regionen Deutschlands publiziert wurden. Insgesamt hat es einen Umfang von 188.917 Wortformen, die sich auf 7.163 Sätze verteilen. Die  Annotation von Lemmata und Wortarten erfolgte semi-automatisch: Nach der manuellen Segmentierung der Ganzsätze wurde mithilfe der Stanford Natural Language Processing Software  zunächst automatisch das Lemma-Tagging und Part-of-Speech-Tagging vorgenommen. Anschließend wurden fehlerhafte Annotationen auf Wortebene manuell korrigiert. Die Annotation der Dependenzrelationen wurde im Double-Keying-Verfahren ebenfalls manuell erstellt. Der Aufbau der Baumbank wurde im Rahmen des Teilprojekts C06 im SFB 1287 Limits of Variability in Language von der Deutschen Forschungsgemeinschaft gefördert (Projektnummer 317633480).
提供机构:
University of Tübingen
创建时间:
2025-02-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作