dlexDB – annotated lexical data

NIAID Data Ecosystem2026-05-02 收录

下载链接：

https://zenodo.org/record/15097663

下载链接

链接失效反馈

官方服务：

资源简介：

Dieser Datensatz enthält die im Projekt dlexDB erhobenen und annotierten lexikalischen Daten. Das Projekt dlexDB wurde von der Deutschen Forschungsgemeinschaft (DFG) unter der Fördernummer 206617755 gefördert (KL 955/12-1 und KL 955/19-1), um eine umfassende lexikalische Datenbank für die psychologische und linguistische Forschung zu erstellen. Dabei handelte es sich um ein Projekt der Professuren für allgemeine Psychologie 1 und theoretische Computerlinguistik an der Universität Potsdam sowie dem Projekt Digitales Wörterbuch der deutschen Sprache (DWDS) an der Berlin-Brandenburgischen Akademie der Wissenschaften. Die Datenbank basiert auf dem Kernkorpus der deutschen Sprache des 20. Jahrhunderts, das vom DWDS zusammengestellt wurde. Der Datensatz umfasst statistische Kennwerte und Häufigkeitsinformationen zu Types, Lemmata, Silben und Zeichen. Die Daten sind in mehreren TSV-Dateien (tabseparierte Werte) organisiert, wobei jede Datei einer spezifischen Tabelle entspricht. Zusätzlich wird eine umfassende Dokumentation im Markdown-Format bereitgestellt, die detaillierte Erläuterungen zu den Tabellen und einzelnen Spalten enthält. Der Datensatz bietet: Häufigkeitsbasierte Normen für zahlreiche verarbeitungsrelevante Worteigenschaften Statistische Kennwerte für Wortformen und Lemmata Häufigkeiten von Silben, Morphemen und Zeichenfolgen Wortähnlichkeitsmaße Ursprünglich als Online-Datenbank konzipiert, wird dieser Datensatz nun auf Zenodo archiviert, um langfristigen Zugang und Nachnutzbarkeit zu gewährleisten. Die Projektbibliografie ist bei Zotero verfügbar. Eine archivierte Version der Projektwebseite www.dlexdb.de findet sich im Internet Archive. Eine aktuelle Frequenzliste mit Daten des Kernkorpus der deutschen Sprache des 20. Jahrhunderts stellt das DWDS unter https://www.dwds.de/r/lexdb#kern bereit.

创建时间：

2025-03-27

5,000+

优质数据集

54 个

任务类型

进入经典数据集