dlexDB – annotated lexical data
收藏NIAID Data Ecosystem2026-05-02 收录
下载链接:
https://zenodo.org/record/15097663
下载链接
链接失效反馈官方服务:
资源简介:
Dieser Datensatz enthält die im Projekt dlexDB erhobenen und annotierten lexikalischen Daten.
Das Projekt dlexDB wurde von der Deutschen Forschungsgemeinschaft (DFG) unter der Fördernummer 206617755 gefördert (KL 955/12-1 und KL 955/19-1), um eine umfassende lexikalische Datenbank für die psychologische und linguistische Forschung zu erstellen. Dabei handelte es sich um ein Projekt der Professuren für allgemeine Psychologie 1 und theoretische Computerlinguistik an der Universität Potsdam sowie dem Projekt Digitales Wörterbuch der deutschen Sprache (DWDS) an der Berlin-Brandenburgischen Akademie der Wissenschaften.
Die Datenbank basiert auf dem Kernkorpus der deutschen Sprache des 20. Jahrhunderts, das vom DWDS zusammengestellt wurde.
Der Datensatz umfasst statistische Kennwerte und Häufigkeitsinformationen zu Types, Lemmata, Silben und Zeichen.
Die Daten sind in mehreren TSV-Dateien (tabseparierte Werte) organisiert, wobei jede Datei einer spezifischen Tabelle entspricht. Zusätzlich wird eine umfassende Dokumentation im Markdown-Format bereitgestellt, die detaillierte Erläuterungen zu den Tabellen und einzelnen Spalten enthält.
Der Datensatz bietet:
Häufigkeitsbasierte Normen für zahlreiche verarbeitungsrelevante Worteigenschaften
Statistische Kennwerte für Wortformen und Lemmata
Häufigkeiten von Silben, Morphemen und Zeichenfolgen
Wortähnlichkeitsmaße
Ursprünglich als Online-Datenbank konzipiert, wird dieser Datensatz nun auf Zenodo archiviert, um langfristigen Zugang und Nachnutzbarkeit zu gewährleisten.
Die Projektbibliografie ist bei Zotero verfügbar.
Eine archivierte Version der Projektwebseite www.dlexdb.de findet sich im Internet Archive.
Eine aktuelle Frequenzliste mit Daten des Kernkorpus der deutschen Sprache des 20. Jahrhunderts stellt das DWDS unter https://www.dwds.de/r/lexdb#kern bereit.
创建时间:
2025-03-27



