five

CUI03/german-commons

收藏
Hugging Face2025-12-16 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/CUI03/german-commons
下载链接
链接失效反馈
官方服务:
资源简介:
German Commons数据集是一个大规模、开放许可的德语文本数据集合,用于训练德语语言模型。该数据集汇集了来自41个不同来源的154.56亿个标记,涵盖35.78百万份文档,分布在7个主题领域:网络公共资源(Web Commons)、政治公共资源(Political Commons)、法律公共资源(Legal Commons)、新闻公共资源(News Commons)、经济公共资源(Economic Commons)、文化公共资源(Cultural Commons)和科学公共资源(Scientific Commons)。每个记录包含唯一标识符、来源数据集名称、主题子集、主文本内容、适用许可证列表、GPT-2标记计数、文本困惑度(使用KenLM模型测量)和OCR质量评分等字段。数据集支持按主题子集或单个来源数据集加载,适用于自然语言处理任务,特别是语言建模。

The German Commons dataset is a large-scale collection of German-language text data under open licenses, designed for training German language models. It aggregates 154.56 billion tokens from 41 diverse sources, comprising 35.78 million documents across 7 thematic domains: Web Commons, Political Commons, Legal Commons, News Commons, Economic Commons, Cultural Commons, and Scientific Commons. Each record includes fields such as a unique identifier, source dataset name, thematic subset, main text content, list of applicable licenses, GPT-2 token count, text perplexity (measured with a KenLM model), and OCR quality score. The dataset supports loading by thematic subset or individual source datasets and is suitable for natural language processing tasks, particularly language modeling.
提供机构:
CUI03
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作