PatrickHaller/wikitext-18-de
收藏Hugging Face2023-06-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PatrickHaller/wikitext-18-de
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是wikitext数据集的德语版本,包含约1800万个标记。数据集提取自维基百科的Good and Featured文章,但仅限于德语文章。数据集包含2759篇文章,虽然文章数量较少,但由于文章长度和语言特性,标记数量较多。数据集保留了原始的大小写、标点符号、数字和换行符,但不包括图像、表格等其他数据。数据集可用于文本生成任务,语言为德语,大小类别为1K<n<10K,许可证为cc-by-sa-3.0。
该数据集是wikitext数据集的德语版本,包含约1800万个标记。数据集提取自维基百科的Good and Featured文章,但仅限于德语文章。数据集包含2759篇文章,虽然文章数量较少,但由于文章长度和语言特性,标记数量较多。数据集保留了原始的大小写、标点符号、数字和换行符,但不包括图像、表格等其他数据。数据集可用于文本生成任务,语言为德语,大小类别为1K<n<10K,许可证为cc-by-sa-3.0。
提供机构:
PatrickHaller
原始信息汇总
数据集概述
基本信息
- 名称: wikitext-18-de
- 语言: 德语
- 任务类别: 文本生成
- 许可证: Creative Commons Attribution-ShareAlike 3.0 (cc-by-sa-3.0)
数据集特征
- 特征名称: title, text, url
- 数据类型: 字符串
数据集划分
- 训练集:
- 样本数量: 2759
- 数据大小: 138186439 字节
数据集大小
- 下载大小: 79585645 字节
- 总数据大小: 138186439 字节
数据集描述
- 内容来源: 从维基百科的“优秀和特色”德语文章中提取
- 总令牌数: 约1800万
- 数据处理: 保留原始大小写、标点、数字和换行,排除图片、表格等其他数据
数据集规模
- 文章数量: 2759
- 规模类别: 1K<n<10K



