five

PatrickHaller/wikitext-18-de

收藏
Hugging Face2023-06-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PatrickHaller/wikitext-18-de
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是wikitext数据集的德语版本,包含约1800万个标记。数据集提取自维基百科的Good and Featured文章,但仅限于德语文章。数据集包含2759篇文章,虽然文章数量较少,但由于文章长度和语言特性,标记数量较多。数据集保留了原始的大小写、标点符号、数字和换行符,但不包括图像、表格等其他数据。数据集可用于文本生成任务,语言为德语,大小类别为1K<n<10K,许可证为cc-by-sa-3.0。

该数据集是wikitext数据集的德语版本,包含约1800万个标记。数据集提取自维基百科的Good and Featured文章,但仅限于德语文章。数据集包含2759篇文章,虽然文章数量较少,但由于文章长度和语言特性,标记数量较多。数据集保留了原始的大小写、标点符号、数字和换行符,但不包括图像、表格等其他数据。数据集可用于文本生成任务,语言为德语,大小类别为1K<n<10K,许可证为cc-by-sa-3.0。
提供机构:
PatrickHaller
原始信息汇总

数据集概述

基本信息

  • 名称: wikitext-18-de
  • 语言: 德语
  • 任务类别: 文本生成
  • 许可证: Creative Commons Attribution-ShareAlike 3.0 (cc-by-sa-3.0)

数据集特征

  • 特征名称: title, text, url
  • 数据类型: 字符串

数据集划分

  • 训练集:
    • 样本数量: 2759
    • 数据大小: 138186439 字节

数据集大小

  • 下载大小: 79585645 字节
  • 总数据大小: 138186439 字节

数据集描述

  • 内容来源: 从维基百科的“优秀和特色”德语文章中提取
  • 总令牌数: 约1800万
  • 数据处理: 保留原始大小写、标点、数字和换行,排除图片、表格等其他数据

数据集规模

  • 文章数量: 2759
  • 规模类别: 1K<n<10K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作