LeoLM/wikitext-en-de
收藏Hugging Face2023-09-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LeoLM/wikitext-en-de
下载链接
链接失效反馈官方服务:
资源简介:
German+English Wikitext数据集是基于Merity et al. (2016)的工作复制的wikitext数据集,包含了维基百科中分类为“exzellent”(德语)或“featured”(英语)的文章。该数据集可以用于困惑度评估等任务。数据集的创建过程包括从维基百科抓取这些类别的文章名称,然后从最近的维基百科转储中筛选出这些文章。数据集提供了多个配置,每个配置的文档数量如下:exzellent_de(2822篇)、featured_en(6356篇)、exzellent_de_small(1024篇)、featured_en_small(1024篇)。创建数据集的代码可以在代码库中找到。
提供机构:
LeoLM
原始信息汇总
德英维基文本数据集
数据集概述
Wikitext_en_de 数据集是对 Merity 等人(2016)工作的复现,包含维基百科分类为“exzellent”或“featured”的文章,适用于如困惑度评估等任务。
数据来源
数据集通过从维基百科抓取属于这些类别的文章名称,并从最近的维基百科转储(如“20230901.de”来自 graelo/wikipedia)中过滤出这些文章来创建。
配置信息
| 配置名称 | 文档数量 |
|---|---|
| exzellent_de | 2822 |
| featured_en | 6356 |
| exzellent_de_small | 1024 |
| featured_en_small | 1024 |
数据文件
exzellent_de:wiki_de_exzellent.parquetfeatured_en:wiki_en_featured.parquetexzellent_de_small:wiki_de_exzellent_small.parquetfeatured_en_small:wiki_en_featured_small.parquet
语言
- 德语 (de)
- 英语 (en)
数据集大小
- 1K < n < 10K
创建代码
数据集的创建代码可在本仓库中找到,文件名为 wikitext_de.py 和 wikitext_en.py。下载整个维基百科转储可能需要较长时间,具体取决于网络连接。
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



