five

LeoLM/wikitext-en-de

收藏
Hugging Face2023-09-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LeoLM/wikitext-en-de
下载链接
链接失效反馈
官方服务:
资源简介:
German+English Wikitext数据集是基于Merity et al. (2016)的工作复制的wikitext数据集,包含了维基百科中分类为“exzellent”(德语)或“featured”(英语)的文章。该数据集可以用于困惑度评估等任务。数据集的创建过程包括从维基百科抓取这些类别的文章名称,然后从最近的维基百科转储中筛选出这些文章。数据集提供了多个配置,每个配置的文档数量如下:exzellent_de(2822篇)、featured_en(6356篇)、exzellent_de_small(1024篇)、featured_en_small(1024篇)。创建数据集的代码可以在代码库中找到。
提供机构:
LeoLM
原始信息汇总

德英维基文本数据集

数据集概述

Wikitext_en_de 数据集是对 Merity 等人(2016)工作的复现,包含维基百科分类为“exzellent”或“featured”的文章,适用于如困惑度评估等任务。

数据来源

数据集通过从维基百科抓取属于这些类别的文章名称,并从最近的维基百科转储(如“20230901.de”来自 graelo/wikipedia)中过滤出这些文章来创建。

配置信息

配置名称 文档数量
exzellent_de 2822
featured_en 6356
exzellent_de_small 1024
featured_en_small 1024

数据文件

  • exzellent_de: wiki_de_exzellent.parquet
  • featured_en: wiki_en_featured.parquet
  • exzellent_de_small: wiki_de_exzellent_small.parquet
  • featured_en_small: wiki_en_featured_small.parquet

语言

  • 德语 (de)
  • 英语 (en)

数据集大小

  • 1K < n < 10K

创建代码

数据集的创建代码可在本仓库中找到,文件名为 wikitext_de.pywikitext_en.py。下载整个维基百科转储可能需要较长时间,具体取决于网络连接。

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作