LTCB/enwik8

Name: LTCB/enwik8
Creator: LTCB
Published: 2024-01-18 11:19:13
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/LTCB/enwik8

下载链接

链接失效反馈

官方服务：

资源简介：

enwik8数据集是从2006年3月3日的英文维基百科XML转储中提取的前100,000,000字节数据。该数据集通常用于衡量模型的数据压缩能力。数据集包含两个配置：enwik8和enwik8-raw，分别包含1128024个和1个训练样本。数据集的字段为`text`，类型为字符串。数据集的大小为102.38 MB，下载文件大小为36.45 MB。数据集支持的任务包括填充掩码和文本生成，主要用于语言建模任务。

The enwik8 dataset consists of the first 100,000,000 bytes of data extracted from the English Wikipedia XML dump dated March 3, 2006. It is widely used to evaluate a model's data compression capability. The dataset includes two configurations: enwik8 and enwik8-raw, which contain 1,128,024 training samples and 1 training sample respectively. The dataset features a field named `text` with a string data type. The dataset has a size of 102.38 MB, and the size of the downloaded file is 36.45 MB. Supported tasks include mask filling and text generation, and it is primarily used for language modeling tasks.

提供机构：

LTCB

原始信息汇总

数据集卡片 for enwik8

数据集描述

数据集概述

enwik8 数据集是 2006 年 3 月 3 日的英文维基百科 XML 转储的前 100,000,000 (100M) 字节，通常用于衡量模型压缩数据的能力。

支持的任务和排行榜

字节级因果语言建模的排行榜可以在 paperswithcode 上找到。

语言

数据集结构

数据实例

json { "text": "In [[Denmark]], the [[Freetown Christiania]] was created in downtown [[Copenhagen]]....", }

数据字段

所有数据集的数据字段相同。

enwik8

text: 一个 string 特征。

enwik8-raw

text: 一个 string 特征。

数据分割

数据集	训练集
enwik8	1128024
enwik8-raw	1

数据集创建

数据来源

初始数据收集和规范化

数据是 2006 年 3 月 3 日的英文维基百科 XML 转储，enwik8 按行分割，enwik8-raw 不按行分割。

其他信息

贡献

感谢 @HallerPatrick 添加此数据集，@mtanghu 更新它。

搜集汇总

数据集介绍

构建方式

enwik8数据集的构建，源于2006年3月3日英文维基百科XML的最初100,000,000字节。该数据集未经分行处理，保留了原始文本的连续性，旨在评估模型在数据压缩方面的能力。数据集分为训练集，其中包含1,128,024个示例，适合进行字节级的因果语言模型训练。

特点

enwik8数据集以其纯净的英文文本数据而著称，具有单语种特性，适用于多种自然语言处理任务，如填充遮蔽和文本生成。该数据集小巧而精炼，便于快速迭代模型训练，同时遵循MIT开源协议，保证了使用的灵活性与广泛性。

使用方法

使用enwik8数据集时，用户需先下载训练集文件，该文件大小为36.45MB。数据集可通过配置名'enwik8'或'enwik8-raw'进行调用，其中'enwik8'为分行处理版本，而'enwik8-raw'为未分行版本。数据集可用于构建和评估语言模型，特别是在数据压缩和文本生成等任务上表现模型性能。

背景与挑战

背景概述

enwik8数据集，源自2006年3月3日英语维基百科XML的最初100,000,000字节，是衡量模型数据压缩能力的重要基准。该数据集由马特·马霍尼（Matt Mahoney）创建，旨在为自然语言处理研究提供一种测试资源。作为语言模型训练和评估的常用数据集，enwik8对于推动自然语言处理领域的发展具有重要意义。

当前挑战

数据集构建过程中的挑战主要在于确保数据的完整性与准确性。由于数据来源于维基百科XML，因此涉及到了大量的文本清洗和预处理工作。此外，数据集在应用中面临的挑战包括如何有效利用其庞大的数据量进行高效的模型训练，以及如何处理可能存在的偏差和敏感性信息，确保模型的公平性和鲁棒性。

常用场景

经典使用场景

在自然语言处理领域，enwik8数据集的经典使用场景主要聚焦于语言模型的训练与评估。该数据集包含了英语维基百科的前100MB数据，通常被用来衡量模型在数据压缩方面的能力，同时也是评估模型在字节级因果语言建模任务上性能的重要基准。

解决学术问题

enwik8数据集解决了学术研究中关于语言模型压缩效率和生成能力的问题。通过该数据集，研究者能够训练出在文本压缩和生成任务上具有竞争力的模型，进而推动对语言模型性能评估标准的深入研究。

衍生相关工作

enwik8数据集催生了大量相关研究工作，包括但不限于字节级语言模型、文本生成算法的改进，以及针对特定任务的优化策略。这些研究进一步拓展了语言模型在实际应用中的边界，推动了自然语言处理技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集