Skylion007/openwebtext|自然语言处理数据集|语言模型训练数据集

hugging_face2024-05-17 更新2024-03-04 收录

自然语言处理

语言模型训练

下载链接：

https://hf-mirror.com/datasets/Skylion007/openwebtext

下载链接

链接失效反馈

资源简介：

OpenWebText数据集是OpenAI WebText数据集的开源复制版本，用于训练GPT-2模型。该数据集由Brown大学的Aaron Gokaslan和Vanya Cohen创建，包含从Reddit帖子中提取的URL，经过去重、过滤和随机化处理后，使用newspaper python包提取网页内容，并使用Facebook FastText过滤非英文网页。数据集不包含注释，且数据量较大，下载文件大小为13.51 GB，生成数据集大小为41.70 GB，总磁盘使用量为55.21 GB。

提供机构：

Skylion007

原始信息汇总

数据集概述

名称: OpenWebText

语言: 英语 (en)

许可证: CC0-1.0

多语言性: 单语

大小类别: 1M<n<10M

源数据集: 原始

任务类别:

文本生成
填充掩码

任务ID:

语言建模
掩码语言建模

论文代码ID: openwebtext

数据集结构

特征:

text: 字符串类型

配置名称: plain_text

分割:

train:
- 字节数: 39769491688
- 示例数: 8013769

下载大小: 12880189440字节

数据集大小: 39769491688字节

数据集创建

来源数据:

初始数据收集和规范化:
- 从Reddit提交数据集中提取所有Reddit帖子URL。
- 去重，过滤非HTML内容，随机洗牌。
- 使用newspaper python包下载并提取网页。
- 使用Facebook FastText过滤非英语网页。
- 使用局部敏感哈希(LSH)识别近似重复文档。
- 文档被哈希成5-gram集合，相似度阈值大于0.5的文档被移除。
- 剩余文档被分词，少于128个词的文档被移除。
- 剩余38GB文本数据（使用SI单位为40GB）来自8,013,769个文档。

注释: 无注释

许可证信息:

数据包装在Creative Commons CC0 license (“no rights reserved”)下。

引用信息:

@misc{Gokaslan2019OpenWeb, title={OpenWebText Corpus}, author={Gokaslan, Aaron and Cohen, Vanya and Pavlick, Ellie and Tellex, Stefanie}, howpublished={url{http://Skylion007.github.io/OpenWebTextCorpus}}, year={2019} }

AI搜集汇总

数据集介绍

构建方式

Skylion007/openwebtext数据集的构建起始于对Reddit帖子的URL进行提取，进而去重、过滤非HTML内容并随机打乱顺序。随后，通过并行分配至多台机器下载网页内容，并利用newspaper包提取所有网页文本。通过Facebook FastText对非英文页面进行过滤，再使用局部敏感哈希(LSH)技术识别并移除近似重复的文档。最终，经过分词和删除少于128个token的文档，形成了包含8013769个文档的38GB文本数据集。

特点

使用方法

使用该数据集时，用户可以下载压缩后的文件，然后解压以获取文本数据。数据集分为训练集，适用于文本生成、填空等任务。用户可以直接利用数据集中的文本字段进行语言模型训练或掩码语言模型训练等NLP相关的研究与应用。

背景与挑战

背景概述

OpenWebText数据集，由布朗大学的Aaron Gokaslan和Vanya Cohen于2019年创建，旨在为自然语言处理任务提供一个大规模的文本数据集。该数据集是对OpenAI的WebText数据集的开源复制，后者用于训练GPT-2模型。OpenWebText数据集的构建基于从Reddit帖子中提取的URLs，经过一系列的数据清洗和过滤过程，最终形成了一个包含8,013,769个文档的文本数据集。该数据集在自然语言处理领域具有一定的影响力，尤其是在文本生成和填空任务中。

当前挑战

OpenWebText数据集在构建过程中遇到了多个挑战。首先，如何有效地从Reddit中提取并处理大量的URLs，以确保数据的多样性和质量。其次，数据清洗过程中，去除非英语内容和近似的重复文档，以及过滤掉少于128个token的文档，都是技术上的挑战。此外，数据集的构建还需要考虑到个人隐私和敏感信息的处理问题。在使用该数据集时，还需关注可能存在的偏见和局限性，以及如何确保数据的使用不会引发社会负面影响。

常用场景

经典使用场景

Skylion007/openwebtext数据集，作为开源的WebText数据集复制版本，其经典使用场景主要在于自然语言处理模型的预训练。该数据集包含了大量从互联网上收集的文本，为模型提供了丰富的语言学习材料，使其能够学习到语言的多样性和复杂性。

解决学术问题

该数据集解决了自然语言处理领域在模型预训练阶段缺乏大规模、多样化文本数据的难题。通过使用openwebtext，研究者能够训练出在语言建模和填空等任务上表现更为优异的模型，进而推动学术研究的深入发展。

衍生相关工作

基于Skylion007/openwebtext数据集，已经衍生出了一系列相关工作，包括但不限于在自然语言处理任务上的模型训练与评估，以及针对数据集中的偏见和敏感性问题的研究，进一步推动了数据集的完善和应用的深化。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

Crop Yield Prediction Dataset

Impact of Environmental Factors on Crop Yields Across Countries

kaggle 收录

DIOR

“DIOR” 是用于光学遥感图像中对象检测的大规模基准数据集，该数据集由23,463图像和带有水平边界框注释的192,518对象实例组成。

OpenDataLab 收录

ScanNet v2

ScanNet 是一个 RGB-D 视频数据集，包含 1500 多次扫描中的 250 万个视图，并使用 3D 相机姿势、表面重建和实例级语义分割进行注释。为了收集这些数据，我们设计了一个易于使用且可扩展的 RGB-D 捕获系统，其中包括自动表面重建和众包语义注释。我们表明，使用这些数据有助于在几个 3D 场景理解任务上实现最先进的性能，包括 3D 对象分类、语义体素标记和 CAD 模型检索。

OpenDataLab 收录