kernelmachine/open-license-corpus

Name: kernelmachine/open-license-corpus
Creator: kernelmachine
Published: 2023-08-09 03:14:36
License: 暂无描述

Hugging Face2023-08-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kernelmachine/open-license-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

PubText是一个包含2280亿个标记的开放许可语料库（OLC），用于训练许可宽松的语言模型。该数据集主要包含英语文本，但也包含其他语言的数据（主要在维基百科子集中）。数据集涵盖了法律、代码、对话、数学、科学、书籍、新闻和百科全书等多个领域的文本。数据集的结构是标准的纯文本格式，每个子集在论文中都有详细描述。数据集的使用需要特别注意其许可证的适用性，建议用户在使用前咨询法律专业人士。

提供机构：

kernelmachine

原始信息汇总

数据集概述

数据集名称: PubText

许可证: Apache-2.0

任务类别:

文本生成 (text-generation)

语言:

英语 (en)

数据集大小:

100B<n<1T 字节

数据集详细信息

数据集摘要

领域	来源	特定许可证	BPE 令牌数量（十亿；GPT-NeoX 令牌器）
法律	Case Law, Pile of Law (PD 子集)	公共领域	27.1
法律	Pile of Law (CC BY-SA 子集)	CC BY-SA	0.07
代码	Github (许可宽松)	MIT/BSD/Apache	58.9
对话	HackerNews, Ubuntu IRC	MIT/Apache	5.9
对话	Stack Overflow, Stack Exchange	CC BY-SA	21.3
数学	Deepmind Math, AMPS	Apache	3.5
科学	ArXiv 摘要, S2ORC (PD 子集)	公共领域	1.2
科学	S2ORC (CC BY-SA 子集)	CC BY-SA	70.3
书籍	Gutenberg	公共领域	2.9
新闻	公共领域新闻	公共领域	0.2
新闻	Wikinews	CC BY-SA	0.01
百科全书	Wikipedia	CC BY-SA	37.0

支持的任务和排行榜

文本生成: 该数据集用于训练语言模型进行文本生成。语言模型的性能评估基于困惑度。

数据集结构

数据集为标准的纯文本结构，分为论文中包含的各个子集。使用时，应指定每个单独的来源并交错使用。

数据实例和字段

数据集为标准纯文本结构，例如 {"text": "这是一个文档"}。不添加其他字段到文档中。

数据分割

本仓库仅包含训练数据。验证数据使用 Pile 验证数据，并通过去重脚本进行去重。

数据集创建

许可证分类

公共领域 (PD): 无限制。
许可宽松的软件 (SW): 包括 MIT、Apache 和 BSD 软件。
归属许可证 (BY): 如 Creative Commons Attribution (CC-BY)，使用时需给予创作者信用。
其他数据: 不属于上述三类，包括明确受版权保护的文本或非商业许可（如 CC-NC），无明确 MIT、BSD 或 Apache 许可的软件，以及许可证或版权信息不明确的通用网络爬虫数据。

构建 OLC

基于此许可证分类，OLC 是一个包含 PD、SW 和 BY 数据的 228B 令牌语料库。OLC 由 17 个主要英语文本的手动选择来源组成，这些来源具有许可宽松的许可证。

初始数据收集和规范化

通过文档级别的过滤器进行文本去重，考虑 $n$-gram 重叠。首先在每个领域内去重，然后与 Pile 的验证和测试数据集进行去重，以避免测试泄露。

数据集管理员

OLC 由 SILO 语言模型的作者管理。

许可信息

本语料库根据 Apache 2.0 许可证发布。

5,000+

优质数据集

54 个

任务类型

进入经典数据集