five

kernelmachine/open-license-corpus

收藏
Hugging Face2023-08-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kernelmachine/open-license-corpus
下载链接
链接失效反馈
官方服务:
资源简介:
PubText是一个包含2280亿个标记的开放许可语料库(OLC),用于训练许可宽松的语言模型。该数据集主要包含英语文本,但也包含其他语言的数据(主要在维基百科子集中)。数据集涵盖了法律、代码、对话、数学、科学、书籍、新闻和百科全书等多个领域的文本。数据集的结构是标准的纯文本格式,每个子集在论文中都有详细描述。数据集的使用需要特别注意其许可证的适用性,建议用户在使用前咨询法律专业人士。
提供机构:
kernelmachine
原始信息汇总

数据集概述

数据集名称: PubText

许可证: Apache-2.0

任务类别:

  • 文本生成 (text-generation)

语言:

  • 英语 (en)

数据集大小:

  • 100B<n<1T 字节

数据集详细信息

数据集摘要

领域 来源 特定许可证 BPE 令牌数量(十亿;GPT-NeoX 令牌器)
法律 Case Law, Pile of Law (PD 子集) 公共领域 27.1
法律 Pile of Law (CC BY-SA 子集) CC BY-SA 0.07
代码 Github (许可宽松) MIT/BSD/Apache 58.9
对话 HackerNews, Ubuntu IRC MIT/Apache 5.9
对话 Stack Overflow, Stack Exchange CC BY-SA 21.3
数学 Deepmind Math, AMPS Apache 3.5
科学 ArXiv 摘要, S2ORC (PD 子集) 公共领域 1.2
科学 S2ORC (CC BY-SA 子集) CC BY-SA 70.3
书籍 Gutenberg 公共领域 2.9
新闻 公共领域新闻 公共领域 0.2
新闻 Wikinews CC BY-SA 0.01
百科全书 Wikipedia CC BY-SA 37.0

支持的任务和排行榜

  • 文本生成: 该数据集用于训练语言模型进行文本生成。语言模型的性能评估基于困惑度。

数据集结构

数据集为标准的纯文本结构,分为论文中包含的各个子集。使用时,应指定每个单独的来源并交错使用。

数据实例和字段

数据集为标准纯文本结构,例如 {"text": "这是一个文档"}。不添加其他字段到文档中。

数据分割

本仓库仅包含训练数据。验证数据使用 Pile 验证数据,并通过去重脚本进行去重。

数据集创建

许可证分类

  • 公共领域 (PD): 无限制。
  • 许可宽松的软件 (SW): 包括 MIT、Apache 和 BSD 软件。
  • 归属许可证 (BY): 如 Creative Commons Attribution (CC-BY),使用时需给予创作者信用。
  • 其他数据: 不属于上述三类,包括明确受版权保护的文本或非商业许可(如 CC-NC),无明确 MIT、BSD 或 Apache 许可的软件,以及许可证或版权信息不明确的通用网络爬虫数据。

构建 OLC

基于此许可证分类,OLC 是一个包含 PD、SW 和 BY 数据的 228B 令牌语料库。OLC 由 17 个主要英语文本的手动选择来源组成,这些来源具有许可宽松的许可证。

初始数据收集和规范化

通过文档级别的过滤器进行文本去重,考虑 $n$-gram 重叠。首先在每个领域内去重,然后与 Pile 的验证和测试数据集进行去重,以避免测试泄露。

数据集管理员

OLC 由 SILO 语言模型的作者管理。

许可信息

本语料库根据 Apache 2.0 许可证发布。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作