kernelmachine/open-license-corpus
收藏Hugging Face2023-08-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kernelmachine/open-license-corpus
下载链接
链接失效反馈官方服务:
资源简介:
PubText是一个包含2280亿个标记的开放许可语料库(OLC),用于训练许可宽松的语言模型。该数据集主要包含英语文本,但也包含其他语言的数据(主要在维基百科子集中)。数据集涵盖了法律、代码、对话、数学、科学、书籍、新闻和百科全书等多个领域的文本。数据集的结构是标准的纯文本格式,每个子集在论文中都有详细描述。数据集的使用需要特别注意其许可证的适用性,建议用户在使用前咨询法律专业人士。
提供机构:
kernelmachine
原始信息汇总
数据集概述
数据集名称: PubText
许可证: Apache-2.0
任务类别:
- 文本生成 (
text-generation)
语言:
- 英语 (
en)
数据集大小:
- 100B<n<1T 字节
数据集详细信息
数据集摘要
| 领域 | 来源 | 特定许可证 | BPE 令牌数量(十亿;GPT-NeoX 令牌器) |
|---|---|---|---|
| 法律 | Case Law, Pile of Law (PD 子集) | 公共领域 | 27.1 |
| 法律 | Pile of Law (CC BY-SA 子集) | CC BY-SA | 0.07 |
| 代码 | Github (许可宽松) | MIT/BSD/Apache | 58.9 |
| 对话 | HackerNews, Ubuntu IRC | MIT/Apache | 5.9 |
| 对话 | Stack Overflow, Stack Exchange | CC BY-SA | 21.3 |
| 数学 | Deepmind Math, AMPS | Apache | 3.5 |
| 科学 | ArXiv 摘要, S2ORC (PD 子集) | 公共领域 | 1.2 |
| 科学 | S2ORC (CC BY-SA 子集) | CC BY-SA | 70.3 |
| 书籍 | Gutenberg | 公共领域 | 2.9 |
| 新闻 | 公共领域新闻 | 公共领域 | 0.2 |
| 新闻 | Wikinews | CC BY-SA | 0.01 |
| 百科全书 | Wikipedia | CC BY-SA | 37.0 |
支持的任务和排行榜
文本生成: 该数据集用于训练语言模型进行文本生成。语言模型的性能评估基于困惑度。
数据集结构
数据集为标准的纯文本结构,分为论文中包含的各个子集。使用时,应指定每个单独的来源并交错使用。
数据实例和字段
数据集为标准纯文本结构,例如 {"text": "这是一个文档"}。不添加其他字段到文档中。
数据分割
本仓库仅包含训练数据。验证数据使用 Pile 验证数据,并通过去重脚本进行去重。
数据集创建
许可证分类
- 公共领域 (PD): 无限制。
- 许可宽松的软件 (SW): 包括 MIT、Apache 和 BSD 软件。
- 归属许可证 (BY): 如 Creative Commons Attribution (CC-BY),使用时需给予创作者信用。
- 其他数据: 不属于上述三类,包括明确受版权保护的文本或非商业许可(如 CC-NC),无明确 MIT、BSD 或 Apache 许可的软件,以及许可证或版权信息不明确的通用网络爬虫数据。
构建 OLC
基于此许可证分类,OLC 是一个包含 PD、SW 和 BY 数据的 228B 令牌语料库。OLC 由 17 个主要英语文本的手动选择来源组成,这些来源具有许可宽松的许可证。
初始数据收集和规范化
通过文档级别的过滤器进行文本去重,考虑 $n$-gram 重叠。首先在每个领域内去重,然后与 Pile 的验证和测试数据集进行去重,以避免测试泄露。
数据集管理员
OLC 由 SILO 语言模型的作者管理。
许可信息
本语料库根据 Apache 2.0 许可证发布。



