five

DataProvenanceInitiative/Commercially-Verified-Licenses

收藏
Hugging Face2023-11-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DataProvenanceInitiative/Commercially-Verified-Licenses
下载链接
链接失效反馈
官方服务:
资源简介:
数据来源倡议 - 商业许可证数据集旨在提高语言模型训练中的数据透明度和理解。该数据集收集了详细的元数据,包括数据许可证、来源和来源证明,以及语言、文本领域、主题、使用、收集时间和任务组成等细粒度特征。它包含近40个流行的指令(或“对齐”)调整集合,并提供了一套开源工具,用于下载、过滤和检查这些训练数据。该数据集适合根据其许可证进行商业使用。

数据来源倡议 - 商业许可证数据集旨在提高语言模型训练中的数据透明度和理解。该数据集收集了详细的元数据,包括数据许可证、来源和来源证明,以及语言、文本领域、主题、使用、收集时间和任务组成等细粒度特征。它包含近40个流行的指令(或“对齐”)调整集合,并提供了一套开源工具,用于下载、过滤和检查这些训练数据。该数据集适合根据其许可证进行商业使用。
提供机构:
DataProvenanceInitiative
原始信息汇总

数据集卡片 Data Provenance Initiative - Commercial-Licenses

数据集描述

数据集概述

近期一系列语言模型的发展得益于大量自然语言数据集的支持。然而,由于这些数据集的不正确、模糊或文档不足,导致从业者对其法律和质量特性缺乏了解。为了解决这一数据透明度和理解危机,我们联合机器学习和法律领域的专家,编译了最详细和可靠的数据许可、来源和出处元数据,以及细粒度的特性,如语言、文本领域、主题、使用、收集时间和任务组成。我们从近40个流行的指令(或“对齐”)调优集合开始,发布了一套开源工具,用于下载、过滤和检查这些训练数据。我们的分析揭示了数据透明度,特别是数据许可方面的碎片化状态,我们希望我们的工具能够促进未来语言模型的更明智和负责任的数据中心开发。

商业含义

  • Commercial 包括适用于商业使用的数据集,即根据其许可,该数据集的商业使用是允许的。

构成数据集

以下表格展示了每个构成数据集及其原始来源:

# 集合名称 描述 来源
1 Anthropic HH-RLHF 关于帮助性和无害性的人类偏好数据 & 人类生成和注释的红队对话。 https://huggingface.co/datasets/Anthropic/hh-rlhf
2 CommitPackFT CommitPackFT 是 CommitPack 的 2GB 过滤版本,仅包含高质量的类似自然语言指令的提交消息。 https://huggingface.co/datasets/bigcode/commitpackft
3 Dolly 15k Databricks Dolly 15k 是一个包含 15,000 个高质量人类生成的提示/响应对的数据集,专门设计用于大型语言模型的指令调优。 https://huggingface.co/datasets/databricks/databricks-dolly-15k
4 Flan Collection (Chain-of-Thought) Flan 集合数据集中的 Chain-of-Thought 子混合。 https://huggingface.co/datasets/conceptofmind/cot_submix_original
5 Flan Collection (Dialog) Flan 集合数据集中的 Dialog 子混合。 https://huggingface.co/datasets/conceptofmind/dialog_submix_original
6 Flan Collection (Flan 2021) Flan 集合数据集中的 Flan 2021 子混合。 https://huggingface.co/datasets/conceptofmind/flan2021_submix_original
7 Flan Collection (P3) Flan 集合数据集中的 P3 子混合。 https://huggingface.co/datasets/conceptofmind/t0_submix_original
8 Flan Collection (Super-NaturalInstructions) Flan 集合数据集中的 Super-Natural Instructions。 https://huggingface.co/datasets/conceptofmind/niv2_submix_original
9 Joke Explanation 用于测试 LLM 是否能很好地解释笑话的语料库。 https://huggingface.co/datasets/theblackcat102/joke_explaination
10 OIG Open Instruction Generalist 是一个中等质量的大型指令数据集,以及一个较小的优质指令数据集 (OIG-small-chip2)。 https://huggingface.co/datasets/laion/OIG
11 Open Assistant OpenAssistant Conversations (OASST1) 是一个人类生成、人类注释的助手风格对话语料库,包含 161,443 条消息,涉及 35 种不同语言,注释了 461,292 个质量评级,形成了超过 10,000 个完全注释的对话树。 https://huggingface.co/datasets/OpenAssistant/oasst1
12 Open Assistant OctoPack 对 OpenAssistant Conversations (OASST1) 的过滤版本,仅关注高质量的对话树,如 OctoPack 论文中所用。 https://huggingface.co/datasets/bigcode/oasst-octopack
13 Tasksource Symbol-Tuning 转换为符号调优的 Tasksource 数据集。 https://github.com/sileod/tasksource
14 Tasksource Instruct 作为指令调优的 Tasksource 数据集。 https://github.com/sileod/tasksource
15 xp3x xP3x 是一个包含 277 种语言和 16 个 NLP 任务的提示和数据集集合。它包含了 xP3 的所有内容以及更多内容。 https://huggingface.co/datasets/Muennighoff/xP3x
16 StarCoder Self-Instruct 通过提示 starcoder 根据一些人类编写的种子指令生成新指令而创建的数据集。 https://huggingface.co/datasets/codeparrot/self-instruct-starcoder

数据实例

[更多信息待补充]

数据字段

以下代码片段显示了此数据集中每个数据集合中的一行的字段:

json [ {"from": "user", "text": input_text.strip(), "parent": dset}, {"from": "assistant", "text": target_text.strip(), "parent": 0}, ... ]

字段说明:

  • from: 指示对话中文本的发起者,可以是 "user" 或 "assistant",其中 "assistant" 表示模型,文本是模型对用户文本的响应。
  • text: 指示发起者希望传达给接收者的文本。
  • parent: 字段指示对话层次结构的父节点。

每行包含一个或多个 JSON 对象,表示用户和助手之间的交互对话,以及他们之间交换的文本消息。您可以利用 JSON 对象中的 parent 字段来跟踪交互的树结构。

下载数据集

您可以使用以下代码加载整个数据集:

python import os from datasets import load_dataset

如果数据集是受保护/私有的,请确保已运行 huggingface-cli login

dataset = load_dataset("DataProvenanceInitiative/Commercially-Verified-Licenses")

您可以使用以下代码加载特定的数据集子集,例如 Dolly 15k:

python import os from datasets import load_dataset

subset = load_dataset( "DataProvenanceInitiative/Commercially-Verified-Licenses", split="train", num_proc = os.cpu_count(), revision="main", data_files="data/dolly_15k/*.jsonl" )

数据分割

[更多信息待补充]

数据集创建

[更多信息待补充]

源语言生产者

[更多信息待补充]

注释

注释过程

[更多信息待补充]

注释者

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

附加信息

数据集策展人

[更多信息待补充]

许可信息

[更多信息待补充]

引用信息

@article{longpre2023data, title={The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI}, author={Longpre, Shayne and Mahari, Robert and Chen, Anthony and Obeng-Marnu, Naana and Sileo, Damien and Brannon, William and Muennighoff, Niklas and Khazam, Nathan and Kabbara, Jad and Perisetla, Kartik and others}, journal={arXiv preprint arXiv:2310.16787}, year={2023} }

贡献

感谢 data.provenance.init@gmail.com 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作