DataProvenanceInitiative/Commercially-Verified-Licenses
收藏数据集卡片 Data Provenance Initiative - Commercial-Licenses
数据集描述
数据集概述
近期一系列语言模型的发展得益于大量自然语言数据集的支持。然而,由于这些数据集的不正确、模糊或文档不足,导致从业者对其法律和质量特性缺乏了解。为了解决这一数据透明度和理解危机,我们联合机器学习和法律领域的专家,编译了最详细和可靠的数据许可、来源和出处元数据,以及细粒度的特性,如语言、文本领域、主题、使用、收集时间和任务组成。我们从近40个流行的指令(或“对齐”)调优集合开始,发布了一套开源工具,用于下载、过滤和检查这些训练数据。我们的分析揭示了数据透明度,特别是数据许可方面的碎片化状态,我们希望我们的工具能够促进未来语言模型的更明智和负责任的数据中心开发。
商业含义
Commercial包括适用于商业使用的数据集,即根据其许可,该数据集的商业使用是允许的。
构成数据集
以下表格展示了每个构成数据集及其原始来源:
| # | 集合名称 | 描述 | 来源 |
|---|---|---|---|
| 1 | Anthropic HH-RLHF | 关于帮助性和无害性的人类偏好数据 & 人类生成和注释的红队对话。 | https://huggingface.co/datasets/Anthropic/hh-rlhf |
| 2 | CommitPackFT | CommitPackFT 是 CommitPack 的 2GB 过滤版本,仅包含高质量的类似自然语言指令的提交消息。 | https://huggingface.co/datasets/bigcode/commitpackft |
| 3 | Dolly 15k | Databricks Dolly 15k 是一个包含 15,000 个高质量人类生成的提示/响应对的数据集,专门设计用于大型语言模型的指令调优。 | https://huggingface.co/datasets/databricks/databricks-dolly-15k |
| 4 | Flan Collection (Chain-of-Thought) | Flan 集合数据集中的 Chain-of-Thought 子混合。 | https://huggingface.co/datasets/conceptofmind/cot_submix_original |
| 5 | Flan Collection (Dialog) | Flan 集合数据集中的 Dialog 子混合。 | https://huggingface.co/datasets/conceptofmind/dialog_submix_original |
| 6 | Flan Collection (Flan 2021) | Flan 集合数据集中的 Flan 2021 子混合。 | https://huggingface.co/datasets/conceptofmind/flan2021_submix_original |
| 7 | Flan Collection (P3) | Flan 集合数据集中的 P3 子混合。 | https://huggingface.co/datasets/conceptofmind/t0_submix_original |
| 8 | Flan Collection (Super-NaturalInstructions) | Flan 集合数据集中的 Super-Natural Instructions。 | https://huggingface.co/datasets/conceptofmind/niv2_submix_original |
| 9 | Joke Explanation | 用于测试 LLM 是否能很好地解释笑话的语料库。 | https://huggingface.co/datasets/theblackcat102/joke_explaination |
| 10 | OIG | Open Instruction Generalist 是一个中等质量的大型指令数据集,以及一个较小的优质指令数据集 (OIG-small-chip2)。 | https://huggingface.co/datasets/laion/OIG |
| 11 | Open Assistant | OpenAssistant Conversations (OASST1) 是一个人类生成、人类注释的助手风格对话语料库,包含 161,443 条消息,涉及 35 种不同语言,注释了 461,292 个质量评级,形成了超过 10,000 个完全注释的对话树。 | https://huggingface.co/datasets/OpenAssistant/oasst1 |
| 12 | Open Assistant OctoPack | 对 OpenAssistant Conversations (OASST1) 的过滤版本,仅关注高质量的对话树,如 OctoPack 论文中所用。 | https://huggingface.co/datasets/bigcode/oasst-octopack |
| 13 | Tasksource Symbol-Tuning | 转换为符号调优的 Tasksource 数据集。 | https://github.com/sileod/tasksource |
| 14 | Tasksource Instruct | 作为指令调优的 Tasksource 数据集。 | https://github.com/sileod/tasksource |
| 15 | xp3x | xP3x 是一个包含 277 种语言和 16 个 NLP 任务的提示和数据集集合。它包含了 xP3 的所有内容以及更多内容。 | https://huggingface.co/datasets/Muennighoff/xP3x |
| 16 | StarCoder Self-Instruct | 通过提示 starcoder 根据一些人类编写的种子指令生成新指令而创建的数据集。 | https://huggingface.co/datasets/codeparrot/self-instruct-starcoder |
数据实例
[更多信息待补充]
数据字段
以下代码片段显示了此数据集中每个数据集合中的一行的字段:
json [ {"from": "user", "text": input_text.strip(), "parent": dset}, {"from": "assistant", "text": target_text.strip(), "parent": 0}, ... ]
字段说明:
from: 指示对话中文本的发起者,可以是 "user" 或 "assistant",其中 "assistant" 表示模型,文本是模型对用户文本的响应。text: 指示发起者希望传达给接收者的文本。parent: 字段指示对话层次结构的父节点。
每行包含一个或多个 JSON 对象,表示用户和助手之间的交互对话,以及他们之间交换的文本消息。您可以利用 JSON 对象中的 parent 字段来跟踪交互的树结构。
下载数据集
您可以使用以下代码加载整个数据集:
python import os from datasets import load_dataset
如果数据集是受保护/私有的,请确保已运行 huggingface-cli login
dataset = load_dataset("DataProvenanceInitiative/Commercially-Verified-Licenses")
您可以使用以下代码加载特定的数据集子集,例如 Dolly 15k:
python import os from datasets import load_dataset
subset = load_dataset( "DataProvenanceInitiative/Commercially-Verified-Licenses", split="train", num_proc = os.cpu_count(), revision="main", data_files="data/dolly_15k/*.jsonl" )
数据分割
[更多信息待补充]
数据集创建
[更多信息待补充]
源语言生产者
[更多信息待补充]
注释
注释过程
[更多信息待补充]
注释者
[更多信息待补充]
个人和敏感信息
[更多信息待补充]
附加信息
数据集策展人
[更多信息待补充]
许可信息
[更多信息待补充]
引用信息
@article{longpre2023data, title={The Data Provenance Initiative: A Large Scale Audit of Dataset Licensing & Attribution in AI}, author={Longpre, Shayne and Mahari, Robert and Chen, Anthony and Obeng-Marnu, Naana and Sileo, Damien and Brannon, William and Muennighoff, Niklas and Khazam, Nathan and Kabbara, Jad and Perisetla, Kartik and others}, journal={arXiv preprint arXiv:2310.16787}, year={2023} }
贡献
感谢 data.provenance.init@gmail.com 添加此数据集。



