Data Provenance Collection

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/Data-Provenance-Initiative/Data-Provenance-Collection

下载链接

链接失效反馈

官方服务：

资源简介：

Data Provenance Collection是一个多学科志愿者努力，旨在提高AI训练数据集的透明度、文档化和负责任的使用。通过大规模审计44个数据集，涵盖1800多个微调文本到文本数据集，该倡议的首次发布详细记录了它们的网络和机器来源、许可证、创建者和其他元数据。

Data Provenance Collection 是一项跨学科的志愿者倡议，旨在提升 AI 训练数据集的透明度、文档化水平以及负责任的使用方式。通过对 44 个数据集进行大规模审计，涵盖超过 1800 个微调文本到文本数据集，该倡议的首次发布详细记录了这些数据集的网络和机器来源、许可证信息、创建者以及其他元数据。

创建时间：

2023-10-03

原始信息汇总

数据集概述

数据集名称

名称: 数据溯源倡议 (Data Provenance Initiative)
描述: 该数据集是一个多学科志愿者项目，旨在提高AI训练数据集的透明度、文档记录和负责任使用。

数据集内容

规模: 包含44个数据集，涵盖超过1800个微调文本到文本数据集。
元数据: 详细记录了每个数据集的网络和机器来源、许可证、创建者及其他元数据。
功能: 提供脚本帮助开发者根据自报告的许可证约束和其他数据特性筛选最适合其需求的微调数据集。

数据集使用

数据筛选: 用户可以通过特定的筛选条件从数据集中生成子集。
数据格式: 数据集以对话形式组织，每个对话由一系列消息组成，每条消息包含发送者（用户或助手）、消息内容、回复对象和可选的评分。
数据准备: 用户可以通过运行数据准备脚本来下载和筛选数据集，支持通过命令行参数或YAML配置文件进行定制。

数据集元数据

标识信息: 包括唯一数据集标识符、数据集名称、相关论文标题、数据集URL等。
数据特性: 描述数据集的语言、任务类别、文本来源、文本主题等。
数据溯源: 提供数据集的生成模型、文本来源、领域、人类注释情况、创建者、许可证及其条件等详细信息。

数据集贡献

贡献方式: 用户可以通过添加新的数据集或改进现有数据集来贡献。
添加新数据集: 需要创建JSON文件描述新数据集，编写下载器和数据准备器函数，并将新数据集添加到集合映射中。

法律声明

免责声明: 本数据集不提供法律建议，所有信息仅供一般信息目的。
许可证: 代码库采用Apache 2.0许可证。

搜集汇总

数据集介绍

构建方式

数据来源证明集合（Data Provenance Collection）通过大规模审计44个数据集，涵盖超过1800个微调文本到文本数据集，详细记录了其网络和机器来源、许可证、创建者及其他元数据。该数据集的构建过程包括从多个来源收集数据，如Hugging Face、Semantic Scholar和GitHub，并对其进行标准化处理，以确保数据的一致性和可用性。此外，数据集还包含了详细的元数据信息，如语言、任务类别、文本来源、文本主题等，以便用户可以根据特定需求筛选数据。

特点

数据来源证明集合的特点在于其全面性和透明性。该数据集不仅包含了大量的微调数据集，还详细记录了每个数据集的来源、许可证和创建者信息，确保了数据的可追溯性和合法使用。此外，数据集提供了多种筛选和过滤功能，用户可以根据语言、任务类别、文本来源等条件进行定制化选择，极大地提高了数据集的灵活性和适用性。

使用方法

使用数据来源证明集合时，用户首先需要通过pip安装相关依赖，然后运行下载和过滤脚本，根据需求筛选数据集。用户可以通过argparse或yaml配置文件传递参数，选择特定的数据子集。数据集的格式标准化为对话列表，每个消息包含发送者、文本内容、父消息ID和可选的评分信息。用户还可以生成Bibtex文件，用于引用数据集中的相关论文。

背景与挑战

背景概述

数据来源收集（Data Provenance Collection）是由多学科志愿者共同发起的一项倡议，旨在提升人工智能训练数据集的透明度、文档化和负责任使用。该倡议通过大规模审计44个数据集，涵盖超过1800个微调文本到文本数据集，首次发布详细记录了这些数据集的网络和机器来源、许可证、创建者及其他元数据。这一举措不仅为开发者提供了筛选符合其需求的数据集的工具，还通过数据来源浏览器（Data Provenance Explorer）展示了数据构成和不同筛选条件的影响。

当前挑战

数据来源收集面临的主要挑战包括：1) 数据集的多样性和复杂性，涉及多种语言、任务类别和文本来源，增加了数据处理的复杂度；2) 数据集的许可证和使用条件各异，需要精确分类和标注，以确保合规使用；3) 数据集的来源和生成过程的透明度不足，需要通过详细审计和记录来提高数据的可追溯性；4) 数据集的更新和扩展，需要持续的资源和工具支持，以及学术分析的深化。

常用场景

经典使用场景

数据来源证明集合（Data Provenance Collection）主要用于提升人工智能训练数据集的透明度和责任使用。该数据集通过详细记录44个数据集的来源、许可证、创建者和其他元数据，为研究人员和开发者提供了一个全面的审计工具。用户可以通过数据来源探索器（Data Provenance Explorer）查看数据组成，并根据自报告的许可证约束或其他数据特征筛选适合微调的数据集。

衍生相关工作

数据来源证明集合的发布催生了一系列相关研究和工作。例如，基于该数据集的研究论文探讨了数据集许可证和归属问题，推动了数据透明度和责任使用的学术讨论。此外，开发者社区利用该数据集创建了多种工具和脚本，用于自动化数据筛选和许可证合规性检查，进一步提升了数据集管理和使用的效率和规范性。

数据集最近研究