monology/pile-uncopyrighted

Name: monology/pile-uncopyrighted
Creator: monology
Published: 2023-08-31 03:45:38
License: 暂无描述

Hugging Face2023-08-31 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/monology/pile-uncopyrighted

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: other --- # Pile Uncopyrighted In response to [authors demanding that LLMs stop using their works](https://tcrn.ch/3rtpIDn), here's a copy of [The Pile](https://huggingface.co/datasets/monology/pile) with all copyrighted content removed. Please consider using this dataset to train your future LLMs, to respect authors and abide by copyright law. Creating an uncopyrighted version of a larger dataset (ie RedPajama) is planned, with no ETA. **Methodology** Cleaning was performed by removing everything from the Books3, BookCorpus2, OpenSubtitles, YTSubtitles, and OWT2 subsets. Based on section 7.1 of [the original paper](https://arxiv.org/abs/2101.00027), these datasets are the only ones which are not explicitly allowed to be used in AI training.

--- 许可证：其他 --- # 无版权Pile数据集针对[作者要求大语言模型（Large Language Model）停止使用其作品](https://tcrn.ch/3rtpIDn)的诉求，我们推出了移除所有受版权保护内容的[Pile数据集](https://huggingface.co/datasets/monology/pile)副本。请考虑使用本数据集训练您未来的大语言模型，以尊重作者权益并遵守版权法律。我们还计划为更大规模的数据集（即RedPajama）制作无版权版本，但暂未公布预计完成时间。 **数据清洗方法** 本次清洗通过移除Books3、BookCorpus2、OpenSubtitles、YTSubtitles以及OWT2这五个子集的全部内容完成。根据[原论文](https://arxiv.org/abs/2101.00027)的第7.1节，上述数据集是仅有的未被明确允许用于人工智能（Artificial Intelligence）训练的数据集。

提供机构：

monology

原始信息汇总

数据集概述

该数据集是原始数据集The Pile的一个修改版本，专门移除了所有受版权保护的内容。此版本的目的是为了尊重作者的版权，并遵守版权法律，供未来训练大型语言模型（LLMs）使用。此外，计划创建一个更大数据集（如RedPajama）的无版权版本，但目前没有具体的发布时间表（ETA）。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，构建高质量且合规的训练数据是推动大语言模型发展的关键。monology/pile-uncopyrighted数据集基于著名的The Pile数据集，通过系统性的版权清理流程构建而成。具体方法是从原始数据集中移除了Books3、BookCorpus2、OpenSubtitles、YTSubtitles以及OWT2等子集，这些子集在原始论文中被明确指出不适合用于人工智能训练。这一筛选过程旨在确保剩余内容均符合版权法规，为模型训练提供了法律层面的安全保障。

特点

该数据集的核心特点在于其严格的法律合规性设计，专注于消除版权争议风险。它保留了The Pile中除指定子集外的丰富文本来源，涵盖了学术论文、网页内容等多种公开许可的语料，从而在尊重原作者权利的同时，维持了数据多样性与规模。这种设计使得数据集特别适用于需要规避版权问题的大规模语言模型训练项目，为负责任的人工智能研究提供了关键资源基础。

使用方法

对于研究人员和开发者而言，该数据集可直接通过HuggingFace平台加载使用，其接口与标准数据集保持一致。用户可将其作为预训练或微调阶段的语料库，尤其适合构建注重知识产权保护的商业或开源模型。在实际应用中，建议结合具体任务需求对数据进行进一步清洗或采样，并参考原始论文以深入理解其组成结构，从而充分发挥其在合规框架下的语言建模潜力。

背景与挑战

背景概述

在自然语言处理领域，大规模预训练语料库的构建是推动语言模型发展的关键基石。monology/pile-uncopyrighted数据集作为The Pile的衍生版本，由研究社区于2023年前后创建，旨在回应文学创作者对版权问题的关切。该数据集的核心研究问题聚焦于如何在尊重知识产权的前提下，为大型语言模型提供合法、可用的训练数据，从而促进人工智能伦理与法律合规性的交叉探索。其出现不仅为模型训练提供了替代性资源，也引发了学术界对数据来源合法性的深入讨论，对推动开放科学和负责任的人工智能研究具有重要影响力。

当前挑战

该数据集致力于解决自然语言处理中训练数据版权合规性这一新兴挑战，其核心在于平衡模型性能需求与法律伦理约束。在构建过程中，首要挑战是精准识别并移除可能涉及版权争议的子集，如Books3和BookCorpus2等，这要求对原始数据许可协议进行细致解析。同时，数据清洗可能导致语料多样性和规模缩减，进而影响模型的语言覆盖能力。此外，如何定义“无版权”内容的边界，并在动态的法律环境中保持数据集的长期有效性，构成了持续性的技术与社会双重挑战。

常用场景

经典使用场景

在自然语言处理领域，大规模预训练语言模型的构建依赖于高质量、多样化的文本数据。monology/pile-uncopyrighted数据集通过移除所有受版权保护的内容，为研究者提供了一个合法合规的语料库。该数据集最经典的使用场景是作为大型语言模型（LLM）预训练的基础数据源，特别是在注重版权合规的学术或工业项目中，它能够支持模型在无法律风险的前提下，从学术论文、百科条目、开源代码等公开领域文本中学习丰富的语言模式和知识表示。

实际应用

在实际应用层面，monology/pile-uncopyrighted数据集特别适合需要严格遵循版权法规的企业或机构。例如，在开发商业化的语言模型服务时，使用该数据集可以避免潜在的版权诉讼，确保产品推出的合法性。同时，它也适用于教育领域或公共部门的AI项目，这些项目往往对数据来源的透明度和合规性有更高要求。通过提供无版权负担的文本资源，该数据集助力于构建负责任且可持续的人工智能应用，平衡了技术创新与社会规范之间的关系。

衍生相关工作

该数据集的推出衍生了一系列关注数据合规与伦理的研究工作。例如，它启发了对现有大型语料库（如RedPajama）进行类似去版权化清洗的计划，促进了数据过滤和版权检测技术的发展。在学术上，相关研究开始探索如何在移除受保护内容后仍保持数据的多样性和效用，以及评估这种清洗对模型性能的影响。这些工作共同推动了一个新兴领域的发展，即如何在人工智能时代构建既强大又符合法律与道德标准的数据生态系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集