Common Corpus

github2024-11-10 更新2024-11-28 收录

下载链接：

https://github.com/Pleias/toxic-commons

下载链接

链接失效反馈

官方服务：

资源简介：

Common Corpus 是用于训练大型语言模型（LLMs）的最大公共领域数据集。它被设计用于与Celadon模型一起工作，以过滤和分类预训练数据中的毒性内容。

Common Corpus is the largest public-domain dataset for training large language models (LLMs). It is designed to work with the Celadon model to filter and classify toxic content within pre-training data.

创建时间：

2024-10-31

原始信息汇总

Toxic Commons 数据集概述

数据集简介

Toxic Commons 是一个用于过滤大型语言模型（LLM）预训练数据的框架，由 PleIAs 创建。该数据集和相关模型 Celadon 是论文 Toxicity of the Commons: Curating Open Source Pre-Training Data 的研究成果。Celadon 模型旨在更高效地分类有毒数据，以节省计算资源和时间，用于更大规模的模型训练。

数据集结构

Toxic Commons 数据集包含以下主要部分：

Celadon 模型：用于初步过滤数据，评估数据的毒性水平。
数据分类：根据 Celadon 模型的输出，数据被分为三类：
- 无毒性：总分在 0-3 之间，且没有任何单项得分超过 2。
- 轻度毒性：总分在 4-6 之间，或总分为 3 且仅有一个单项得分为 3。
- 有毒内容：总分达到 7 或更高，需要进一步审查。
LLM 标注：使用 Llama 3.1 8B Instruct 模型对数据进行进一步标注和重写，以减少有害内容。

数据集使用

安装

Celadon 模型兼容 HuggingFace Transformers，安装步骤如下：

下载模型：git clone https://huggingface.co/PleIAs/celadon
导入模型类：from celadon.model import MultiHeadDebertaForSequenceClassification
导入 AutoTokenizer：from transformers import AutoTokenizer
加载 tokenizer：tokenizer = AutoTokenizer.from_pretrained("celadon")
加载模型：model = MultiHeadDebertaForSequenceClassification.from_pretrained("celadon")

使用示例

以下是一个使用 Celadon 模型分类单个样本的示例脚本： python from transformers import AutoTokenizer from celadon.model import MultiHeadDebertaForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("celadon") model = MultiHeadDebertaForSequenceClassification.from_pretrained("celadon") model.eval()

sample_text = "This is an example of a normal sentence"

inputs = tokenizer(sample_text, return_tensors="pt", padding=True, truncation=True) outputs = model(input_ids=inputs[input_ids], attention_mask=inputs[attention_mask])

categories = [Race/Origin, Gender/Sex, Religion, Ability, Violence] predictions = outputs.argmax(dim=-1).squeeze().tolist()

打印每个类别的分类结果

print(f"Text: {sample_text}") for i, category in enumerate(categories): print(f"Prediction for Category {category}: {predictions[i]}")

引用

@article{arnett2024toxicity, title={{Toxicity of the Commons: Curating Open-Source Pre-Training Data}}, author={Arnett, Catherine and Jones, Eliot and Yamshchikov, Ivan P. and Langlais, Pierre-Carl}, journal={arXiv preprint arXiv:2410.22587}, url={https://arxiv.org/pdf/2410.22587}, year={2024} }

许可证

MIT License

Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the "Software"), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

搜集汇总

数据集介绍

构建方式

Common Corpus数据集的构建基于一个三步流水线，旨在过滤和重构预训练数据中的有害内容。首先，数据通过Celadon模型进行初步的毒性评估，该模型以性能为优先，提供毒性水平的近似值。随后，根据设定的毒性阈值，数据被分为无毒、轻度毒性和毒性三类。最后，使用LLM注释器对标记为轻度毒性或毒性的样本进行进一步处理，包括内容警告和合成重写，以确保数据集的最终质量。

特点

Common Corpus数据集的主要特点在于其针对大型语言模型预训练数据的高效过滤和重构机制。通过多步骤的流水线处理，数据集不仅能够识别和分类不同程度的毒性内容，还能通过LLM注释器进行内容修正，确保数据集的多样性和安全性。此外，该数据集与Celadon模型紧密结合，适用于大规模的预训练任务，具有较高的实用性和适应性。

使用方法

使用Common Corpus数据集时，首先需通过Celadon模型对数据进行毒性评估，并根据评估结果进行分类。对于轻度毒性和毒性样本，可利用LLM注释器进行内容修正。数据集的加载和使用可通过HuggingFace Transformers库实现，具体步骤包括下载模型、导入相关类、加载分词器和模型，以及进行文本分类。示例脚本展示了如何使用Celadon模型对单个样本进行分类，确保用户能够快速上手并应用于实际任务中。

背景与挑战

背景概述

Common Corpus，作为训练大型语言模型（LLMs）的最大公开领域数据集，由PleIAs团队创建，旨在解决预训练数据中的有害行为和偏见问题。该数据集的核心研究问题是如何高效地过滤和重构预训练数据，以减少模型在训练过程中可能产生的有害输出。Common Corpus的开发源于Catherine Arnett和Eliot Jones的研究论文《Toxicity of the Commons: Curating Open-Source Pre-Training Data》，该论文详细阐述了如何通过Celadon模型对数据进行分类和过滤，从而提升预训练数据的质量。这一研究不仅对LLMs的训练具有重要意义，也为未来数据集的构建提供了新的方法论。

当前挑战

Common Corpus在构建过程中面临的主要挑战包括：1) 如何高效地识别和过滤预训练数据中的有害内容，这需要开发高性能的分类模型如Celadon；2) 如何确保过滤后的数据仍然能够保留足够的多样性和信息量，以支持模型的全面训练；3) 如何适应不同的数据集类型，因为Celadon模型目前主要针对Common Corpus设计，可能不适用于其他类型的数据集，如主要由网络文本组成的数据集。此外，数据集的构建还需要考虑如何在保持数据质量的同时，确保计算资源的有效利用。

常用场景

经典使用场景

在自然语言处理领域，Common Corpus 数据集的经典使用场景主要集中在大型语言模型（LLMs）的预训练阶段。该数据集被设计用于训练和微调模型，以识别和过滤潜在的有害内容。通过与Celadon模型的结合，Common Corpus 能够有效地筛选出具有潜在毒性的文本，从而提升模型的安全性和可靠性。这一过程不仅优化了模型的训练效率，还显著减少了有害内容对模型的负面影响。

衍生相关工作

基于Common Corpus 数据集，研究者们开发了多种相关工作，包括但不限于改进的毒性检测算法、更高效的文本分类模型以及新型的数据清洗技术。这些工作不仅推动了自然语言处理技术的发展，还为相关领域的研究提供了新的思路和方法。例如，Celadon模型的成功应用激发了更多关于如何优化预训练数据质量的研究，进一步促进了该领域的创新和进步。

数据集最近研究