artem9k/ai-text-detection-pile

Name: artem9k/ai-text-detection-pile
Creator: artem9k
Published: 2023-02-27 03:37:54
License: 暂无描述

Hugging Face2023-02-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/artem9k/ai-text-detection-pile

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个大规模的数据集，旨在用于AI文本检测任务，特别是针对长文本和文章。它包含了人类文本和AI生成文本的样本，AI生成文本来自GPT2、GPT3、ChatGPT、GPTJ等模型。数据集的样本数量在README中进行了详细分类，包括人类文本和AI生成文本的来源、样本数量以及相关链接。数据集支持的任务包括文本分类和AI文本检测，语言为英语，数据字段包括TEXT（样本的文本）和SOURCE（来源，分为“human”或“ai”）。

提供机构：

artem9k

原始信息汇总

数据集概述

数据集名称

AI Text Detection Pile

数据集描述

这是一个大规模数据集，专为AI文本检测任务设计，主要针对长篇文本和论文。数据集包含人类文本和来自GPT2、GPT3、ChatGPT、GPTJ的AI生成文本样本。

数据集组成

人类文本

数据集名称	样本数量	链接
Reddit WritingPromps	570k	Link
OpenAI Webtext	260k	Link
HC3 (Human Responses)	58k	Link
ivypanda-essays	TODO	TODO
总计	990k	-

AI生成文本

模型	数据集名称	样本数量	链接
GPT2	OpenAI gpt2-output-dataset	260k	Link
GPT3	pairwise-davinci	44k	TODO
GPT3	synthetic-instruct-davinci-pairwise	30k	Link
GPTJ	synthetic-instruct-gptj-pairwise	44k	Link
ChatGPT	Scraped from twitter	5k	-
ChatGPT	HC3 (ChatGPT Responses)	27k	Link
ChatGPT	ChatGPT Prompts/emergentmind	500	Link
总计	340k	-	-

支持的任务

文本分类
AI文本检测

语言

英语

数据字段

TEXT: 样本的文本内容
SOURCE: 标识文本来源，可能是"human"或"ai"

搜集汇总

数据集介绍

构建方式

该数据集旨在服务于人工智能文本检测任务，特别是针对长篇文本和论文。它由人类文本和多种AI生成的文本构成，包括GPT2、GPT3、ChatGPT和GPTJ模型生成的文本。数据集的构建汇集了来自Reddit写作提示、OpenAI网络文本、HC3（人类回应）等多个来源的人类文本样本，以及通过不同AI模型生成的文本样本，总计约1330k个样本。

使用方法

使用该数据集时，研究者可以依据TEXT字段中的样本文本和SOURCE字段中的样本来源（人类或AI）进行文本分类或AI文本检测等任务。数据集的开放性和多样性使其成为训练和评估相关AI模型的宝贵资源。用户可以直接从指定的链接获取数据集样本，并在MIT许可证的允许范围内进行研究和开发。

背景与挑战

背景概述

AI Text Detection Pile数据集，由artem9k负责维护，旨在为AI文本检测任务提供大规模的数据支持，特别是针对长篇文本和论文。该数据集汇集了人类创作文本与AI生成文本，其中人类文本样本源自Reddit写作提示、OpenAI网络文本、HC3人类响应等，总计约990k样本；AI生成文本则来自GPT2、GPT3、GPTJ和ChatGPT等模型，总计约340k样本。该数据集的创建，不仅丰富了文本检测领域的研究材料，也为评估和提升AI文本生成模型的准确性提供了重要资源，对自然语言处理领域产生了显著影响。

当前挑战

该数据集在构建过程中所面临的挑战包括：1) 确保人类文本与AI生成文本的质量与准确性，以利于后续的文本检测任务；2) 处理不同来源和不同模型生成的文本之间的异质性，保证数据集的一致性和可用性。在研究领域问题方面，AI Text Detection Pile数据集的挑战在于如何精确地区分人类创作与AI生成的文本，这对于防止滥用AI生成内容、确保信息真实性等方面具有重要意义。

常用场景

经典使用场景

在人工智能研究领域，尤其是自然语言处理（NLP）领域，artem9k/ai-text-detection-pile数据集的重要性不容小觑。该数据集被广泛应用于AI文本检测任务中，尤其是针对长篇文本和论文。其经典使用场景在于训练和评估AI模型对人类文本与AI生成文本的区分能力，以提升文本分类和AI文本检测的准确性。

解决学术问题

该数据集解决了学术研究中关于AI生成文本与人类文本鉴别的问题，为研究者提供了一个丰富的样本集，使得能够更有效地训练模型以区分文本的来源。其意义和影响在于，有助于提高文本分类系统的可靠性，对于打击虚假信息和维护网络信息安全具有重要作用。

实际应用

在实际应用中，artem9k/ai-text-detection-pile数据集被用于开发能够检测和过滤AI生成内容的工具，这在内容审核、学术诚信检查以及网络安全等多个领域都有显著的应用价值。

数据集最近研究