human-AI-generatedTextCorpus

github2024-05-06 更新2024-05-31 收录

下载链接：

https://github.com/LorenzM97/human-AI-generatedTextCorpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含教育领域的人类生成、AI生成以及AI改写的英文、法文、德文、西班牙文文本，以及新闻领域的英文文本。教育领域的人类生成文本包括100篇来自生物学、化学、地理、历史等10个类别的维基百科文本。新闻领域的人类生成文本包括100篇来自犯罪、娱乐、政治等5个类别的新闻文章。AI生成的文本使用GPT-3.5生成，每篇人类生成文本对应4篇AI生成文本，使用不同的提示进行生成和改写。

This dataset encompasses human-generated, AI-generated, and AI-revised texts in English, French, German, and Spanish within the educational domain, as well as English texts in the news domain. The human-generated texts in the educational domain include 100 Wikipedia articles across 10 categories such as biology, chemistry, geography, and history. The human-generated texts in the news domain comprise 100 news articles from 5 categories including crime, entertainment, and politics. The AI-generated texts were produced using GPT-3.5, with each human-generated text corresponding to 4 AI-generated texts, created and revised using different prompts.

创建时间：

2023-05-18

原始信息汇总

Human-AI-Generated Text Corpus 概述

数据集内容

教育领域文本：包含英语、法语、德语、西班牙语四种语言的文本。
- 人类生成文本：100篇维基百科文章，涵盖以下类别：
  - 生物学
  - 化学
  - 地理
  - 历史
  - IT
  - 音乐
  - 政治
  - 宗教
  - 体育
  - 视觉艺术
- AI生成文本：使用GPT-3.5模型，针对每篇人类生成文本，生成4种不同类型的AI文本：
  - 基本AI生成：基于主题<Title>生成文本。
  - 高级AI生成：模拟人类方式基于主题<Title>生成文本。
  - 基本AI改写：基于主题<Text>改写文本。
  - 高级AI改写：模拟人类方式基于主题<Text>改写文本。
新闻领域文本：仅包含英语文本。
- 人类生成文本：100篇新闻文章，涵盖以下类别：
  - 犯罪
  - 娱乐
  - 政治
  - 科学
  - 体育

语言支持

教育领域文本支持英语、法语、德语、西班牙语。
新闻领域文本仅支持英语。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于教育领域和新闻领域的文本，涵盖英语、法语、德语和西班牙语。教育领域的文本来源于维基百科的100篇文章，涉及生物学、化学、地理学等十个类别；新闻领域的文本则包括来自犯罪、娱乐、政治等五个类别的100篇新闻文章。为了生成AI撰写的文本，使用了GPT-3.5模型，针对每篇人类撰写的文本，生成了四种不同类型的AI文本：基础AI生成、高级AI生成、基础AI改写和高级AI改写。这些生成和改写的文本通过特定的提示词进行，确保了文本的多样性和复杂性。

特点

该数据集的显著特点在于其跨语言和跨领域的广泛覆盖，不仅包含了人类撰写的原始文本，还通过AI生成了多种变体，从而提供了丰富的对比材料。此外，数据集中的文本类型多样，从基础的AI生成到高级的AI改写，每种类型都旨在模拟不同的写作风格和复杂度，为研究AI生成文本的多样性和质量提供了宝贵的资源。

使用方法

该数据集适用于多种自然语言处理任务，如文本分类、风格迁移和生成模型评估等。研究者可以通过对比人类与AI生成的文本，分析AI在不同语言和领域中的表现。此外，数据集中的多语言特性使其成为跨语言自然语言处理研究的理想选择。使用时，用户可以根据需要选择特定的文本类型和语言，进行深入的分析和实验。

背景与挑战

背景概述

在人工智能与自然语言处理领域，区分人类生成文本与AI生成文本的能力日益成为研究焦点。Human-AI-Generated Text Corpus数据集应运而生，旨在通过提供多语言、多领域的文本数据，推动这一领域的研究进展。该数据集由教育领域和新闻领域的文本组成，涵盖英语、法语、德语和西班牙语，包含人类撰写的原始文本、AI生成的文本以及AI改写的文本。通过使用GPT-3.5模型，数据集不仅提供了基础的AI生成文本，还模拟了高级AI生成和改写，力求在风格和内容上接近人类写作。这一数据集的创建，为研究者提供了丰富的资源，以探索和评估AI生成文本的识别与区分技术，进而提升自然语言处理系统的性能。

当前挑战

Human-AI-Generated Text Corpus数据集在构建过程中面临多项挑战。首先，如何在不同语言和文化背景下保持文本的多样性和代表性，是一个复杂的问题。其次，AI生成文本的质量和人类文本的相似度需要精确控制，以确保数据集的有效性和实用性。此外，数据集的规模和多样性要求高，如何在有限的资源下生成足够数量的文本，同时保证其质量，也是一大挑战。最后，随着AI技术的快速发展，如何持续更新和扩展数据集，以反映最新的AI生成技术，也是一个需要长期关注的问题。这些挑战不仅影响数据集的构建，也对相关领域的研究提出了更高的要求。

常用场景

经典使用场景

Human-AI-Generated Text Corpus数据集的经典使用场景主要集中在自然语言处理领域，特别是在文本生成和文本重述任务中。该数据集通过提供人类编写和AI生成的文本，以及AI重述的文本，为研究者提供了一个丰富的资源来评估和比较不同文本生成模型的性能。例如，研究者可以利用该数据集来训练和测试模型，以区分人类编写的文本和AI生成的文本，或者评估AI模型在不同语言和领域中的文本生成能力。

解决学术问题

该数据集解决了自然语言处理领域中关于文本生成和文本重述的多个关键学术问题。首先，它为研究者提供了一个标准化的基准，用于评估和比较不同文本生成模型的性能，特别是在多语言和多领域环境下的表现。其次，通过提供AI生成的文本和AI重述的文本，该数据集有助于研究者探索和理解AI生成文本的特性，以及如何改进这些模型的自然性和准确性。此外，该数据集还为研究者提供了一个平台，用于研究AI生成文本与人类编写文本之间的差异，从而推动文本生成技术的发展。

衍生相关工作

基于Human-AI-Generated Text Corpus数据集，已经衍生出多项经典工作。例如，研究者利用该数据集开发了新的文本生成模型，这些模型在多语言和多领域环境下表现出色。此外，该数据集还激发了关于AI生成文本质量评估的研究，推动了新的评估指标和方法的发展。同时，该数据集也为跨语言文本生成和重述的研究提供了宝贵的资源，促进了多语言自然语言处理技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集