ART&MH

github2026-03-21 更新2026-03-25 收录

下载链接：

https://github.com/cristian03git/DETECTION_GENAI

下载链接

链接失效反馈

官方服务：

资源简介：

ART&MH数据集用于检测AI生成文本的研究项目，包含人类书写文本和AI生成文本的数据，用于训练和评估多种神经网络架构。

The ART&MH dataset is designed for research projects focused on AI-generated text detection, encompassing data from both human-written and AI-generated texts, and is utilized to train and evaluate multiple neural network architectures.

创建时间：

2026-02-28

原始信息汇总

数据集概述

数据集基本信息

数据集名称：DETECTION_GENAI
主要用途：用于训练和评估检测AI生成文本的机器学习与深度学习模型。
核心任务：区分人类撰写的文本与AI生成的文本。

数据集内容与结构

数据集以CSV格式提供，包含以下文件：

dt_train_art&mh.csv
dt_test_art&mh.csv
dt_eval_art&mh.csv

这些文件包含用于训练和评估检测模型的标注样本，类别包括：

人类撰写的文本
AI生成的文本

结果文件

项目包含一个结果概览文件：

Overview_DetectionAI.xlsx：汇总了所有评估模型的主要实验结果，便于快速比较模型性能。

关联研究

本数据集伴随以下研究论文：

论文标题：Automatic Detection of Gen-AI Texts: A Comparative Framework of Neural Models
论文地址：https://arxiv.org/abs/2603.18750

技术依赖

项目实验主要依赖以下技术：

Python
Jupyter Notebook
Google Colab
深度学习框架（TensorFlow / PyTorch）
Scikit-learn

引用信息

若在研究中使用本数据集，请引用：

@misc{buttaro2026genai_detection, author = {Cristian Buttaro}, title = {Automatic Detection of Gen-AI Texts: A Comparative Framework of Neural Models}, year = {2026}, note = {GitHub repository} }

许可

本项目出于研究目的发布。

搜集汇总

数据集介绍

构建方式

在生成式人工智能技术迅猛发展的背景下，ART&MH数据集的构建旨在为AI生成文本的检测研究提供高质量的标注语料。该数据集通过系统性地收集和整理人类撰写的文本与AI生成的文本，构建了一个包含训练集、测试集和评估集的完整语料库。具体而言，数据集以CSV格式存储，明确标注了每段文本的来源类别，即人类书写或AI生成，确保了数据标注的清晰性与一致性，为后续的模型训练与评估奠定了坚实基础。

特点

ART&MH数据集的核心特点在于其专注于AI生成文本检测这一前沿领域，提供了多语言环境下的对比研究样本。数据集不仅涵盖了丰富的文本类型，还通过精心划分的训练、测试与评估子集，支持模型在不同阶段的性能验证。此外，该数据集与多种先进的神经网络架构兼容，包括卷积神经网络、MobileNet变体以及Transformer模型，为研究者探索不同算法在文本检测任务上的表现提供了灵活的实验平台。

使用方法

使用ART&MH数据集时，研究者可通过提供的Jupyter Notebook在Google Colab或本地环境中进行实验复现。首先，克隆项目仓库并安装必要的Python依赖库，如PyTorch和scikit-learn。随后，按照数据预处理、模型定义、训练与评估的流程，运行相应的Notebook文件。数据集已预先分割，用户可直接加载CSV文件进行模型训练，并通过集成的结果文件对比不同检测模型的性能，从而高效推进AI文本检测的相关研究。

背景与挑战

背景概述

随着生成式人工智能模型，尤其是大型语言模型的迅速普及，自动检测AI生成文本已成为自然语言处理领域的关键研究议题。ART&MH数据集应运而生，由研究人员Cristian Buttaro于2026年构建，旨在为比较不同神经网络架构在AI文本检测任务上的性能提供基准数据。该数据集的核心研究问题聚焦于如何有效区分人类撰写文本与AI生成文本，通过整合多语言语料，支持卷积神经网络、MobileNet衍生架构及Transformer模型等多种方法的评估。其在生成式AI内容识别领域的贡献，为后续模型鲁棒性与泛化能力的研究奠定了实证基础。

当前挑战

ART&MH数据集所针对的AI文本检测领域面临多重挑战：生成式模型输出与人类文本在风格和语义上的界限日益模糊，导致分类任务难度显著提升；同时，模型需应对多语言环境下的语法与表达差异，确保检测系统具有跨语言泛化能力。在数据集构建过程中，挑战主要源于数据收集与标注的复杂性，包括如何平衡人类与AI文本的样本分布，以及确保标注质量以反映真实场景中的文本特征。此外，构建适用于不同神经网络架构的统一特征表示，亦需克服数据预处理与格式标准化方面的技术障碍。

常用场景

经典使用场景

在生成式人工智能技术迅猛发展的背景下，ART&MH数据集被广泛用于训练和评估文本检测模型，以区分人类创作与机器生成的内容。该数据集通过提供标注清晰的文本样本，支持研究者构建卷积神经网络、Transformer架构等深度学习模型，进行二分类任务的性能验证与比较。

解决学术问题

该数据集有效应对了生成式人工智能文本检测中的核心挑战，包括模型泛化能力不足、跨语言适应性弱以及特征提取不充分等问题。通过提供多语言、多场景的文本对，它促进了检测算法在准确率与鲁棒性方面的提升，为自然语言处理领域中的可信AI研究奠定了数据基础。

衍生相关工作

围绕ART&MH数据集，已衍生出多项经典研究工作，例如基于CNN与MobileNet的轻量化检测模型、适应多语言环境的Transformer架构优化，以及针对单语种数据集的鲁棒性测试框架。这些工作进一步推动了AI文本检测技术在模型效率、跨语言迁移及对抗样本防御等方面的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集