APT-Eval

github2025-03-01 更新2025-03-09 收录

下载链接：

https://github.com/ShoumikSaha/ai-polished-text

下载链接

链接失效反馈

官方服务：

资源简介：

APT-Eval是一个覆盖不同程度AI润色的唯一数据集

APT-Eval is a unique dataset covering varying degrees of AI-polished content

创建时间：

2025-02-21

原始信息汇总

APT-Eval 数据集概述

数据集简介

数据集名称：APT-Eval
数据集大小：包含超过11.7K个AI润色文本样本
数据集类型：文本
数据集来源：GitHub 仓库

数据集内容

润色类型：包含无润色（纯HWT）、基于程度的润色和基于百分比的润色
具体分布：
- 无润色（纯HWT）：300个样本
- 基于程度的润色：4406个样本
- 基于百分比的润色：7379个样本
总样本数：11785个样本

数据集结构

存储路径：data/polished目录下
额外信息：data/polished_json目录下包含距离和相似度度量的所有样本（未过滤）

数据集用途

用于评估检测AI润色文本的检测器

相关文献

Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing

搜集汇总

数据集介绍

构建方式

APT-Eval数据集的构建采取了对不同程度的AI润色文本进行收集与整合的方法，涵盖了11785个样本，其中包括了未经润色的纯人类写作文本以及不同程度的AI润色文本，旨在为AI写作检测研究提供全面且具有挑战性的数据基础。

特点

该数据集的特点在于其独特性，它是目前唯一一个覆盖了不同润色程度的AI润色文本的数据库。数据集根据润色类型和润色程度进行了详细的分类，包括了基于程度和基于百分比的润色文本，为评估AI写作检测器的性能提供了丰富的测试场景。

使用方法

使用APT-Eval数据集首先需要通过conda环境进行配置，随后可以运行包含的检测器或者自定义的检测器进行文本检测。数据集的使用包括检测器的验证、预测以及结果的评估，均通过命令行接口实现，同时提供了自动化脚本来简化处理流程。

背景与挑战

背景概述

在人工智能领域，文本生成与检测技术的发展日新月异。APT-Eval数据集，创建于2025年，由Shoumik Saha和Soheil Feizi主导研发，旨在解决AI润色文本检测的问题。该数据集涵盖了11785个AI润色文本样本，是首个涵盖不同润色程度的AI文本数据集，对学术界和工业界在AI文本检测领域的研究具有重要的影响力。

当前挑战

APT-Eval数据集在构建过程中，面临了多方面的挑战。首先，如何准确区分不同程度的AI润色文本，确保数据集的多样性和代表性；其次，数据集的构建需要大量的人工标注和验证，这既费时又费力。在研究领域问题上，AI润色文本的检测面临巨大挑战，如何提高检测器的准确性和鲁棒性，避免误判和漏判，是当前亟待解决的问题。

常用场景

经典使用场景

在当前人工智能技术飞速发展的时代背景下，APT-Eval数据集应运而生，旨在评估和检测AI润色文本的能力。该数据集的经典使用场景主要集中于文本润色检测模型的训练与评估，通过对不同程度润色文本的检测，以判断模型对于AI生成文本的识别准确性。

实际应用

在实际应用中，APT-Eval数据集可用于教育、出版、法律等多个领域，帮助相关行业识别并处理AI生成的文本，确保内容真实性，维护知识产权。

衍生相关工作

基于APT-Eval数据集，研究者们已衍生出多项相关工作，如AI文本检测模型的开发、润色程度的量化分析等，这些研究进一步拓宽了自然语言处理领域的研究边界，推动了相关技术的进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集