AIPolished-Text Evaluation (APT-Eval)

Name: AIPolished-Text Evaluation (APT-Eval)
Creator: 美国马里兰大学
Published: 2025-02-22 02:45:37
License: 暂无描述

arXiv2025-02-22 更新2025-02-25 收录

下载链接：

https://github.com/ShoumikSaha/ai-polished-text.git

下载链接

链接失效反馈

官方服务：

资源简介：

AIPolished-Text Evaluation (APT-Eval)数据集是由美国马里兰大学创建的，包含11785条样本，这些样本是从预先存在的人类撰写的样本中经过不同程度的AI润色得到的。数据集涵盖了六个不同的领域，旨在评估AI文本检测系统对AI润色文本的响应。该数据集可以用于检测AI生成的文本和人类撰写的文本之间的边界，以及解决因AI润色导致的误分类问题。

The AIPolished-Text Evaluation (APT-Eval) dataset was developed by the University of Maryland, United States. It comprises 11,785 samples derived from pre-existing human-written texts, which have been subjected to varying degrees of AI polishing. The dataset covers six distinct domains, and is designed to evaluate the responsiveness of AI text detection systems to AI-polished texts. Additionally, this dataset can be employed to discern the boundary between AI-generated and human-written text, as well as address the misclassification problems caused by AI polishing.

提供机构：

美国马里兰大学

创建时间：

2025-02-22

搜集汇总

数据集介绍

构建方式

AIPolished-Text Evaluation (APT-Eval) 数据集的构建方法首先从现有的纯人类写作样本出发，这些样本选自 Zhang 等人 (2024) 的 'MixSet' 数据集，确保它们是在大型语言模型 (LLM) 广泛应用之前创作的，并涵盖了六个不同的领域。随后，研究人员使用不同的 LLM，如 GPT-4o 和 Llama3-70B 等，对每个原始样本进行了不同程度的修改，包括基于程度的修改和基于百分比的修改。每种修改策略都旨在生成具有不同 AI 参与水平的文本变体。最终，数据集包含了 11,700 个样本，这些样本经过筛选，以确保语义相似度至少为 0.85，从而保证了文本修改的质量和一致性。

使用方法

使用 APT-Eval 数据集的方法主要包括评估现有 AI 文本检测器的性能，以及开发新的检测算法。研究人员可以利用数据集中的样本，对检测器的准确性、误报率和领域特定敏感性进行分析。此外，APT-Eval 数据集还可以用于训练和测试新的 AI 文本检测模型，以提高它们对 AI 修改文本的识别能力。为了使用 APT-Eval 数据集，研究人员需要先了解数据集中的文本修改程度和领域分布，然后选择合适的检测器和评估指标，最后进行实验和分析。

背景与挑战

背景概述

随着大型语言模型（LLMs）在文本生成中的广泛应用，人们对AI生成内容的检测产生了广泛关注。然而，一个被忽视的挑战是AI修饰文本，即人类撰写的文本经过AI工具的微妙改进。本研究旨在解决这一挑战，并通过创建AIPolished-Text Evaluation (APT-Eval)数据集来评估现有AI文本检测器的性能。该数据集包含11.7K个样本，这些样本在AI参与程度不同的水平上进行改进。本研究的结果表明，检测器经常将即使是轻微修饰的文本误分类为AI生成的，难以区分AI参与的程度，并且对较旧和较小的模型存在偏见。这些局限性突显了迫切需要更精细的检测方法。

当前挑战

AI修饰文本检测的挑战包括：1) AI修饰文本的分类挑战：AI修饰文本是否应该被归类为AI生成的，以及如何准确地区分AI修饰文本与纯人类文本；2) 构建数据集的挑战：创建一个包含不同AI参与程度的文本样本的数据集，并确保样本的语义相似性和修改程度的一致性；3) AI文本检测器的性能评估挑战：评估现有AI文本检测器在处理AI修饰文本时的准确性和公平性，并识别其局限性和偏见。

常用场景

经典使用场景

AIPolished-Text Evaluation (APT-Eval) 数据集主要用于评估和测试 AI 文本检测器的性能，特别是在检测 AI 修饰过的文本方面。通过对不同程度的 AI 修饰进行系统性评估，该数据集为研究 AI 文本检测器的局限性和改进方向提供了重要的参考。

解决学术问题

该数据集解决了 AI 修饰文本检测的学术研究问题，揭示了当前 AI 文本检测器在处理 AI 修饰文本时的局限性，包括高误报率、难以区分不同程度的 AI 修饰以及针对较旧或较小模型存在偏见等问题。这些发现对于改进 AI 文本检测器的准确性和公平性具有重要意义。

实际应用

该数据集在实际应用场景中，可以用于帮助研究人员和教育机构更好地理解 AI 修饰文本的特点和检测方法，从而更准确地评估和识别 AI 修饰文本。此外，该数据集还可以用于开发更先进的 AI 文本检测器，以应对不断发展的 AI 修饰技术。

数据集最近研究