AIPolished-Text Evaluation (APT-Eval)
收藏arXiv2025-02-22 更新2025-02-25 收录
下载链接:
https://github.com/ShoumikSaha/ai-polished-text.git
下载链接
链接失效反馈官方服务:
资源简介:
AIPolished-Text Evaluation (APT-Eval)数据集是由美国马里兰大学创建的,包含11785条样本,这些样本是从预先存在的人类撰写的样本中经过不同程度的AI润色得到的。数据集涵盖了六个不同的领域,旨在评估AI文本检测系统对AI润色文本的响应。该数据集可以用于检测AI生成的文本和人类撰写的文本之间的边界,以及解决因AI润色导致的误分类问题。
The AIPolished-Text Evaluation (APT-Eval) dataset was developed by the University of Maryland, United States. It comprises 11,785 samples derived from pre-existing human-written texts, which have been subjected to varying degrees of AI polishing. The dataset covers six distinct domains, and is designed to evaluate the responsiveness of AI text detection systems to AI-polished texts. Additionally, this dataset can be employed to discern the boundary between AI-generated and human-written text, as well as address the misclassification problems caused by AI polishing.
提供机构:
美国马里兰大学
创建时间:
2025-02-22
搜集汇总
数据集介绍

构建方式
AIPolished-Text Evaluation (APT-Eval) 数据集的构建方法首先从现有的纯人类写作样本出发,这些样本选自 Zhang 等人 (2024) 的 'MixSet' 数据集,确保它们是在大型语言模型 (LLM) 广泛应用之前创作的,并涵盖了六个不同的领域。随后,研究人员使用不同的 LLM,如 GPT-4o 和 Llama3-70B 等,对每个原始样本进行了不同程度的修改,包括基于程度的修改和基于百分比的修改。每种修改策略都旨在生成具有不同 AI 参与水平的文本变体。最终,数据集包含了 11,700 个样本,这些样本经过筛选,以确保语义相似度至少为 0.85,从而保证了文本修改的质量和一致性。
使用方法
使用 APT-Eval 数据集的方法主要包括评估现有 AI 文本检测器的性能,以及开发新的检测算法。研究人员可以利用数据集中的样本,对检测器的准确性、误报率和领域特定敏感性进行分析。此外,APT-Eval 数据集还可以用于训练和测试新的 AI 文本检测模型,以提高它们对 AI 修改文本的识别能力。为了使用 APT-Eval 数据集,研究人员需要先了解数据集中的文本修改程度和领域分布,然后选择合适的检测器和评估指标,最后进行实验和分析。
背景与挑战
背景概述
随着大型语言模型(LLMs)在文本生成中的广泛应用,人们对AI生成内容的检测产生了广泛关注。然而,一个被忽视的挑战是AI修饰文本,即人类撰写的文本经过AI工具的微妙改进。本研究旨在解决这一挑战,并通过创建AIPolished-Text Evaluation (APT-Eval)数据集来评估现有AI文本检测器的性能。该数据集包含11.7K个样本,这些样本在AI参与程度不同的水平上进行改进。本研究的结果表明,检测器经常将即使是轻微修饰的文本误分类为AI生成的,难以区分AI参与的程度,并且对较旧和较小的模型存在偏见。这些局限性突显了迫切需要更精细的检测方法。
当前挑战
AI修饰文本检测的挑战包括:1) AI修饰文本的分类挑战:AI修饰文本是否应该被归类为AI生成的,以及如何准确地区分AI修饰文本与纯人类文本;2) 构建数据集的挑战:创建一个包含不同AI参与程度的文本样本的数据集,并确保样本的语义相似性和修改程度的一致性;3) AI文本检测器的性能评估挑战:评估现有AI文本检测器在处理AI修饰文本时的准确性和公平性,并识别其局限性和偏见。
常用场景
经典使用场景
AIPolished-Text Evaluation (APT-Eval) 数据集主要用于评估和测试 AI 文本检测器的性能,特别是在检测 AI 修饰过的文本方面。通过对不同程度的 AI 修饰进行系统性评估,该数据集为研究 AI 文本检测器的局限性和改进方向提供了重要的参考。
解决学术问题
该数据集解决了 AI 修饰文本检测的学术研究问题,揭示了当前 AI 文本检测器在处理 AI 修饰文本时的局限性,包括高误报率、难以区分不同程度的 AI 修饰以及针对较旧或较小模型存在偏见等问题。这些发现对于改进 AI 文本检测器的准确性和公平性具有重要意义。
实际应用
该数据集在实际应用场景中,可以用于帮助研究人员和教育机构更好地理解 AI 修饰文本的特点和检测方法,从而更准确地评估和识别 AI 修饰文本。此外,该数据集还可以用于开发更先进的 AI 文本检测器,以应对不断发展的 AI 修饰技术。
数据集最近研究
最新研究方向
AIPolished-Text Evaluation (APT-Eval)数据集的最新研究方向主要聚焦于AI润色文本的检测,特别是在人类撰写内容经过AI工具的微妙改进后,如何准确地区分其与纯AI生成文本。该数据集的创建旨在评估现有AI文本检测器的性能,并揭示其在处理AI润色文本时的局限性。研究发现,现有的检测器在区分AI润色文本时存在高误报率,难以区分不同程度的AI参与,并对较旧或较小的模型存在偏见。这些发现突显了对更精细的检测方法的迫切需求,以确保在AI辅助写作评估中的准确性和公平性。此外,研究还强调了在不同文本领域中检测准确性的不一致性,这引发了对检测器偏差和可靠性的质疑。因此,APT-Eval数据集为研究人员提供了宝贵的资源,以进一步探索AI润色文本检测的挑战,并推动检测技术的发展。
相关研究论文
- 1Almost AI, Almost Human: The Challenge of Detecting AI-Polished Writing美国马里兰大学 · 2025年
以上内容由遇见数据集搜集并总结生成



