SHIELD
收藏arXiv2025-07-21 更新2025-07-23 收录
下载链接:
https://github.com/navid-aub/SHIELD-Benchmark
下载链接
链接失效反馈官方服务:
资源简介:
SHIELD数据集由休斯顿大学的研究团队创建,旨在为大型语言模型生成的文本检测提供一个公平且实用的评估标准。数据集包含多种写作风格,如新闻、评论、问答等,并提供了人类撰写和LLM生成的文本样本,以及针对不同难度级别的文本样本。该数据集通过引入控制难度参数的人性化框架,使得AI生成的文本更接近人类作者的写作风格,从而为检测模型的鲁棒性和稳定性提供更具挑战性的评估场景。
The SHIELD dataset was developed by a research team from the University of Houston, aiming to provide a fair and practical evaluation benchmark for detecting texts generated by large language models (LLMs). The dataset includes multiple writing styles such as news articles, product reviews, question-answering contents, etc., and provides text samples written by humans, generated by LLMs, as well as samples across different difficulty levels. This dataset introduces a human-centric framework with controllable difficulty parameters, enabling AI-generated texts to closely align with the writing styles of human authors, thus creating more challenging evaluation scenarios for testing the robustness and stability of text detection models.
提供机构:
休斯顿大学
创建时间:
2025-07-21
原始信息汇总
SHIELD-Benchmark数据集概述
基本信息
- 数据集名称:SHIELD-Benchmark
- 当前状态:待更新(This repository will be updated.)
备注
- 该数据集目前尚未提供具体信息,建议持续关注更新。
搜集汇总
数据集介绍

构建方式
SHIELD数据集的构建采用了多源文本采集策略,涵盖七种文体风格(包括Medium半正式文章、新闻报导、亚马逊评论等),通过七种开源大语言模型(如Llama3、Mistral-7b等)对预LLM时代的人类文本进行同义改写。为确保数据纯净性,所有人类文本均采集于2021年前,并通过分层抽样控制文本长度分布。创新性地引入三重人文化处理策略(随机保义突变、AI标记词替换、递归人文化循环),结合互信息量化指标构建词汇分类体系,生成具有可控难度梯度的对抗样本。
特点
该数据集的核心特征体现在其多维评估体系:包含87.5万人类文本和612.5万机器生成文本的规模优势;通过参数化控制生成文本的人文化程度(10%-100%替换比例或5-40轮递归),形成渐进式难度曲线;首创统一可靠性-稳定性评分(URSS)指标,融合加权AUROC与FPR偏离稳定性检测,突破传统AUROC指标的局限性。其文体多样性覆盖学术写作到社交媒体文本,模型覆盖面包含不同参数规模的开放模型,为检测器提供全面压力测试环境。
使用方法
使用SHIELD需遵循三阶段流程:首先通过基准测试评估检测器在原始生成文本上的性能;继而应用三级人文化策略(RMM/AWS/RHL)生成对抗样本,调节硬度参数观察性能衰减;最终采用URSS指标进行多维度评估,重点分析低FPR区间的稳定性表现。数据集支持分文体/分模型粒度的对比实验,配套提供硬度等级标注和词汇互信息评分,可用于检测器的对抗训练、鲁棒性验证及阈值优化研究。
背景与挑战
背景概述
SHIELD数据集由休斯顿大学的Navid Ayoobi、Sadat Shahriar和Arjun Mukherjee等研究人员于2025年提出,旨在解决大语言模型(LLM)生成文本检测中的现实评估问题。该数据集通过整合可靠性和稳定性因素,提出了统一的评估指标,并开发了一种模型无关的人类化框架,以生成具有可控难度梯度的文本样本。SHIELD数据集包含87.5k人类撰写文本和612.5k LLM生成文本,覆盖多种写作风格,如新闻、评论和科学摘要等。其创新性在于首次将人类化样本和公平性评估方法引入基准测试,填补了现有评估范式的空白。
当前挑战
SHIELD数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,LLM生成文本的检测面临泛化性不足的问题,尤其是在面对未见过的模型或陌生文体时,检测器的性能显著下降。此外,检测器对文本长度修改、对抗性技术(如复述和风格转换)的鲁棒性较差。在构建过程中,数据集的创建需要处理多种写作风格和生成模型的多样性,确保人类化文本的语义连贯性,同时控制难度梯度。此外,设计公平性评估指标时需平衡低误报率和检测器稳定性,这对数据集的构建提出了较高要求。
常用场景
经典使用场景
SHIELD数据集在自然语言处理领域中被广泛应用于评估AI生成文本检测器的性能。该数据集通过整合多种写作风格和不同难度级别的文本,为研究者提供了一个全面的测试平台。其经典使用场景包括检测大语言模型生成的文本,评估检测器在对抗性攻击下的稳定性,以及验证检测算法在低误报率下的可靠性。
解决学术问题
SHIELD数据集解决了AI生成文本检测领域中的多个关键学术问题。首先,它弥补了现有评估方法忽视误报率影响的缺陷,通过引入加权AUROC(W-AUROC)指标,更准确地反映检测器在实际应用中的性能。其次,该数据集通过稳定性指标(SFD)量化检测器在不同场景下的阈值动态变化,解决了传统评估忽视系统稳定性的问题。此外,其可控难度的人类化文本生成框架为研究检测器的鲁棒性提供了系统化工具。
衍生相关工作
SHIELD数据集推动了多项相关研究的发展。基于其评估框架,研究者开发了更先进的零样本检测方法如Binoculars和Fast-DetectGPT。该数据集还启发了对抗性文本生成技术的研究,如人类化框架被应用于改进文本水印技术。此外,其评估指标被扩展应用于多语言文本检测基准的构建,如M4GT-Bench等后续工作都借鉴了SHIELD的设计理念。
以上内容由遇见数据集搜集并总结生成



