StyloBench
收藏github2025-10-15 更新2025-11-01 收录
下载链接:
https://github.com/mbzuai-nlp/Personalized_MGT_Detect
下载链接
链接失效反馈官方服务:
资源简介:
StyloBench是一个用于评估个性化机器生成文本检测的基准数据集,包含Stylo-Literary和Stylo-Blog两个场景。Stylo-Literary子集包含21,000个文章领域的示例,使用≤14B参数生成器;Stylo-Blog子集包含4,000个博客领域的示例,使用≥70B参数生成器。数据格式为统一的JSON格式,包含原始文本和机器生成文本。
StyloBench is a benchmark dataset for evaluating personalized machine-generated text detection, covering two scenarios: Stylo-Literary and Stylo-Blog. The Stylo-Literary subset contains 21,000 examples from the article domain, generated by generators with ≤14 billion parameters; the Stylo-Blog subset includes 4,000 examples from the blog domain, generated by generators with ≥70 billion parameters. All data are stored in a unified JSON format, which contains both original human-written texts and machine-generated texts.
创建时间:
2025-10-14
原始信息汇总
数据集概述
基本信息
- 数据集名称: StyloBench
- 发布年份: 2025
- 发布机构: MBZUAI-NLP
- 论文标题: When Personalization Tricks Detectors: The Feature-Inversion Trap in Machine-Generated Text Detection
- 论文链接: https://arxiv.org/pdf/2510.12476
数据集组成
Stylo-Literary子集
- 领域: 文章
- 文本生成器规模: ≤ 14B参数
- 生成方法: CPT
- 生成器数量: 3个
- 子领域数量: 7个
- 样本数量: 21,000个
- 文本长度: ≤ 512个标记
Stylo-Blog子集
- 领域: 博客
- 文本生成器规模: ≥ 70B参数
- 生成方法: 提示工程
- 生成器数量: 4个
- 子领域数量: 1个
- 样本数量: 4,000个
- 文本长度: ≤ 512个标记
数据格式
- 格式: 统一JSON格式
- 结构: json { "original": ["人工文本1", "人工文本2", "...", "人工文本n"], "sampled": ["机器生成文本1", "机器生成文本2", "...", "机器生成文本n"] }
文件命名规范
- 数据集文件:
{数据集名称}-{模型}-{子领域}.json - 结果文件:
{模型}-{子领域}.{检测器}.json
下载链接
- StyloBench数据集: https://github.com/mbzuai-nlp/Personalized_MGT_Detect/tree/main/StyloBench
- M4基准数据集: https://github.com/mbzuai-nlp/M4
相关工具
- 评估流程: StyloCheck(训练免费流程)
- 主要功能: 在跨领域部署前通过探测特征反转风险来评估检测器可靠性
引用信息
bibtex @article{personalized_mgt_detect, title = {When Personalization Tricks Detectors: The Feature-Inversion Trap in Machine-Generated Text Detection}, author = {Authors}, journal = {Conference/Journal Name}, year = {Year} }
搜集汇总
数据集介绍

构建方式
在个性化文本生成技术日益普及的背景下,StyloBench数据集通过精心设计的双场景架构构建而成。Stylo-Literary子集聚焦文学领域,采用控制参数调优技术生成文本,涵盖7个子领域并包含21,000个样本;Stylo-Blog子集则针对博客场景,运用提示工程驱动的大规模语言模型生成4,000条内容。所有文本均经过标准化处理,统一限制在512个标记长度以内,并以结构化JSON格式保存原始人类文本与机器生成文本的对应关系。
特点
该数据集最显著的特征在于其多维度交叉验证的设计理念。通过整合不同参数规模的生成模型与多样化的文本领域,有效揭示了特征反转现象对检测器性能的影响。数据样本兼具长度规范性与领域代表性,既包含精细调优的小模型输出,也涵盖提示引导的巨量参数模型产物,为研究个性化文本的风格迁移特性提供了立体化的观测视角。
使用方法
研究者可通过下载统一的JSON格式数据文件,借助配套的StyloCheck评估流程开展实验。数据文件遵循明确的命名规范,便于区分不同生成模型与子领域的组合。使用时应先配置符合要求的计算环境,通过运行标准化脚本依次完成特征方向计算、扰动序列生成、基线检测器评估等步骤,最终通过相关性分析模块量化检测器的跨领域可靠性。
背景与挑战
背景概述
随着生成式人工智能技术的迅猛发展,机器生成文本的检测成为自然语言处理领域的关键课题。2025年,由Lang Gao等跨机构研究团队创建的StyloBench数据集应运而生,聚焦于个性化文本生成场景下的检测难题。该基准涵盖文学创作与博客写作两大领域,通过整合多种规模的语言模型生成文本,旨在评估检测器在风格化内容中的泛化能力,为数字内容真实性认证提供重要研究基础。
当前挑战
在领域问题层面,StyloBench需应对个性化文本生成导致的特征混淆现象,传统检测器易受作者风格与生成模式叠加干扰。构建过程中,团队面临多源数据对齐的复杂性,需协调不同参数规模的生成模型输出,并维持文本长度与领域分布的平衡。此外,特征反转风险的量化要求开发无训练评估框架,这对探测集的合成与相关性分析提出极高技术要求。
常用场景
经典使用场景
在人工智能生成文本检测领域,StyloBench作为首个专注于个性化风格文本的基准数据集,其经典应用场景在于评估检测模型对多样化写作风格的泛化能力。该数据集通过整合文学创作与博客写作两大领域,模拟了现实世界中作者个性化表达对机器生成文本的干扰,为研究者提供了系统分析特征反转现象的标准化实验平台。在跨域文本检测任务中,该数据集能有效验证检测器对风格化文本的敏感度与鲁棒性,推动检测算法从单一模式向多风格适应演进。
解决学术问题
该数据集主要解决了当前机器生成文本检测中存在的特征反转陷阱问题。当个性化写作风格与机器生成特征产生耦合时,传统检测器极易出现误判,StyloBench通过构建包含21,000个文学样本与4,000个博客样本的平行语料,首次系统揭示了风格个性化对检测性能的干扰机制。这一突破性工作为理解检测模型在跨域场景下的失效模式提供了理论依据,推动了鲁棒性检测框架的发展,对维护学术诚信与内容安全具有重要意义。
衍生相关工作
基于StyloBench数据集,研究社区衍生出多项创新性工作。StyloCheck评估管道开创了训练前可靠性预估的新范式,其提出的特征方向计算与扰动序列生成方法被后续研究广泛采纳。该数据集还促进了M4基准的扩展应用,推动了如风格解耦检测、多模态生成文本识别等方向的发展。这些衍生工作共同构建起个性化文本检测的技术体系,为自然语言处理领域提供了重要的方法论支撑。
以上内容由遇见数据集搜集并总结生成



