five

BMAS English

收藏
arXiv2025-09-26 更新2025-09-30 收录
下载链接:
https:/ huggin /BMAS
下载链接
链接失效反馈
官方服务:
资源简介:
BMAS English是一个用于二分类人类和机器文本的英语语言数据集,不仅能够识别机器生成的文本,还可以尝试确定其生成器,并针对减少检测的可检测性的对抗性攻击。数据集包含来自五个广泛应用于现实世界应用的领域的人类撰写的和人工智能生成的文本,包括reddit、新闻文章、维基百科内容、arXiv的科学摘要和通用问答。数据集旨在解决机器生成文本检测的问题,以保护真实性、确保透明度,并最大限度地减少生成式AI的潜在误用。

BMAS English is an English-language dataset for binary classification of human and machine-generated text. It not only recognizes machine-generated text but also attempts to identify its generator, and supports adversarial attacks designed to reduce the detectability of such generated content. The dataset contains human-written and AI-generated text from five domains widely used in real-world applications, including Reddit, news articles, Wikipedia content, scientific abstracts from arXiv, and general question-answering scenarios. It is intended to address the problem of machine-generated text detection, so as to safeguard textual authenticity, ensure transparency, and minimize the potential misuse of generative AI.
提供机构:
印度西尔查尔国家理工学院计算机科学与工程学院,印度西尔查尔国家理工学院电气工程学院
创建时间:
2025-09-26
搜集汇总
数据集介绍
构建方式
在人工智能生成文本检测研究领域,BMAS English数据集通过系统化构建策略实现了多维度的检测能力。该数据集从Reddit、新闻文章、维基百科内容、arXiv科学摘要和通用问答五个核心领域收集文本素材,人类撰写文本主要源自MAGE和M4数据集,新闻领域则采用XSUM数据集。构建过程采用分层抽样方法,确保各领域分布均衡,最终形成包含80,000个样本的二元分类数据集、同等规模的多类别分类数据集、经过五种对抗攻击策略扩展的480,000个样本的对抗检测数据集,以及46,830个混合作者文本的句子级分割数据集。
特点
BMAS English数据集展现出显著的多维特征优势,其覆盖范围囊括了现实应用中的核心文本类型。数据集设计采用简洁而稳健的结构,便于研究者直接使用。特别值得注意的是,该数据集不仅支持传统的人类与机器文本二元区分,还拓展至生成器溯源的多类别识别,并能应对同义词替换、拼写错误、同形异义符替换等五种典型对抗攻击场景。在混合作者文本处理方面,数据集精确标注了人类与AI写作边界,包含人类起始机器延续、机器起始人类延续以及完全交错三种协作模式,为细粒度分析提供了坚实基础。
使用方法
该数据集支持多层次的研究应用,在二元与多类别分类任务中,研究者可采用传统机器学习分类器到现代Transformer架构的完整技术路线。针对对抗攻击场景,数据集支持显式对抗训练和隐式对抗检测两种范式,后者通过计算原始文本与预处理文本的余弦相似度、编辑距离等特征差异实现鲁棒检测。在句子级分割任务中,研究者可结合条件随机场与神经网络或Transformer架构,构建混合模型来精确定位作者身份转换边界。实验配置建议采用分层三折交叉验证,配合早停策略和学习率动态调整,以获得最优性能表现。
背景与挑战
背景概述
随着大型语言模型在自然语言生成领域的迅猛发展,其生成的文本在流畅度和语义连贯性上已接近人类水平,这为文本来源的鉴别带来了严峻挑战。BMAS English数据集由印度国立西尔查尔理工学院的研究团队于2025年构建,旨在通过构建多任务检测框架应对机器生成文本的识别难题。该数据集涵盖文档级二元分类、多元分类、对抗攻击检测及句子级边界识别四大场景,其创新性地整合了Reddit讨论、新闻稿件、维基百科、学术摘要与问答数据等多领域语料,为维护学术诚信与信息真实性提供了关键研究基础。
当前挑战
该数据集致力于解决机器生成文本检测中的核心难题:首先是在多元分类任务中准确追溯不同生成模型的文本特征,尤其在Claude、DeepSeek等模型风格高度相似时区分难度显著;其次,对抗性文本通过同义词替换、字形混淆等扰动手段规避检测,要求模型具备鲁棒的特征提取能力。在构建过程中,研究团队需平衡不同领域文本的分布差异,确保数据集的泛化性,同时精确标注混合文本中人类与机器写作的边界点,这对标注一致性与语言学专业知识提出了极高要求。
常用场景
经典使用场景
在自然语言处理领域,BMAS English数据集为机器生成文本检测研究提供了多维度评估基准。该数据集通过涵盖文档级二元与多元分类、句子级边界划分及对抗性攻击场景,构建了完整的检测生态链。其经典应用体现在利用Transformer架构与混合专家模型,对来自新闻、学术论文、百科等五类真实场景的文本进行溯源分析,为区分人类创作与AI生成内容提供了标准化测试平台。
实际应用
在教育评估与内容审核领域,BMAS English展现出重要应用价值。其支持的检测模型可集成至学术论文查重系统,精准识别AI代笔行为;在新闻媒体行业,能够辅助核查机器生成假新闻;对于在线教育平台,可有效监控学生作业的原创性。该数据集特别设计的对抗性样本库,更助力开发具备强抗干扰能力的商用检测工具,为构建可信数字内容生态提供技术支撑。
衍生相关工作
基于该数据集衍生的研究已形成系列创新成果。HardMoE与SoftMoE检测架构通过专家路由机制提升了生成模型溯源精度;DeBERTa-BiGRU-CRF混合模型在句子级边界检测中取得97.89%的MCC指标;隐式对抗检测框架开创了无需显式标注的扰动文本识别范式。这些工作不仅延续了M4、MAGE等多模态检测数据集的设计理念,更推动了RAID基准在对抗环境下的检测技术演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作