EMMM数据集
收藏arXiv2025-08-26 更新2025-08-28 收录
下载链接:
https://github.com/AngieYYF/EMMM-explainable-chatbot-detection
下载链接
链接失效反馈官方服务:
资源简介:
EMMM数据集是一个用于解释性机器生成文本检测的对话数据集,由墨尔本大学创建。数据集包含多轮对话,旨在解决当前机器生成文本检测方法在在线对话环境中面临的挑战,如检测目标不明确、缺乏对非专家友好的解释、局部归因解释难以理解等问题。该数据集通过对话行为理论和多维度、多层次、多策略的解释方法,为非专家用户提供可理解的解释报告,提高检测的可信度和透明度。数据集的具体内容和应用领域未在论文中详细说明。
The EMMM Dataset is a conversational dataset for interpretable machine-generated text detection, created by the University of Melbourne. It consists of multi-turn conversations, aiming to address the challenges faced by current machine-generated text detection methods in online conversational scenarios, including ambiguous detection targets, lack of non-expert-friendly explanations, and poor comprehensibility of local attribution explanations, among others. This dataset adopts dialogue act theory and multi-dimensional, multi-level, and multi-strategy explanation methods to provide comprehensible explanation reports for non-expert users, thereby enhancing the credibility and transparency of detection. The specific content and application fields of this dataset are not elaborated in the associated paper.
提供机构:
墨尔本大学
创建时间:
2025-08-26
原始信息汇总
EMMM 数据集概述
数据集简介
EMMM 是一个面向在线对话场景的可解释性大语言模型聊天机器人检测框架数据集,专注于机器生成文本(MGT)检测及其对不同利益相关者的可解释性。该数据集适用于非专家用户的对话系统,如紧急呼叫和客户服务热线。
数据集构成
Synthetic-Frames 数据集
- 来源:使用基于 SPADE 的提示和流水线构建的合成数据集。
- 访问方式:通过 Hugging Face 平台获取(数据集名称:AngieYYF/Frames-synthetic-customer-service-dialogue)
- 数据格式:PKL 文件格式
- 数据列:
- dia_no:每个对话的唯一标识符
- unmasked_dia:原始真实和合成对话
- dia:敏感信息脱敏后的对话
- dialogue_act:每个话语的对话行为
- dialogue_act_info_removed:敏感信息脱敏后的对话行为
- goal_outcome(仅真实对话):用户目标和结果,格式为 "goal_1 <sep> goal_2 <sep> ... <sep> goal_n <outcome> outcome_1 <sep> outcome_2 <sep> ... <sep> outcome_n"
SPADE 数据集
- 来源:基于 SPADE 论文中描述的框架构建的客户服务对话数据集
- 访问方式:通过 Hugging Face 平台获取(数据集名称:AngieYYF/SPADE-customer-service-dialogue)
- 数据格式:PKL 文件格式
- 数据列:
- dia_no:每个对话的唯一标识符(跨数据集相同 ID 的对话基于相同的真实对话)
- dia:敏感信息脱敏后的真实或合成对话
- dialogue_act:每个话语的对话行为
- dialogue_act_info_removed:敏感信息脱敏后的对话行为
数据集特点
- 对话感知:利用对话特定特征提供多维度、多层级和多策略的解释
- 效率优化:在线生成解释报告时间低于 1 秒
- 可解释性:生成非专家用户友好的自然语言解释报告,并提供情境化半全局模型行为的可视化
数据分割
两个数据集均基于 dia_no 字段进行训练/验证/测试分割,分割记录分别保存在 dataset/Frames/dataset_splits.pkl 和 dataset/SPADE/dataset_splits.pkl 中。
使用许可
该项目采用 Apache License 2.0 许可证。
搜集汇总
数据集介绍

构建方式
EMMM数据集构建基于对话场景中机器生成文本检测的需求,采用端到端对话生成框架,通过大型语言模型模拟真实用户与系统的交互过程。具体而言,该框架使用Qwen2.5-32B模型在Frames数据集的基础上生成合成对话,涵盖旅行领域的多轮对话结构。每个对话包含真实用户目标和替代目标,通过管理员模块动态监控对话进展,确保生成对话的多样性和真实性。数据生成过程中,敏感信息被特殊标记替换,以保护隐私并增强模型的泛化能力。
特点
EMMM数据集的特点在于其对话结构的复杂性和解释性标注的丰富性。该数据集包含1364对真实与合成对话,总计6082条用户话语,平均每轮对话4.46条话语,每条话语平均14.44词。数据集不仅提供文本内容,还标注了对话行为(如inform、request等),并整合了多维度特征,包括语言模式、用户行为和对话意图。这些特征支持多层级(轮次和对话级)检测,并为非专家用户提供可解释的检测报告,包括自然语言解释和半全局可视化分析。
使用方法
EMMM数据集的使用方法聚焦于机器生成文本检测模型的训练与评估。研究人员可利用该数据集进行监督学习,训练轮次级和对话级检测模型,并集成特征归因方法(如Faith-SHAP)生成解释性报告。数据集支持离线与在线检测模式,离线模式下所有对话数据可用于模型训练和验证,在线模式下则实时处理输入话语并生成检测结果与解释。评估指标包括检测性能(Macro-F1)、解释相关性(AOPC)和人类可解释性偏好,确保模型在准确性和可解释性之间的平衡。
背景与挑战
背景概述
EMMM数据集由墨尔本大学研究团队于2025年创建,专注于对话场景中机器生成文本的可解释性检测。该数据集依托SPADE和Frames对话语料构建,旨在解决大语言模型在客服场景中被恶意滥用导致的身份冒充风险。其核心研究问题是通过多维度、多层次的检测框架,平衡检测精度与低延迟需求,同时为非专业用户提供直观的可解释性输出,对可信人工智能部署和对话安全领域具有重要推动作用。
当前挑战
该数据集主要解决对话环境中机器生成文本的不对称检测问题,即需在交织对话中单独识别单方文本的机器生成属性。构建过程中面临三大挑战:一是对话结构动态性导致传统检测模型难以适应;二是需为无技术背景的客服人员设计自然语言解释方案;三是缺乏机器生成文本的标注真值,使局部归因解释缺乏可靠性基础。此外,数据生成需协调多轮对话目标与实时检测的复杂度。
常用场景
经典使用场景
在对话式人工智能安全领域,EMMM数据集被广泛应用于机器生成文本检测的可解释性研究。该数据集通过整合多轮对话中的语言特征和行为模式,为检测模型提供丰富的上下文信息,使其能够精准识别对话中的机器生成内容。其经典使用场景包括在线客服对话的实时监测,其中系统需快速分析用户输入的对话行为与语言模式,以区分人类与机器生成的文本。
解决学术问题
EMMM数据集有效解决了对话环境中机器生成文本检测的三大核心学术问题:非对称检测的结构复杂性、非专家用户的可解释性需求以及局部与全局解释的平衡难题。通过引入对话行为理论和多维度特征融合,该数据集推动了检测模型在准确率与可解释性方面的协同优化,为可信人工智能部署提供了理论支撑与实践范式。
衍生相关工作
EMMM数据集催生了多项经典衍生研究,包括基于对话行为的可解释检测框架扩展、多模态解释策略的融合方法以及低延迟实时系统的优化技术。这些工作进一步深化了对话结构中意图建模与语义分析的应用,例如结合语音行为理论的动态特征提取方法,以及面向非专家用户的轻量级自然语言解释模板的迭代优化。
以上内容由遇见数据集搜集并总结生成



