mu-shroom

Name: mu-shroom
Creator: Language Technology Research Group at the University of Helsinki
Published: 2025-04-15 17:12:31
License: 暂无描述

Hugging Face2025-04-15 更新2025-04-17 收录

下载链接：

https://huggingface.co/datasets/Helsinki-NLP/mu-shroom

下载链接

链接失效反馈

官方服务：

资源简介：

Mu-SHROOM数据集是一个多语言的大型语言模型输出虚构内容检测数据集，包含了14种语言，数据集分为未标注的训练集、验证集和测试集，提供了丰富的注释信息，包括概率性标注和二进制标注的虚构内容范围。

提供机构：

Language Technology Research Group at the University of Helsinki

创建时间：

2025-04-15

搜集汇总

数据集介绍

构建方式

Mu-SHROOM数据集构建过程体现了严谨的多语言处理框架，通过整合14种语言的LLM生成文本与人工标注数据形成基准。数据采集采用模型输出采样策略，涵盖不同参数规模的LLM生成内容，并基于维基百科参考构建字符级幻觉标注体系。标注流程引入多人协作机制，通过软硬标签双重标注确保数据可靠性，同时保留原始标注者ID以支持标注分歧分析。

特点

该数据集最显著的特征在于其多语言覆盖广度与细粒度标注深度，支持从阿拉伯语到中文等14种语言的幻觉检测研究。数据字段设计科学完备，既包含模型生成的原始文本与概率分布，又提供字符级幻觉标注及多标注者原始记录。特别值得注意的是软标签系统，通过概率化标注反映幻觉现象的不确定性，为模型置信度校准提供重要参考。各语言子集均遵循标准划分原则，包含未标注训练集与标注验证/测试集，满足不同研究需求。

使用方法

使用该数据集时，可通过HuggingFace标准接口按语言加载特定子集或完整数据集。典型应用流程包括：加载验证集样本分析幻觉分布模式，提取模型输出文本与硬标签进行跨度可视化，或利用软标签训练概率预测模型。研究人员可结合输出logits与标注概率开展置信度分析，亦可通过annotator_id字段研究标注者间一致性。数据集特别适用于多语言幻觉检测模型的训练与评估，其提供的字符级标注支持精确的IoU指标计算。

背景与挑战

背景概述

Mu-SHROOM数据集是由赫尔辛基大学自然语言处理团队（Helsinki-NLP）为SemEval-2025 Task 3任务构建的多语言幻觉检测基准。该数据集专注于解决大型语言模型（LLMs）在生成文本时产生的幻觉问题，即模型输出与事实不符或无法验证的内容。数据集覆盖14种语言，包括英语、中文、阿拉伯语等，旨在为多语言环境下的幻觉检测研究提供标准化评估平台。其核心研究问题在于如何准确识别和定位模型生成文本中的幻觉片段，从而提升生成文本的可靠性和事实一致性。

当前挑战

Mu-SHROOM数据集面临的主要挑战包括：1) 多语言幻觉检测的复杂性，不同语言的语言结构和表达方式差异显著，导致统一的检测模型难以适应所有语言；2) 标注一致性难题，幻觉片段的边界判定存在主观性，尤其是对于模糊或隐含的幻觉内容，标注者间的一致性较难保证；3) 数据构建的技术挑战，需协调多语言Wikipedia参考源与模型输出的对齐，且需处理不同LLM生成逻辑的异构性。此外，软标签的构建要求精确的概率校准，以反映标注者间的置信度差异。

常用场景

经典使用场景

在自然语言处理领域，Mu-SHROOM数据集为多语言幻觉检测任务提供了标准化的评估基准。该数据集通过标注大型语言模型输出中的幻觉片段，支持研究者开发跨语言的幻觉识别算法。其多语言特性使得模型能够在阿拉伯语、中文、英语等14种语言上进行并行测试，为比较不同语言间的幻觉模式差异提供了可能。

实际应用

在实际应用中，该数据集被广泛用于优化商业对话系统的真实性检测模块。基于其标注的幻觉片段，企业可以训练过滤模型以消除客服机器人中的事实性错误。媒体机构则利用该数据集开发自动化事实核查工具，用于快速识别多语言新闻文本中的可疑陈述。

衍生相关工作

该数据集催生了系列重要研究，包括基于跨语言迁移学习的联合训练框架XL-Hallo，以及融合注意力机制的HierAttn检测模型。在SemEval-2025竞赛中，超过30支团队以此数据集为基础，提出了包括概率阈值分割、语义一致性验证等创新方法，显著推进了该领域的技术边界。

以上内容由遇见数据集搜集并总结生成