shroom-cap

Name: shroom-cap
Creator: Language Technology Research Group at the University of Helsinki
Published: 2026-02-11 20:13:47
License: 暂无描述

Hugging Face2026-02-11 更新2026-02-12 收录

下载链接：

https://huggingface.co/datasets/Helsinki-NLP/shroom-cap

下载链接

链接失效反馈

官方服务：

资源简介：

SHROOM-CAP 是一个多语言数据集，专注于检测大型语言模型（LLMs）在科学文本生成中的幻觉现象。该数据集涵盖九种语言，包括五种高资源语言（英语、法语、印地语、意大利语和西班牙语）和四种低资源印度语言（孟加拉语、古吉拉特语、马拉雅拉姆语和泰卢固语）。每个实例包含LLM生成的文本、标记序列、逻辑值和源科学出版物的元数据。数据集提供了二元标签，用于标识文本中是否存在事实性错误（如幻觉或事实错误）和流畅性错误（如语言错误影响可读性）。任务将幻觉检测视为二元分类问题，要求LLMs预测事实性和流畅性错误。数据集分为训练集（1,755个示例）、验证集（1,200个示例）和测试集（4,384个示例，包含所有九种语言，但测试集标签未公开以防止数据泄露）。每个示例包含唯一标识符、出版物元数据（标题、摘要、DOI、URL、数据文件）、作者列表、问题、使用的LLM及其配置、生成提示、生成的文本、标记化输出、标记级逻辑值以及事实性和流畅性错误的二元标签（测试集中为null）。

提供机构：

Language Technology Research Group at the University of Helsinki

创建时间：

2026-02-11

原始信息汇总

SHROOM-CAP 数据集概述

数据集简介

SHROOM-CAP 是一个用于检测大型语言模型（LLMs）生成的科学文本中幻觉现象的多语言数据集。该数据集涵盖九种语言：五种高资源语言（英语、法语、印地语、意大利语和西班牙语）以及四种低资源印度语言（孟加拉语、古吉拉特语、马拉雅拉姆语和泰卢固语）。每个实例包含LLM生成的文本、令牌序列、对数概率以及源科学出版物的元数据。数据集为以下方面提供二元标签：

事实性错误： 文本是否包含幻觉或事实性错误内容。
流畅性错误： 文本是否包含影响可读性的语言错误。该任务将幻觉检测构建为一个二元分类问题，要求LLMs预测事实性和流畅性错误。

数据集结构

数据集按以下划分进行组织：

划分	示例数量	描述
`train`	1,755	训练集批次1（en, hi, es, fr, it）
`validation`	1,200	验证集（en, hi, es, fr, it）
`test`	4,384	测试集（全部9种语言，包括印度语言 bn, te, ml, gu），不包含标签以防止泄漏。请联系作者获取更多信息。

每个示例包含以下字段：

index：唯一标识符
title, abstract, doi, url, datafile：源出版物元数据
authors：作者姓名列表（first 和 last）
question：关于出版物的提问
model_id：用于生成的LLM模型
model_config：模型配置参数
prompt：用于生成的提示词
output_text：LLM生成的答案
output_tokens：令牌化的模型输出
output_logits：令牌级别的对数概率
has_fluency_mistakes：二元标签（y/n）或测试集为 null
has_factual_mistakes：二元标签（y/n）或测试集为 null

来源与引用

来源： Sinha, Aman 等人 (2025)。SHROOM-CAP: Shared Task on Hallucinations and Related Observable Overgeneration Mistakes in Crosslingual Analyses of Publications。Proceedings of CHOMPS 2025。
引用信息： 如README文件中提供的BibTeX条目所示。

许可信息

数据集采用 MPL-2.0 许可证。

在科学文本生成领域，大语言模型产生的幻觉问题日益受到关注。SHROOM-CAP数据集的构建过程体现了严谨的跨语言研究设计，其基础来源于多语言科学出版物，涵盖九种语言，包括五种高资源语言和四种低资源印度语言。构建团队通过设计特定提示，引导不同的大语言模型生成关于这些出版物的文本回答，并系统收集了生成的文本、对应的词元序列、对数概率以及详细的元数据。每个实例均经过人工标注，针对事实性错误和流畅性错误提供了二元标签，从而形成了结构化的训练、验证和测试分割，为幻觉检测任务提供了可靠的数据支撑。

使用方法

研究者可利用该数据集系统评估大语言模型在科学文本生成中的幻觉倾向。具体而言，用户可加载训练集与验证集，利用提供的文本、词元及对数概率特征，开发分类模型以预测事实性或流畅性错误。测试集则用于最终评估，但其标签未公开以防止数据泄露，需联系作者获取以进行严谨的评测。数据集中包含的丰富元数据，如来源出版物信息和生成模型细节，支持进行细粒度的错误溯源与跨语言对比分析。通过这种方式，该数据集能够有效推动多语言环境下幻觉检测与缓解技术的研究进展。

背景与挑战

背景概述

随着大型语言模型在科学文本生成领域的广泛应用，模型输出中的幻觉与事实性错误问题日益凸显，成为自然语言处理研究的关键障碍。SHROOM-CAP数据集由Aman Sinha等研究人员于2025年构建，并在CHOMPS 2025研讨会上正式发布，旨在为多语言科学文本中的幻觉检测提供基准资源。该数据集聚焦于跨语言分析，涵盖英语、法语、印地语等九种语言，包括高资源与低资源语言，核心研究问题在于识别模型生成文本中的事实性错误与流畅性缺陷。通过提供详细的模型输出、词元序列及对数几率，该数据集推动了幻觉检测任务向细粒度、可解释性方向演进，对提升科学交流的可靠性与多语言自然语言处理系统的稳健性具有显著影响力。

当前挑战

SHROOM-CAP数据集所针对的领域挑战在于，科学文本中的幻觉检测需区分事实性错误与语言流畅性问题，这要求模型不仅理解复杂专业术语，还需在多语言语境下保持跨文化一致性。构建过程中的挑战包括：低资源语言如孟加拉语、古吉拉特语的数据稀缺性，导致标注质量与规模受限；科学出版物元数据与模型生成输出的对齐需精确处理，以避免信息泄露；同时，数据集的测试集标签未公开，以防范模型过拟合，这增加了评估过程的复杂性，要求研究者开发更具泛化能力的检测方法。

常用场景

经典使用场景

在自然语言处理领域，SHROOM-CAP数据集为幻觉检测任务提供了多语言科学文本的基准评估平台。该数据集通过涵盖九种语言，包括高资源与低资源语种，构建了二元分类框架，要求模型识别生成文本中的事实性错误与流畅性错误。研究者通常利用其训练集与验证集开发分类算法，测试集则用于评估模型在跨语言场景下的泛化能力，尤其关注低资源语言的幻觉检测性能。

解决学术问题

该数据集有效解决了大语言模型在科学文本生成中产生的幻觉问题，为跨语言环境下的错误检测提供了标准化数据支持。通过区分事实性错误与流畅性错误，它帮助研究者深入理解幻觉的多元表现，并推动开发更精确的检测方法。其多语言特性尤其促进了低资源语言处理的研究，填补了该领域的数据空白，对提升模型的可信度与可靠性具有重要学术意义。

实际应用

在实际应用中，SHROOM-CAP可用于构建学术出版辅助工具，自动筛查大语言模型生成的科学摘要或回答中的错误内容，确保信息的准确性。它还能集成到多语言教育平台或研究系统中，帮助非英语母语研究者验证生成文本的质量。此外，该数据集支持开发跨语言内容审核机制，为科学传播与知识共享提供技术保障。

数据集最近研究