MUCH

github2025-11-24 更新2025-12-02 收录

下载链接：

https://github.com/orailix/much

下载链接

链接失效反馈

官方服务：

资源简介：

MUCH数据集是一个多语言声明幻觉基准，包含4,873个样本，用于评估声明级不确定性量化方法。它包括自动注释的训练集（4,673个样本）和自动与人工专家手动注释的测试集（200个样本）。

The MUCH Dataset is a multilingual claim hallucination benchmark consisting of 4,873 samples for evaluating claim-level uncertainty quantification methods. It includes an automatically annotated training set (4,673 samples) and a test set (200 samples) annotated via both automatic approaches and manual annotation by human experts.

创建时间：

2025-11-22

原始信息汇总

MUCH：多语言声明幻觉基准数据集概述

数据集基本信息

数据集名称：MUCH (A Multilingual Claim Hallucination Benchmark)
主要用途：用于评估声明级别不确定性量化方法
样本数量：4,873个
语言：多语言（英语、法语、德语、西班牙语）
许可证：Apache-2.0

数据集构成

训练集：4,673个样本，通过自动标注生成
测试集：200个样本，包含自动标注和人类专家手动标注

数据内容与特征

每个样本包含为每个生成token预计算的对数概率
包含从LLM生成响应中分割出的声明
设计用于反映现实生产约束，要求UQ方法快速、高效且不依赖外部知识源

评估基线方法

数据集评估了五种基线方法：

CCP (Claim-Conditioned Probability)
SAR (Semantic Agreement Rate)
Maximum Likelihood (Max-L)
Token Likelihood (T-L)
Token Entropy (T-E)

计算时间参考

生成时间：4,873个样本过滤后总时间2,758秒
分割时间：4,873个值总时间6秒
信号计算时间：
- Token Likelihood：8.2秒（CPU）
- Max Likelihood：8.2秒（CPU）
- Token Entropy：9.0秒（CPU）
- CCP：3,230-5,429秒（GPU）
- SAR：419-613秒（GPU）

数据来源

prompt、wiki_url和lang字段提取自Mu-SHROOM数据集（CC-BY-4.0许可证）
引用文献：https://arxiv.org/abs/2504.11975

引用格式

bibtex @misc{dentan_much_2025, title = {MUCH: A Multilingual Claim Hallucination Benchmark}, author = {Dentan, Jérémie and Canesse, Alexi and Buscaldi, Davide and Shabou, Aymen and Vanier, Sonia}, year = {2025}, url = {https://arxiv.org/abs/2511.17081}, }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估大型语言模型生成内容的真实性至关重要。MUCH数据集的构建过程体现了严谨的自动化与人工验证相结合的方法论。其核心基于Mu-SHROOM数据集的问题，首先通过大型语言模型生成回答，并记录每个生成token的24个logits值。随后，利用专门的claim分割算法对回答进行细粒度切分，形成独立的声明单元。为获取高质量标签，研究团队采用GPT-4o与GPT-4.1模型进行自动化标注，并辅以专家人工标注的测试集以确保可靠性。最终，通过筛选模型间达成一致的样本，形成了包含4,873个样本的多语言基准数据集。

特点

作为首个声明层面的不确定性量化基准，MUCH数据集具备若干突出特性。其多语言覆盖能力涵盖了英语、法语、德语和西班牙语，为跨语言模型评估提供了统一框架。数据集结构设计精细，每个样本不仅包含原始问题和模型生成回答，还提供了完整的token级logits序列以及经过分割的声明单元及其事实性标签。特别值得注意的是，该基准模拟了真实生产环境约束，强调评估方法需在无需外部知识源的条件下高效运行。训练集与测试集的划分兼顾了规模与质量，其中测试集经过双重标注验证，确保了评估结果的稳健性与可重复性。

使用方法

该数据集为不确定性量化方法的研究与比较提供了系统化框架。使用者可通过HuggingFace平台直接获取数据集及其配置，并利用配套的PyPI工具包进行声明分割。评估流程支持三种主要路径：完整复现数据生成过程、重新计算现有基线方法，以及实现并评估新的UQ方法。对于新方法的集成，研究者需遵循既定接口规范实现信号计算类，并利用提供的脚本在多语言设置下进行自动化评估。评估过程特别关注计算效率，要求方法在单GPU环境下与基线进行公平比较，并通过分析低误报率与高精度区域的性能来深入理解方法特性。配套的Jupyter笔记本进一步支持结果可视化与深入分析。

背景与挑战

背景概述

在大型语言模型（LLM）日益普及的背景下，准确评估其生成内容的可信度成为自然语言处理领域的核心关切。MUCH（Multilingual Claim Hallucination Benchmark）数据集于2025年由Jérémie Dentan、Alexi Canesse等研究人员联合发布，依托法国巴黎综合理工学院LIX实验室等机构共同构建。该数据集旨在为声明级不确定性量化（UQ）方法提供首个多语言基准测试，通过自动与人工标注相结合的方式，包含4,873个样本，覆盖英语、法语、德语和西班牙语四种语言。其核心研究问题聚焦于量化LLM生成声明的事实性，以促进模型在真实场景下的可靠性评估，对推动可解释人工智能与可信LLM的发展具有重要影响力。

当前挑战

MUCH数据集致力于解决声明级幻觉检测的挑战，即在多语言环境下精准量化LLM生成内容的不确定性。这一领域问题面临模型输出事实性难以衡量、跨语言泛化能力不足以及评估标准缺乏统一性等难题。在构建过程中，研究团队需克服多语言数据标注的一致性保障、自动化与人工标注的协同整合、以及大规模生成与标注流程的计算资源优化等挑战。此外，为确保基准的公平性与可复现性，还需设计高效的声明分割算法，并平衡标注成本与数据质量之间的复杂关系。

常用场景

经典使用场景

在自然语言处理领域，大型语言模型生成内容的可信度评估一直是研究热点。MUCH数据集作为首个专注于声明级别不确定性量化的多语言基准，其经典使用场景在于为研究者提供了一个标准化平台，用以系统评估各类不确定性量化方法在真实生成环境下的性能表现。该数据集通过精心设计的自动与人工标注流程，构建了涵盖英语、法语、德语和西班牙语的多语言语料库，使得研究者能够在统一的框架下对比不同方法在检测模型生成声明中的事实性错误方面的效果。

实际应用

在实际应用层面，MUCH数据集为构建可靠的人工智能辅助系统提供了关键支撑。在自动问答、内容生成和事实核查等场景中，模型生成声明的准确性直接关系到系统的可信度。该数据集所评估的不确定性量化方法能够集成到生产流水线中，实时识别并标记可能包含事实错误的生成内容，从而降低信息误导风险。例如，在新闻摘要或教育材料生成系统中，基于MUCH基准开发的方法可以辅助内容审核，提升输出信息的质量与可靠性，满足实际部署中对效率与准确性的双重需求。

衍生相关工作

围绕MUCH数据集，学术界已衍生出一系列重要的相关研究工作。其直接基础来源于Mu-SHROOM多语言幻觉检测任务的数据与框架，并在此基础上扩展了声明级别的标注与评估维度。数据集论文中系统评估的五大基线方法——包括条件概念概率、语义对齐率、最大似然、分词似然和分词熵——为后续研究提供了重要的比较基准。此外，伴随数据集发布的代码库与评估框架，激励了研究者开发新型白盒不确定性量化方法，并在统一标准下进行性能对比，推动了该细分领域的方法创新与理论进展。

以上内容由遇见数据集搜集并总结生成