PsiloQA

Name: PsiloQA
Creator: 莫斯科物理技术学院, 斯科尔科沃科技大学, AIRI, MWS AI, Sber AI Lab
Published: 2025-10-06 22:36:30
License: 暂无描述

arXiv2025-10-06 更新2025-10-08 收录

下载链接：

https://github.com/s-nlp/psiloqa

下载链接

链接失效反馈

官方服务：

资源简介：

PsiloQA是一个大规模的多语言数据集，包含14种语言的跨度级幻觉标注。该数据集通过一个自动化的三阶段流程构建：使用GPT-4o从Wikipedia生成问题-答案对，在没有上下文的情况下从各种LLM中激发潜在的幻觉答案，并通过与黄金答案和检索到的上下文进行比较，使用GPT-4o自动标注幻觉跨度。PsiloQA在14种语言上评估了各种幻觉检测方法，并展示了跨语言的泛化能力。该数据集为多语言细粒度幻觉检测的发展做出了贡献。

PsiloQA is a large-scale multilingual dataset with span-level hallucination annotations across 14 languages. It is constructed via an automated three-stage pipeline: first, generating question-answer pairs from Wikipedia using GPT-4o; second, eliciting potential hallucinatory answers from various LLMs without contextual input; third, automatically annotating hallucinatory spans with GPT-4o by comparing against the gold standard answers and retrieved contexts. PsiloQA evaluates a range of hallucination detection methods across 14 languages and demonstrates cross-lingual generalization capabilities. This dataset contributes to the advancement of multilingual fine-grained hallucination detection.

提供机构：

莫斯科物理技术学院, 斯科尔科沃科技大学, AIRI, MWS AI, Sber AI Lab

创建时间：

2025-10-06

原始信息汇总

PsiloQA 数据集概述

数据集基本信息

名称：PsiloQA
定位：用于训练和评估系统的多语言跨度级幻觉检测数据集
主要特点：包含检索上下文的多语言跨度级幻觉检测

核心特性

自动化可扩展管道：用于生成、注释和过滤幻觉检测任务数据
大规模多语言覆盖：涵盖14种语言的高质量细粒度跨度级幻觉注释
全面评估：对多种最先进的跨度级幻觉检测方法在14种语言上进行实证评估

数据集生成流程

1. 上下文获取

解析随机维基百科页面作为问答生成的输入段落
支持指定语言和页面数量

2. 问答对生成

基于上下文生成不同复杂度的三个问题
使用OpenAI模型进行生成

3. LLM假设生成

生成候选模型答案用于评估
支持添加新的Hugging Face模型

4. 假设注释

使用基于OpenAI的注释器标记模型假设中的幻觉跨度

5. 过滤处理

启发式过滤：确保结构正确性
LLM过滤：移除主观或不完整问题的样本

技术实现

依赖管理：使用uv工具
配置管理：通过.env文件管理API密钥和模型设置
模型支持：支持具有聊天模板或自定义模板的Hugging Face模型

访问方式

Hugging Face地址：https://huggingface.co/datasets/s-nlp/PsiloQA

语言支持

默认支持14种语言
可自定义语言列表

搜集汇总

数据集介绍

构建方式

在构建多语言幻觉检测数据集的过程中，PsiloQA采用了一种高效且可扩展的自动化流程。该流程首先利用GPT-4o从维基百科文章中随机抽取段落，生成多语言的问题-答案对；随后，在无上下文支持的条件下，引导多种大型语言模型生成可能包含幻觉的答案；最后，通过GPT-4o自动比较模型答案与标准答案及检索到的上下文，精确标注出存在幻觉的文本片段，并辅以规则和提示驱动的过滤机制，确保数据质量与一致性。

特点

PsiloQA数据集在幻觉检测领域展现出显著的多语言与细粒度特性。其覆盖14种语言，包含超过6万条训练样本，每个样本均标注了词级别的幻觉片段，支持对多种开源与专有语言模型的评估。数据集中的幻觉源于模型在零上下文环境下的真实错误生成，而非人为插入，确保了数据的真实性与多样性。此外，其构建成本远低于人工标注数据集，同时在跨语言泛化与知识迁移方面表现出强大潜力。

使用方法

PsiloQA数据集适用于评估和训练多种幻觉检测方法，包括不确定性量化、基于编码器的模型以及大语言模型驱动的检测技术。研究人员可将数据集划分为训练、验证和测试集，用于监督学习或少样本学习场景。在跨语言实验中，可利用其多语言样本验证模型的泛化能力；同时，通过与其他基准数据集（如Mu-SHROOM、RAGTruth）的对比，能够系统评估模型在真实幻觉检测任务中的鲁棒性与可迁移性。

背景与挑战

背景概述

随着大语言模型在文本生成任务中的广泛应用，幻觉检测已成为确保模型输出事实准确性的关键研究领域。2025年发布的PsiloQA数据集由Skoltech、AIRI等机构联合构建，旨在解决现有基准在细粒度和多语言覆盖上的不足。该数据集通过自动化流程生成涵盖14种语言的问答对，并利用GPT-4o进行跨度级幻觉标注，显著推动了多语言环境下细粒度幻觉检测技术的发展。

当前挑战

PsiloQA致力于攻克多语言跨度级幻觉检测的核心难题，包括模型在零上下文设定下生成答案时产生的语义偏离问题。构建过程中面临多重挑战：需设计自动化流程平衡标注质量与成本，克服低资源语言数据稀缺性，并确保GPT-4o标注结果与人工评估的一致性。此外，基于维基百科的语料来源限制了文本风格的多样性，如何扩展至摘要生成等复杂任务仍是待突破的方向。

常用场景

经典使用场景

在自然语言处理领域，PsiloQA数据集主要应用于多语言幻觉检测模型的训练与评估。该数据集通过构建包含14种语言的问答对，为研究者提供了细粒度的幻觉标注信息，使得模型能够在跨语言环境下准确识别生成文本中的虚构内容。其经典使用场景包括训练基于编码器的检测模型，这些模型通过分析上下文与生成回答的一致性，实现精准的幻觉定位。

衍生相关工作

PsiloQA的发布催生了一系列创新性研究。基于该数据集训练的mmBERT模型在跨语言幻觉检测中表现卓越，启发了多语言编码器在幻觉检测任务中的适配研究。同时，其自动化标注流程为FAVA-Bench等数据集的构建提供了方法论参考，推动了基于合成数据的幻觉检测研究范式转变，衍生出如跨语言知识迁移、多模态幻觉检测等新兴研究方向。

数据集最近研究