five

PsiloQA

收藏
arXiv2025-10-06 更新2025-10-08 收录
下载链接:
https://github.com/s-nlp/psiloqa
下载链接
链接失效反馈
官方服务:
资源简介:
PsiloQA是一个大规模的多语言数据集,包含14种语言的跨度级幻觉标注。该数据集通过一个自动化的三阶段流程构建:使用GPT-4o从Wikipedia生成问题-答案对,在没有上下文的情况下从各种LLM中激发潜在的幻觉答案,并通过与黄金答案和检索到的上下文进行比较,使用GPT-4o自动标注幻觉跨度。PsiloQA在14种语言上评估了各种幻觉检测方法,并展示了跨语言的泛化能力。该数据集为多语言细粒度幻觉检测的发展做出了贡献。

PsiloQA is a large-scale multilingual dataset with span-level hallucination annotations across 14 languages. It is constructed via an automated three-stage pipeline: first, generating question-answer pairs from Wikipedia using GPT-4o; second, eliciting potential hallucinatory answers from various LLMs without contextual input; third, automatically annotating hallucinatory spans with GPT-4o by comparing against the gold standard answers and retrieved contexts. PsiloQA evaluates a range of hallucination detection methods across 14 languages and demonstrates cross-lingual generalization capabilities. This dataset contributes to the advancement of multilingual fine-grained hallucination detection.
提供机构:
莫斯科物理技术学院, 斯科尔科沃科技大学, AIRI, MWS AI, Sber AI Lab
创建时间:
2025-10-06
原始信息汇总

PsiloQA 数据集概述

数据集基本信息

  • 名称:PsiloQA
  • 定位:用于训练和评估系统的多语言跨度级幻觉检测数据集
  • 主要特点:包含检索上下文的多语言跨度级幻觉检测

核心特性

  • 自动化可扩展管道:用于生成、注释和过滤幻觉检测任务数据
  • 大规模多语言覆盖:涵盖14种语言的高质量细粒度跨度级幻觉注释
  • 全面评估:对多种最先进的跨度级幻觉检测方法在14种语言上进行实证评估

数据集生成流程

1. 上下文获取

  • 解析随机维基百科页面作为问答生成的输入段落
  • 支持指定语言和页面数量

2. 问答对生成

  • 基于上下文生成不同复杂度的三个问题
  • 使用OpenAI模型进行生成

3. LLM假设生成

  • 生成候选模型答案用于评估
  • 支持添加新的Hugging Face模型

4. 假设注释

  • 使用基于OpenAI的注释器标记模型假设中的幻觉跨度

5. 过滤处理

  • 启发式过滤:确保结构正确性
  • LLM过滤:移除主观或不完整问题的样本

技术实现

  • 依赖管理:使用uv工具
  • 配置管理:通过.env文件管理API密钥和模型设置
  • 模型支持:支持具有聊天模板或自定义模板的Hugging Face模型

访问方式

  • Hugging Face地址:https://huggingface.co/datasets/s-nlp/PsiloQA

语言支持

  • 默认支持14种语言
  • 可自定义语言列表
搜集汇总
数据集介绍
main_image_url
构建方式
在构建多语言幻觉检测数据集的过程中,PsiloQA采用了一种高效且可扩展的自动化流程。该流程首先利用GPT-4o从维基百科文章中随机抽取段落,生成多语言的问题-答案对;随后,在无上下文支持的条件下,引导多种大型语言模型生成可能包含幻觉的答案;最后,通过GPT-4o自动比较模型答案与标准答案及检索到的上下文,精确标注出存在幻觉的文本片段,并辅以规则和提示驱动的过滤机制,确保数据质量与一致性。
特点
PsiloQA数据集在幻觉检测领域展现出显著的多语言与细粒度特性。其覆盖14种语言,包含超过6万条训练样本,每个样本均标注了词级别的幻觉片段,支持对多种开源与专有语言模型的评估。数据集中的幻觉源于模型在零上下文环境下的真实错误生成,而非人为插入,确保了数据的真实性与多样性。此外,其构建成本远低于人工标注数据集,同时在跨语言泛化与知识迁移方面表现出强大潜力。
使用方法
PsiloQA数据集适用于评估和训练多种幻觉检测方法,包括不确定性量化、基于编码器的模型以及大语言模型驱动的检测技术。研究人员可将数据集划分为训练、验证和测试集,用于监督学习或少样本学习场景。在跨语言实验中,可利用其多语言样本验证模型的泛化能力;同时,通过与其他基准数据集(如Mu-SHROOM、RAGTruth)的对比,能够系统评估模型在真实幻觉检测任务中的鲁棒性与可迁移性。
背景与挑战
背景概述
随着大语言模型在文本生成任务中的广泛应用,幻觉检测已成为确保模型输出事实准确性的关键研究领域。2025年发布的PsiloQA数据集由Skoltech、AIRI等机构联合构建,旨在解决现有基准在细粒度和多语言覆盖上的不足。该数据集通过自动化流程生成涵盖14种语言的问答对,并利用GPT-4o进行跨度级幻觉标注,显著推动了多语言环境下细粒度幻觉检测技术的发展。
当前挑战
PsiloQA致力于攻克多语言跨度级幻觉检测的核心难题,包括模型在零上下文设定下生成答案时产生的语义偏离问题。构建过程中面临多重挑战:需设计自动化流程平衡标注质量与成本,克服低资源语言数据稀缺性,并确保GPT-4o标注结果与人工评估的一致性。此外,基于维基百科的语料来源限制了文本风格的多样性,如何扩展至摘要生成等复杂任务仍是待突破的方向。
常用场景
经典使用场景
在自然语言处理领域,PsiloQA数据集主要应用于多语言幻觉检测模型的训练与评估。该数据集通过构建包含14种语言的问答对,为研究者提供了细粒度的幻觉标注信息,使得模型能够在跨语言环境下准确识别生成文本中的虚构内容。其经典使用场景包括训练基于编码器的检测模型,这些模型通过分析上下文与生成回答的一致性,实现精准的幻觉定位。
衍生相关工作
PsiloQA的发布催生了一系列创新性研究。基于该数据集训练的mmBERT模型在跨语言幻觉检测中表现卓越,启发了多语言编码器在幻觉检测任务中的适配研究。同时,其自动化标注流程为FAVA-Bench等数据集的构建提供了方法论参考,推动了基于合成数据的幻觉检测研究范式转变,衍生出如跨语言知识迁移、多模态幻觉检测等新兴研究方向。
数据集最近研究
最新研究方向
在大语言模型可靠性评估领域,幻觉检测已成为保障生成文本事实准确性的核心挑战。PsiloQA数据集的推出标志着多语言细粒度标注研究的前沿突破,其通过自动化流水线构建的跨14种语言的片段级幻觉标注,有效解决了传统序列级检测无法精确定位错误信息的局限。该数据集不仅推动了基于不确定度量化、编码器微调和外部知识验证的多元检测方法比较,还展现出卓越的跨语言泛化能力与知识迁移性,为多语言环境下的事实一致性评估提供了可扩展且成本高效的基准,对医疗、法律等高风险领域的模型安全部署具有深远意义。
相关研究论文
  • 1
    When Models Lie, We Learn: Multilingual Span-Level Hallucination Detection with PsiloQA莫斯科物理技术学院, 斯科尔科沃科技大学, AIRI, MWS AI, Sber AI Lab · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作