FRESHQAPARALLEL, SEAREFUSE, TRUEFALSEMULTILANG

Name: FRESHQAPARALLEL, SEAREFUSE, TRUEFALSEMULTILANG
Creator: 阿里巴巴集团, 杜伦大学
Published: 2025-04-19 01:44:12
License: 暂无描述

arXiv2025-04-19 更新2025-04-22 收录

下载链接：

https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了一个多语言评估套件，包括三种类型的知识边界数据：具有真或假前提的问题、以实体为中心的可答/不可答问题以及真假陈述。数据集包括FRESHQAPARALLEL（扩展自FRESHQA，包含平行真/假前提问题）、SEAREFUSE（包含关于不存在实体的不可答问题和可答问题）和TRUEFALSEMULTILANG（将TRUEFALSE数据集翻译成多种语言）。这些数据集旨在分析大规模语言模型如何跨语言泛化其知识边界的认知。

This study constructs a multilingual evaluation suite encompassing three types of knowledge boundary data: questions with true or false premises, entity-centered answerable/unanswerable questions, and true/false statements. The suite includes three core datasets: FRESHQAPARALLEL (extended from FRESHQA, containing parallel pairs of true/false premise questions), SEAREFUSE (comprising answerable and unanswerable questions about non-existent entities), and TRUEFALSEMULTILANG (translated from the original TRUEFALSE dataset into multiple languages). This evaluation suite is designed to analyze how large language models (LLMs) generalize their awareness of knowledge boundaries across languages.

提供机构：

阿里巴巴集团, 杜伦大学

创建时间：

2025-04-19

搜集汇总

数据集介绍

构建方式

FRESHQAPARALLEL数据集的构建基于FRESHQA数据集，通过人工标注将每个问题的前提类型进行反转，例如将错误前提的问题转换为正确前提的问题。随后，使用GPT-4o将数据集翻译为7种语言，并由专业语言学家进行质量检查。SEAREFUSE数据集则通过实体替换方法构建，将开源问答数据集中的命名实体替换为虚构实体，生成不可回答问题，同时收集真实实体的问题作为可回答问题。TRUEFALSEMULTILANG数据集则是将TRUEFALSE数据集翻译为7种语言，同样经过语言学家的质量验证。

特点

FRESHQAPARALLEL数据集的特点在于其平行多语言设计，涵盖了8种语言的真假前提问题，为跨语言知识边界分析提供了丰富资源。SEAREFUSE数据集则专注于实体中心的问答，包含真实和虚构实体的问题，覆盖5种语言，旨在评估模型对实体存在性的认知。TRUEFALSEMULTILANG数据集则提供了多语言的真假陈述，覆盖6个主题，为模型在多语言环境下的知识边界认知提供了标准化测试平台。

使用方法

这些数据集的使用方法包括通过层间探测分析模型在不同语言和层中的知识边界认知。具体而言，可以训练线性分类器对模型的最后一词表示进行分类，评估其在跨语言环境下的零样本性能。此外，通过均值平移和线性投影等无训练对齐方法，可以有效地将知识边界感知能力跨语言迁移。微调双语问题翻译数据也被证明能进一步提升模型在多语言环境下的知识边界识别能力。

背景与挑战

背景概述

FRESHQAPARALLEL、SEAREFUSE和TRUEFALSEMULTILANG数据集由DAMO Academy和Durham University的研究团队于2025年构建，旨在分析大型语言模型（LLMs）在多语言环境下的知识边界认知能力。这些数据集填补了现有研究主要集中于英语的空白，通过多语言问题对模型内部表示进行系统分析。研究揭示了LLMs在知识边界认知中的关键发现，包括知识边界编码的层级特性、语言间线性结构的存在以及通过微调提升跨语言认知能力。这些发现不仅推动了LLMs在多语言应用中的安全性研究，还为减少低资源语言中的幻觉风险提供了新方法。

当前挑战

该数据集面临的挑战主要包括两方面：1) 领域问题挑战：如何准确识别和分类多语言环境下的知识边界问题，尤其是在低资源语言中，模型容易因知识边界认知不足而产生幻觉。2) 构建过程挑战：数据集的构建涉及多语言翻译和人工标注，确保翻译质量和标注一致性是一大难题，特别是在处理低资源语言时，缺乏高质量的平行语料和专业的语言学家资源增加了构建难度。此外，如何设计有效的评估框架以验证模型在多语言知识边界认知上的表现，也是研究中的关键挑战。

常用场景

经典使用场景

在跨语言大语言模型（LLMs）研究中，FRESHQAPARALLEL、SEAREFUSE和TRUEFALSEMULTILANG数据集被广泛应用于分析模型在不同语言中的知识边界认知。这些数据集通过构建多语言平行问题对，包括真实/虚假前提问题、实体中心的可回答/不可回答问题以及真实/虚假陈述，为研究者提供了丰富的测试场景。特别是在探究LLMs如何识别和处理未知问题时，这些数据集通过内部表示分析，揭示了模型在中间至中上层编码知识边界的关键机制。

实际应用

在实际应用中，这些数据集支持开发跨语言知识边界检测工具，帮助优化多语言问答系统和内容生成平台。例如，通过训练多语言探针模型，实时识别LLMs生成内容中的虚假前提或不可回答问题，并触发提示修正机制。在东南亚语言等低资源场景中，线性投影方法显著提升了模型对知识边界的识别准确率，为全球化AI服务提供了可靠性保障。

衍生相关工作

基于这些数据集的研究衍生出多项经典工作，包括跨语言知识边界对齐框架、弱资源到强资源的泛化模式分析等。其中，Zhang等人提出的问题翻译微调方法被证明能增强LLMs的跨语言边界感知；Mu等人发现的平行多语言学习机制进一步推动了模型内部表示对齐的研究。这些工作共同构成了多语言知识边界研究的理论基础和方法体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集