FreshQA-multilingual, FreshQA-multilingual-augmented, True-False-multilingual, SeaRefuse

github2025-04-22 更新2025-04-24 收录

下载链接：

https://github.com/DAMO-NLP-SG/LLM-Multilingual-Knowledge-Boundaries

下载链接

链接失效反馈

官方服务：

资源简介：

用于分析多语言大模型知识边界的数据集，包括FreshQA-multilingual、FreshQA-multilingual-augmented、True-False-multilingual和SeaRefuse。

本数据集旨在探究多语言大模型的知识边界，涵盖FreshQA-multilingual、FreshQA-multilingual-augmented、True-False-multilingual以及SeaRefuse等多个数据子集。

创建时间：

2025-04-11

原始信息汇总

LLM-Multilingual-Knowledge-Boundaries 数据集概述

数据集基本信息

名称: LLM-Multilingual-Knowledge-Boundaries
用途: 用于分析大型语言模型（LLM）在不同语言中的知识边界认知
相关论文: "Analyzing LLMs Knowledge Boundary Cognition Across Languages Through the Lens of Internal Representations"

包含的子数据集

FreshQA-multilingual
- 链接: https://huggingface.co/datasets/SeaLLMs/FreshQA-multilingual
FreshQA-multilingual-augmented
True-False-multilingual
SeaRefuse

代码功能

线性探针
使用均值漂移和线性投影对齐语言子空间

示例代码

python python inference.py --model_name Qwen/Qwen2.5-7B --dataset_name SeaLLMs/FreshQA-multilingual --output_path "./transferability_results/7B/Qwen_base_7B.json" --methods "identical" "mean shifting" "linear projection" --use_template True --batch_size 50

引用信息

bibtex @misc{xiao2025analyzingllmsknowledgeboundary, title={Analyzing LLMs Knowledge Boundary Cognition Across Languages Through the Lens of Internal Representations}, author={Chenghao Xiao and Hou Pong Chan and Hao Zhang and Mahani Aljunied and Lidong Bing and Noura Al Moubayed and Yu Rong}, year={2025}, eprint={2504.13816}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.13816}, }

搜集汇总

数据集介绍

构建方式

在跨语言大模型知识边界研究的背景下，FreshQA-multilingual等数据集的构建采用了多维度知识采样策略。研究团队基于FreshQA基准框架，通过专业翻译和本地化处理将其扩展为多语言版本，同时运用对抗生成技术创建增强数据集True-False-multilingual，并配合SeaRefuse负样本集形成完整的评估体系。数据集构建过程特别注重语言表征的对齐性，为后续的线性探测和子空间对齐研究提供了结构化数据基础。

特点

该系列数据集最显著的特征在于其多语言知识边界评估的专属性设计。FreshQA-multilingual覆盖多种语言的知识时效性测试，True-False-multilingual通过精心构造的真伪命题检验模型的知识边界认知能力，SeaRefuse则提供负样本参照。数据集特别设计了语言子空间对齐的评估维度，配合论文提出的均值偏移和线性投影方法，为分析大模型跨语言知识迁移特性提供了标准化测试环境。

使用方法

使用该数据集时需通过提供的inference.py脚本进行标准化评估流程。用户需指定待测模型名称、数据集路径及输出位置，可选择identical、mean shifting或linear projection等特征对齐方法。评估过程支持批量处理，通过--batch_size参数控制计算效率。数据集特别适用于研究大模型在不同语言间的知识表征一致性，使用时应结合论文提出的语言子空间对齐框架进行系统性分析。

背景与挑战

背景概述

FreshQA-multilingual及其衍生数据集由SeaLLMs团队于2025年发布，旨在探究多语言大语言模型（LLMs）在不同语言中的知识边界认知能力。该数据集基于Chenghao Xiao等人在arXiv预印本论文中提出的研究方法，通过内部表示视角分析模型跨语言的知识迁移特性。作为多语言评估基准，其核心研究问题聚焦于LLMs在非英语语境下的知识表征一致性，为自然语言处理领域的跨语言泛化研究提供了重要实证基础。数据集涵盖增强版FreshQA-multilingual-augmented、真值判断数据集True-False-multilingual以及拒答行为分析数据集SeaRefuse，构成了系统性的多语言能力评估体系。

当前挑战

该系列数据集面临双重挑战：在领域问题层面，需解决多语言环境下模型知识边界模糊化的难题，特别是低资源语言与高资源语言之间的知识表征差异问题。构建过程中，研究者需要克服跨语言平行语料的质量控制挑战，确保不同语言版本在语义复杂度和时效性上的对等性。数据标注阶段涉及多语言专家协同工作，如何保持标注标准的一致性成为关键瓶颈。此外，针对模型拒答行为分析的SeaRefuse数据集，需要设计精细的对抗性样本以准确捕捉模型的知识边界判断机制。

常用场景

经典使用场景

在自然语言处理领域，FreshQA-multilingual等数据集为研究多语言大模型的知识边界认知提供了重要工具。这些数据集通过涵盖多种语言的知识问答任务，使研究者能够系统评估模型在不同语言环境下的表现差异。特别是在跨语言知识迁移研究中，这些数据集成为验证模型内部表示对齐程度的基准测试平台。

衍生相关工作

基于这些数据集的研究催生了多项重要工作，包括语言子空间对齐算法、跨语言知识迁移框架等。特别是线性探测和均值偏移投影等方法，已成为分析多语言模型内部表示的标准技术。相关论文提出的评估范式也被后续研究广泛采用。

数据集最近研究