EverGreenQA

Name: EverGreenQA
Creator: Skoltech, AIRI, HSE University, MTS AI, MIPT
Published: 2025-05-27 20:35:13
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

https://huggingface.co/collections/s-nlp/evergreen-683465909575cb89d6b904fe

下载链接

链接失效反馈

官方服务：

资源简介：

EverGreenQA是一个多语言QA数据集，包含7种语言共4757个例子，旨在评估和改进大型语言模型（LLMs）在问答任务中的表现。数据集包括真实用户查询，每个查询都被标记为永恒性或可变性，并附带相应的答案。EverGreenQA用于评估12个现代LLMs是否能够显式或隐式地识别问题的永恒性。此外，论文还介绍了EG-E5，这是一个轻量级的多语言分类器，用于识别永恒性问题，并在三个应用中展示了其实用性：提高自我知识估计、过滤QA数据集以及解释GPT-4o的检索行为。

EverGreenQA is a multilingual question answering (QA) dataset containing 4,757 examples spanning 7 languages, developed to evaluate and improve the performance of large language models (LLMs) in QA tasks. The dataset includes real-world user queries, each annotated as either eternal or temporal, paired with their corresponding answers. EverGreenQA is used to assess whether 12 state-of-the-art LLMs can explicitly or implicitly identify the timeless nature of questions. Furthermore, the accompanying paper presents EG-E5, a lightweight multilingual classifier for detecting timeless questions, and showcases its practical utility across three applications: enhancing self-knowledge estimation, filtering QA datasets, and interpreting the retrieval behavior of GPT-4o.

提供机构：

Skoltech, AIRI, HSE University, MTS AI, MIPT

创建时间：

2025-05-27

搜集汇总

数据集介绍

构建方式

EverGreenQA数据集通过多语言人工标注构建，涵盖7种语言共计4,757个问题-答案对。数据来源包括真实用户查询和人工生成的合成数据，其中1,449个合成样本专门用于平衡类别分布。所有问题均经过专业语言学家团队的多轮验证，确保标签准确性和答案质量。数据集采用GPT-4.1进行跨语言翻译，并通过母语评估者进行质量验证，最终形成包含训练集（3,487例）和测试集（1,270例）的标准划分。

特点

该数据集首创性地标注了问题的时效性属性（evergreen/mutable），为研究语言模型的时间敏感性提供了基准。其多语言覆盖（英、法、德、希伯来等）支持跨文化评估，且每个问题均配备人工撰写的标准答案及精简变体。独特之处在于区分了自然稳定事实与随时间变化的动态知识，并通过合成数据增强解决了类别不平衡问题，数据质量经专业语言学团队多轮校验。

使用方法

该数据集支持三种主要应用场景：作为训练资源可微调轻量级分类器EG-E5；作为评估基准可测试LLMs对问题时效性的显式（提示判断）或隐式（不确定性信号）认知；还可用于过滤传统QA数据集中随时间失效的问题以提升评估公平性。使用时应结合提供的训练-测试划分，对于跨语言研究建议优先验证翻译一致性，且需注意合成数据仅存在于训练集的evergreen类别。

背景与挑战

背景概述

EverGreenQA是由Skoltech、AIRI、HSE University等机构的研究团队于2025年推出的首个多语言常青问题分类数据集，旨在解决大型语言模型(LLM)在问答任务中因问题时效性导致的幻觉问题。该数据集包含4,757个涵盖7种语言的问题-答案对，通过人工标注将问题划分为常青类(答案长期稳定)和可变类(答案随时间变化)。作为时间敏感型QA研究的重要里程碑，EverGreenQA不仅填补了多语言时效性标注数据的空白，更为评估和提升LLMs的时序推理能力提供了标准化基准，对构建可信赖的问答系统具有开创性意义。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决LLMs对时序敏感问题的错误处理，包括对可变问题给出过时答案或对常青问题产生无根据的推测；在构建过程中，需克服多语言标注一致性维护、文化特异性处理，以及平衡常青与可变问题比例等技术难题。特别值得注意的是，区分表面稳定实则可变的问题(如天文记录)与真正恒常的事实(如物理定律)，以及处理低资源语言的时效性表达差异，构成了数据集构建的核心挑战。

常用场景

经典使用场景

EverGreenQA数据集在自然语言处理领域中被广泛应用于评估和训练大型语言模型（LLMs）在处理时间敏感性问题的能力。该数据集通过标记问题是否为常青（evergreen）或可变（mutable），帮助研究者理解模型在回答随时间变化的问题时的表现。经典使用场景包括评估模型在时间敏感性任务中的准确性，以及训练模型识别问题的时效性。

衍生相关工作

EverGreenQA数据集衍生了一系列相关研究和工作，包括EG-E5分类器的开发，该分类器在识别常青问题方面达到了最先进的性能。此外，该数据集还启发了对大型语言模型在时间敏感性任务中的行为研究，如GPT-4o的检索行为分析。其他相关工作还包括对自我知识估计和数据集过滤技术的改进。

数据集最近研究