finbenchv2-opengpt-x_truthfulqax-fi-mt

Name: finbenchv2-opengpt-x_truthfulqax-fi-mt
Creator: TurkuNLP Research Group
Published: 2025-06-13 21:33:24
License: 暂无描述

Hugging Face2025-06-13 更新2025-06-14 收录

下载链接：

https://huggingface.co/datasets/TurkuNLP/finbenchv2-opengpt-x_truthfulqax-fi-mt

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两种类型的数据配置：gen_FI和mc_FI。gen_FI配置包含问题类型、类别、问题、最佳答案、正确答案列表、错误答案列表、来源和唯一标识符等字段。mc_FI配置包含问题、两个多项选择题的选项和标签、以及唯一标识符等字段。数据集分为验证集，每个配置的验证集都有相应的示例数量和大小。

提供机构：

TurkuNLP Research Group

创建时间：

2025-06-13

搜集汇总

数据集介绍

构建方式

finbenchv2-opengpt-x_truthfulqax-fi-mt数据集基于LumiOpen/opengpt-x_truthfulqax的存档版本构建，专门用于Finbench版本2的评估。该数据集包含两种配置：gen_FI和mc_FI，分别针对生成式问答和多项选择题任务。数据来源于TruthfulQA基准测试，涵盖了38个不同领域的817个问题，这些问题经过精心设计，旨在评估模型在避免人类常见误解方面的表现。数据集的构建过程严格遵循了原始TruthfulQA的方法论，确保了问题的多样性和挑战性。

特点

该数据集的特点在于其跨语言评估能力，特别针对欧洲语言进行了优化。数据集包含丰富的问题类型和类别，涵盖了健康、法律、金融和政治等多个领域。每个问题都配有最佳答案、正确答案列表和错误答案列表，便于全面评估模型的性能。多项选择题配置（mc_FI）提供了两种不同的目标结构（mc1_targets和mc2_targets），进一步增强了评估的灵活性。数据集的紧凑设计和高效存储使其易于下载和使用。

使用方法

使用该数据集时，研究人员可以通过gen_FI配置评估生成式模型的答案准确性，或通过mc_FI配置测试模型在多项选择题中的表现。数据集提供了详细的验证集分割，包含817个示例，可直接用于模型评估。为了确保结果的可比性，建议在引用时同时引用原始TruthfulQA论文和Finbench版本2的相关文献。数据集的结构化设计和清晰标注使其能够无缝集成到现有的自然语言处理评估流程中。

背景与挑战

背景概述

finbenchv2-opengpt-x_truthfulqax-fi-mt数据集源于对多语言大语言模型（LLM）真实性评估的迫切需求，由LumiOpen团队基于TruthfulQA基准构建，并作为Finbench第二版的核心组成部分。该数据集创建于2024年，主要研究者包括Klaudia Thellmann等跨学科学者，旨在解决模型生成内容中存在的虚假信息问题，尤其针对欧洲语言场景下的真实性与可靠性评估。其学术价值体现在将原始TruthfulQA的38类领域问题扩展至芬兰语等多语言环境，为衡量模型抗误导能力提供了标准化工具，对促进可信AI发展具有里程碑意义。

当前挑战

该数据集面临双重挑战：在领域问题层面，如何精准捕捉模型因模仿人类错误认知而产生的系统性偏差，尤其在金融、法律等高敏感性领域需平衡问题覆盖度与专业严谨性；在构建过程中，跨语言迁移导致的文化特异性处理成为难点，例如芬兰语语境下的语义细微差别可能影响问题设计的等效性。此外，保持与原始英文基准的度量可比性，同时适应多语言评估框架的技术复杂性，也对数据标注和质量控制提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，finbenchv2-opengpt-x_truthfulqax-fi-mt数据集被广泛用于评估多语言大语言模型在生成真实答案方面的能力。该数据集基于TruthfulQA基准，特别针对芬兰语进行了优化，涵盖了健康、法律、金融和政治等38个领域的817个问题。研究者通过该数据集可以系统地测试模型在避免生成基于人类常见误解的虚假答案方面的表现，从而评估模型的真实性和可靠性。

解决学术问题

该数据集解决了自然语言处理中一个关键问题：如何量化评估语言模型生成答案的真实性。传统评估方法往往忽视模型可能模仿人类错误知识的风险，而该数据集通过精心设计的问题和答案对，为研究者提供了衡量模型真实性的标准化工具。其意义在于推动了模型真实性评估的跨语言扩展，并为改进模型训练目标提供了数据基础。

衍生相关工作

基于该数据集衍生的经典工作包括跨语言大模型评估框架的开发，如Thellmann等人提出的欧洲语言评估方法。这些研究扩展了原始TruthfulQA基准的应用范围，推动了多语言环境下模型真实性评估的标准化进程。相关工作还探索了不同规模模型在真实性表现上的差异，为模型架构优化提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集