FinGrAct Dataset

Name: FinGrAct Dataset
Creator: 谢布鲁克大学计算机科学系
Published: 2025-04-08 00:14:27
License: 暂无描述

arXiv2025-04-08 更新2025-04-09 收录

下载链接：

http://arxiv.org/abs/2504.05229v1

下载链接

链接失效反馈

官方服务：

资源简介：

FinGrAct数据集是由谢布鲁克大学计算机科学系构建的，包含203个示例，旨在涵盖不同级别的可操作性。该数据集通过从现有基准数据集中提取并生成不同类型的解释，包括仅错误检测、仅错误纠正、错误检测与纠正、带来源的错误检测与纠正等，以此来评估和促进自动化事实核查系统中解释的可操作性。

The FinGrAct dataset, constructed by the Department of Computer Science at the University of Sherbrooke, encompasses 203 examples and is designed to cover various levels of operability. The dataset evaluates and promotes the operability of explanations in automated fact-checking systems by extracting and generating diverse types of explanations from existing benchmark datasets, including those focused solely on error detection, error correction, both error detection and correction, and error detection and correction with source attribution.

提供机构：

谢布鲁克大学计算机科学系

创建时间：

2025-04-08

搜集汇总

数据集介绍

构建方式

FinGrAct数据集通过整合两个现有基准数据集构建而成，涵盖了不同水平的错误检测和纠正，以及支持性参考链接的存在与否。数据收集过程包括对反事实和非反事实解释的分类，确保数据集在动作性方面具有多样性。此外，数据集还通过三个大型语言模型（LLAMA-7B、Mistral-7B和GPT-4）生成了额外的解释，用于分析自我中心偏差。最终，数据集经过人类注释者的独立评估，确保其动作性评分的准确性和一致性。

特点

FinGrAct数据集的主要特点在于其细粒度的动作性评估框架，能够系统性地衡量解释中的错误检测、纠正以及支持性链接的程度。数据集包含多样化的解释类型，从仅检测错误到完全纠正错误并提供支持性链接的不同水平。此外，数据集还提供了人类评分的动作性分数，可作为评估不同动作性评估器性能的基准。其独特之处在于结合了反事实和非反事实解释，确保了评估的全面性和多样性。

使用方法

FinGrAct数据集的使用方法包括三个主要步骤：错误分割与纠正、解释评估和来源评估。首先，通过错误分割与纠正任务，将声明分解为原子声明并识别事实错误及其纠正。随后，解释评估任务验证解释中是否明确提及了检测到的错误和纠正。最后，来源评估任务检查解释中的链接是否存在、相关且支持纠正。数据集还支持通过URL内容检索器（UCR）获取链接内容，进一步提升评估的准确性。用户可根据需要选择是否集成UCR组件，以适应不同的评估需求。

背景与挑战

背景概述

FinGrAct数据集由Sherbrooke大学计算机科学系的Islam Eldifrawi、Shengrui Wang和Amine Trabelsi于2025年提出，旨在解决可解释自动事实核查（AFC）领域中解释的可操作性评估问题。该数据集通过细粒度的评估框架，结合明确的评估标准和人工评分，为AFC解释的可操作性提供了首个专用评估方法。FinGrAct不仅超越了现有最先进的评估方法，还在与人类评分的相关性上表现出色，同时展现出最低的自我中心偏差，显著提升了AFC解释评估的鲁棒性和可靠性。

当前挑战

FinGrAct数据集面临的挑战主要包括：1) 在领域问题方面，AFC解释的可操作性评估缺乏统一标准，现有方法难以准确衡量解释的错误检测、纠正及支持链接的有效性；2) 在构建过程中，数据集需要处理来自不同来源的解释，涵盖不同程度的可操作性，并确保人工评分的准确性和一致性。此外，评估框架需克服大型语言模型（LLM）的自我中心偏差，并有效整合外部链接内容以验证解释的可信度。

常用场景

经典使用场景

在可解释的自动事实核查（AFC）领域，FinGrAct数据集被广泛用于评估解释的可操作性。通过精细化的评估框架，该数据集能够衡量解释中错误检测、错误纠正以及支持性链接的完整性，从而为研究人员提供一个标准化的评估工具。其经典使用场景包括对自动生成的解释进行质量评估，确保其能够有效帮助用户识别和纠正虚假信息。

解决学术问题

FinGrAct数据集解决了可解释AFC系统中解释可操作性评估的空白问题。通过提供细粒度的评估标准和人工标注的行动性分数，该数据集使研究人员能够量化解释的有效性，从而推动更透明、可信的自动事实核查系统的发展。其意义在于填补了现有评估方法的不足，并为未来研究提供了可靠的基准。

衍生相关工作

FinGrAct数据集衍生了一系列相关研究，包括基于大语言模型（LLM）的自动评估方法改进，以及针对解释可操作性的新型生成模型。例如，部分研究通过结合URL内容检索器（UCR）增强评估的准确性，另一些工作则探索了减少LLM自我偏好偏差（ego-centric bias）的策略，进一步推动了可解释AFC领域的技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集