FRED dataset
收藏arXiv2025-07-28 更新2025-07-30 收录
下载链接:
https://github.com/pegasi-ai/fine-grained-editting
下载链接
链接失效反馈官方服务:
资源简介:
FRED数据集是一个合成的数据集,由Pegasi AI创建,旨在检测和编辑大型语言模型生成的金融领域事实错误内容。该数据集基于FinQA和TATQA两个基准数据集,通过插入标记错误来构建。数据集包含8K和36K两个版本,每个版本都包含金融领域的问答任务,要求对文本上下文进行多步数值推理。数据集的创建过程包括错误插入、过滤和校正、以及训练数据准备。FRED数据集的应用领域是金融文本生成,旨在解决大型语言模型中存在的幻觉问题。
The FRED dataset is a synthetic dataset created by Pegasi AI, targeted at detecting and editing factual errors in financial content generated by large language models. It is constructed based on two benchmark datasets, FinQA and TATQA, by inserting labeled erroneous instances. The dataset offers two versions, 8K and 36K, both featuring financial question answering tasks that demand multi-step numerical reasoning over textual contexts. The creation pipeline of the FRED dataset encompasses error insertion, filtering and correction, as well as training data preparation. The FRED dataset is applied in financial text generation, with the goal of mitigating the hallucination problems inherent in large language models.
提供机构:
Pegasi AI, New York, USA
创建时间:
2025-07-28
原始信息汇总
fine-grained-editting 数据集概述
简介
该数据集用于金融领域的幻觉检测和编辑工作,包含用于训练和评估微调模型在FinQA+TATQA上的合成数据生成信息。
数据准备
错误插入
- 脚本路径:
data_preparation/insert_errors.py - 输入参数:
input_file:输入文件路径output_file:输出文件路径api_key:OpenAI API密钥
过滤与校正
- 脚本路径:
data_preparation/verify_responses.py - 输入参数:
input_file:输入文件路径output_file:输出文件路径
训练数据准备
- 脚本路径:
data_preparation/convert_format.py - 输入参数:
input_file:输入文件路径output_file:输出文件路径
推理
模型推理
- 脚本路径:
evalution/phi_4_inference.py - 输入参数:
input_file:输入文件路径output_file:输出文件路径
后处理
- 脚本路径:
evalution/postprocess.py - 输入参数:
input_file:输入文件路径output_file:输出文件路径
评估
检测评估
- 脚本路径:
evalution/eval_detection.py - 输入参数:
input_file:输入文件路径output_file:输出文件路径
编辑评估
- 脚本路径:
evalution/eval_factscore.py - 输入参数:
input_file:输入文件路径
搜集汇总
数据集介绍

构建方式
FRED数据集的构建基于金融领域的特定错误分类法,通过系统化方法在金融问答语料库中插入标记错误,从而生成合成数据。具体流程包括三个阶段:错误插入、过滤与校正以及训练数据准备。首先,依据预定义的错误类型(如数值错误、时间错误、实体错误等),在FinQA和TAT-QA基准数据集的答案中插入标记错误;随后,通过质量检查过滤不可修复的错误,并修正可修复的错误;最后,将标记错误后的文本转换为输入-输出对,用于模型微调。这一方法确保了数据集的多样性和高质量,适用于金融领域的事实性错误检测与编辑任务。
特点
FRED数据集的特点在于其针对金融领域的事实性错误进行了精细标注,涵盖了六种错误类型:数值错误、时间错误、实体错误、关系错误、矛盾陈述和不可验证陈述。数据集包含来自FinQA和TAT-QA的36K训练样本,错误类型分布均衡,能够全面反映金融文本生成中的常见问题。此外,数据集的构建采用了多模型策略(如GPT-3.5-turbo、GPT-4等),确保了错误模式的多样性和真实性,为模型训练提供了丰富的学习材料。
使用方法
FRED数据集的使用方法主要包括模型微调和评估两个阶段。在微调阶段,研究人员可利用数据集中的标记错误和校正文本,训练语言模型(如Phi-4、Qwen3等)进行错误检测与编辑。评估阶段则通过对比模型生成的校正文本与目标输出来衡量性能。数据集支持端到端的幻觉编辑任务,包括错误检测(如识别数值或时间错误)和错误修正(如替换错误实体或关系)。此外,数据集还提供了详细的错误分类和结构化标签,便于模型进行细粒度的分析和改进。
背景与挑战
背景概述
FRED数据集由Pegasi AI的研究团队于2025年提出,旨在解决大型语言模型在金融领域生成内容时出现的事实性幻觉问题。该数据集基于FinQA和TAT-QA两个金融问答基准构建,通过系统性地插入标注错误来模拟真实场景中的事实性偏差。研究团队定义了六类金融领域特有的错误类型(如数值计算错误、实体引用错误等),并采用微调小型语言模型的方法实现端到端的幻觉检测与编辑。作为首个针对金融文本生成事实性验证的专用数据集,FRED为提升RAG系统在专业领域的可信度提供了重要基准,其提出的领域错误分类体系也被后续研究广泛借鉴。
当前挑战
FRED数据集面临的核心挑战体现在两个维度:在领域问题层面,金融文本特有的数值推理复杂性(如多步骤计算、时间序列分析)和领域术语敏感性(如公司实体、金融工具名称)对幻觉检测的细粒度要求极高;在构建过程层面,合成数据的真实性控制存在难度——既要保证插入错误的多样性覆盖六类预定义错误,又要避免生成违反金融逻辑的无效样本。此外,标注过程中实体关系错误的模糊边界(如'控股'与'参股'的语义区分)和时序矛盾的隐蔽性(如跨财报周期的数据引用)也显著增加了数据质量控制复杂度。
常用场景
经典使用场景
FRED数据集在金融领域的自然语言处理任务中展现出卓越的应用价值,特别是在大型语言模型(LLMs)生成内容的幻觉检测与编辑方面。该数据集通过构建金融领域的特定错误分类法,如数值计算错误、实体引用错误、时间不一致和关系不匹配等,为研究者提供了一个系统化的工具来识别和修正模型生成内容中的事实性错误。其经典使用场景包括金融问答系统的优化、财务报告的自动生成与校验,以及基于检索增强生成(RAG)系统的金融信息处理。
解决学术问题
FRED数据集有效解决了大型语言模型在金融领域应用中生成内容的事实性不可靠问题。通过细粒度的错误标注和修正,该数据集为研究者提供了训练和评估模型在幻觉检测与编辑任务上的基准。其贡献在于不仅提升了模型在金融文本生成中的准确性,还通过引入可泛化的框架,增强了跨领域语言模型的可信度和一致性。实验结果表明,基于FRED数据集微调的模型在幻觉检测任务中显著优于现有方法,尤其在数值推理和时间一致性等关键指标上表现突出。
衍生相关工作
FRED数据集的发布推动了多项相关研究的发展,尤其是在幻觉检测与编辑领域。基于该数据集,研究者提出了多种改进模型,如GENAUDIT和FAVA,这些工作进一步细化了错误分类和修正策略。此外,FRED数据集还启发了跨领域的研究,如法律和医疗文本的幻觉处理,展示了其框架的广泛适用性。这些衍生工作不仅扩展了数据集的应用范围,也为未来研究提供了宝贵的参考和工具。
以上内容由遇见数据集搜集并总结生成



