MFMD4Instruction; MFMDBench

Name: MFMD4Instruction; MFMDBench
Creator: 曼彻斯特大学; 史蒂文斯理工学院; 哥伦比亚大学; 爱丁堡大学; The Fin AI; ELLIS Manchester
Published: 2026-04-20 21:48:05
License: 暂无描述

arXiv2026-04-20 更新2026-01-10 收录

下载链接：

https://github.com/lzw108/FMD

下载链接

链接失效反馈

官方服务：

资源简介：

MFMD4Instruction是首个支持多语言金融虚假信息检测的指令微调数据集，涵盖英语、中文、希腊语和孟加拉语，包含4837条数据。该数据集基于多个现有数据集构建，包括FinDVer、CHEF等，覆盖金融声明验证、事实核查等任务。数据来源包括金融报告、社交媒体等，经过统一格式转换和复杂推理路径构建。该数据集旨在支持大语言模型在金融领域的虚假信息检测，解决多语言环境下金融信息复杂性带来的挑战。

MFMD4Instruction is the first instruction-tuning dataset for multilingual financial disinformation detection, covering English, Chinese, Greek and Bengali with a total of 4,837 data samples. Constructed from multiple existing datasets including FinDVer and CHEF, this dataset covers tasks such as financial claim verification and fact-checking. Its data sources span financial reports, social media and other channels, and it has undergone unified format conversion and the establishment of complex reasoning paths. This dataset is designed to support large language models (LLMs) in financial disinformation detection, addressing the challenges brought by the complexity of financial information in multilingual contexts.

提供机构：

曼彻斯特大学; 史蒂文斯理工学院; 哥伦比亚大学; 爱丁堡大学; The Fin AI; ELLIS Manchester

创建时间：

2026-04-20

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Financial Misinformation Detection (FMD) 数据集
主要用途: 用于金融虚假信息检测任务的研究与模型训练。
关联项目: 本数据集是 COLING 2025 金融虚假信息检测挑战赛 (Financial Misinformation Detection Challenge) 的支持数据，并与论文《FMDLlama: Financial Misinformation Detection based on Large Language Models》相关。

数据集构成与获取

练习数据 (Practice data): 可通过 https://huggingface.co/datasets/lzw1008/COLING25-FMD/tree/main/practice_data 获取。
完整训练数据 (Complete train data): 可通过 https://huggingface.co/datasets/lzw1008/COLING25-FMD/tree/main/Training 获取。
测试数据 (Test data): 待定 (TBD)。

数据处理与使用流程

数据预处理

可遵循 practice_data_preprocess.ipynb 文件生成指令数据，默认路径为 ./data/practice_data/instruct_data/。

数据格式转换

使用 src/convert_to_conv_data.py 脚本将原始数据转换为适用于大语言模型训练的对话格式。
当前默认格式适配 LLaMA2 系列模型（格式为 "*Human*": "sentence", "*Assistant*": "sentence"）。
若需适配其他大语言模型，需进行相应修改。

模型微调

执行 bash ./src/run_sft.sh 进行模型监督微调。

模型推理

执行 bash src/run_inference.sh 进行模型推理。

效果评估

遵循 evaluation.ipynb 文件进行评估，可获取 F1 分数、Rouge 分数、BERTScore 以及最终得分。

许可信息

本项目采用 MIT 许可证。

引用信息

若使用本数据集或相关代码，请引用以下论文：

@article{liu2024fmdllama, title={FMDLlama: Financial Misinformation Detection based on Large Language Models}, author={Liu, Zhiwei and Zhang, Xin and Yang, Kailai and Xie, Qianqian and Huang, Jimin and Ananiadou, Sophia}, journal={arXiv preprint arXiv:2409.16452}, year={2024} }

搜集汇总

数据集介绍

构建方式

在金融文本分析领域，准确识别误导性信息对维护市场透明度至关重要。RFC-BENCH的构建遵循严谨的多阶段流程，首先从雅虎财经收集了1845篇真实金融新闻段落作为原始语料。随后，基于先前研究中总结的常见误导模式，定义了四大操纵类别：方向翻转、数值扰动、情感放大和因果扭曲。每个类别均通过GPT-4.1在特定约束下进行改写，生成表面流畅但语义扭曲的对抗样本。为确保数据质量，改写结果经过自动最小化检查，并由领域专家进行人工验证，最终通过双重标注者评估与结构化裁决流程，形成了包含原始-扰动配对的高质量基准数据集。

特点

该数据集在金融误导检测领域展现出独特的设计维度。其核心在于段落级别的文本粒度，能够捕捉金融新闻中分散的上下文线索与语义复杂性。与现有基准相比，RFC-BENCH支持无参考检测与对比诊断双任务评估，全面考察模型在孤立段落与配对上下文中的推理能力。数据集涵盖四大操纵类型，包括方向、数值、情感和因果层面的微妙扭曲，这些扰动在保持表面合理性的同时，实质性地改变了文本所承载的承诺与推断。此外，所有样本均经过严格的专家审核与标注者一致性检验，确保了标签的可靠性与评估的科学性。

使用方法

在模型评估与算法研究中，RFC-BENCH提供了结构化的测试平台。研究者可通过两种互补任务对大型语言模型进行系统评估：无参考检测任务要求模型仅基于单个段落判断其是否包含误导信息，而对比诊断任务则提供原始-扰动配对，要求模型识别具体的操纵类型。评估时需遵循统一的提示协议，支持零样本与少样本设置，并报告准确率、宏平均F1分数及无效输出率等指标。该数据集特别适用于探究模型在缺乏外部证据时的内在推理能力，以及对比上下文对性能的影响，从而推动更可靠的金融误导检测技术在实际场景中的发展。

背景与挑战

背景概述

RFC-BENCH是2025年由曼彻斯特大学、斯蒂文斯理工学院、哥伦比亚大学等机构联合推出的一个金融领域基准数据集，专注于评估大语言模型在无参考情境下检测金融虚假信息的能力。该数据集以段落级金融新闻为研究对象，通过最小化但语义偏移的扰动操作，构建了1845对原始-扰动文本对，涵盖了方向翻转、数值扰动、情感放大和因果扭曲四种典型操纵类型。其核心研究问题在于探究大语言模型能否仅凭内部语篇线索，而非依赖外部证据或对比参照，识别出表面流畅但承诺语义发生偏移的金融误导信息。RFC-BENCH的提出填补了现有金融虚假信息检测基准过度依赖外部证据检索的空白，为研究模型的无参考推理能力及提升金融领域信息可靠性提供了结构化测试平台。

当前挑战

RFC-BENCH所针对的领域核心挑战在于无参考金融虚假信息检测，即要求模型在不依赖外部证据或原始文本对比的情况下，仅从单个段落内部识别出经过精心伪装、保持表面合理性的语义操纵。这种挑战源于金融文本中细微的语言变化即可导致投资意向或市场预期的根本性逆转，而现有模型在此任务上表现接近随机水平，揭示了其在维护连贯信念状态方面的内在缺陷。在数据集构建过程中，主要挑战包括如何设计并实施最小化且保持合理性的语义扰动，以确保生成的虚假信息既符合现实模式又避免引入可被表面特征轻易识别的痕迹；同时，确保扰动类型的多样性与真实性，并通过多阶段专家审核与标注者一致性验证来保障数据质量与标签可靠性，避免标注歧义与噪声。

常用场景

经典使用场景

在金融自然语言处理领域，RFC-BENCH 数据集被广泛用于评估大型语言模型在无外部证据支持下的金融虚假信息检测能力。该数据集通过构建真实金融新闻段落及其经过最小化语义扰动的对应版本，模拟了现实世界中通过细微编辑改变文本承诺的误导性内容。研究者利用该数据集执行两项核心任务：无参考检测任务要求模型仅基于单个段落判断其是否被篡改；对比诊断任务则提供原始与扰动段落的配对，要求模型识别具体的操纵类型。这种设计使得 RFC-BENCH 成为衡量模型在孤立语境中保持信念一致性的重要基准，尤其适用于测试模型对表面流畅但语义扭曲文本的敏感性。

衍生相关工作

围绕 RFC-BENCH 数据集，学术界衍生出一系列聚焦金融虚假信息检测的经典研究工作。例如，基于该数据集揭示的模型在无参考检测中的性能瓶颈，后续研究提出了增强内部一致性推理的微调方法，如通过对比学习强化模型对语义扰动的敏感性。同时，该数据集启发了对多模态金融虚假信息检测的扩展，研究者将文本扰动与财务表格、图表等跨模态证据结合，构建更全面的评估框架。此外，针对数据集中的四类操纵机制，后续工作开发了细粒度的解释生成模型，不仅检测虚假信息，还能输出具体的篡改依据，推动了可解释金融 NLP 系统的发展。

数据集最近研究