EvasionBench
收藏github2026-02-04 更新2026-02-07 收录
下载链接:
https://github.com/IIIIQIIII/EvasionBench
下载链接
链接失效反馈官方服务:
资源简介:
EvasionBench引入了一个三级规避分类(直接、中级、完全规避)和一个使用前沿LLMs的多模型共识(MMC)标注框架。我们的基准包括84K平衡训练样本和1K黄金标准评估集。
EvasionBench introduces a three-level evasion classification (direct, intermediate, and complete evasion) and a multi-model consensus (MMC) annotation framework utilizing state-of-the-art LLMs. Our benchmark includes 84K balanced training samples and a 1K gold-standard evaluation set.
创建时间:
2026-02-04
原始信息汇总
EvasionBench 数据集概述
数据集简介
EvasionBench 是一个用于检测财报电话会议问答中管理层回避行为的大规模基准数据集。该数据集引入了一个三级回避分类法,并采用了一个基于前沿大语言模型的多模型共识标注框架。
核心内容
- 数据集规模:包含 84K 个平衡的训练样本和一个 1K 的黄金标准评估集。
- 回避分类法:定义了三种回避级别:
- 直接回答:核心问题被直接且明确地回答。
- 间接回避:回应提供了相关背景,但回避了具体的核心问题。
- 完全回避:问题被忽略、拒绝,或回应完全偏离主题。
- 标注框架:采用多模型共识框架,利用多个前沿大语言模型进行标注,并通过三法官多数投票机制解决分歧。
模型性能
在 EvasionBench 1K 评估集上,微调模型 Eva-4B (Full) 取得了最佳性能,其宏平均 F1 分数为 84.9%,准确率为 84.8%,表现超过了包括 Claude Opus 4.5 和 GPT-5.2 在内的更大规模前沿模型。
数据与资源链接
- 项目主页:https://iiiiqiiii.github.io/EvasionBench
- HuggingFace 模型:https://huggingface.co/FutureMa/Eva-4B-V2
- HuggingFace 数据集:https://huggingface.co/datasets/FutureMa/EvasionBench
- 学术论文:https://arxiv.org/abs/2601.09142
- 快速启动 Colab 笔记本:https://colab.research.google.com/github/IIIIQIIII/EvasionBench/blob/main/scripts/eva4b_inference.ipynb
许可证
本项目采用 Apache 2.0 许可证。
搜集汇总
数据集介绍

构建方式
在金融文本分析领域,构建高质量标注数据集是推动模型性能提升的关键。EvasionBench数据集通过创新的多模型共识框架进行构建,该框架整合了多个前沿大语言模型的标注能力,并采用三法官多数投票机制以解决标注分歧。数据集涵盖84,000个平衡的训练样本以及一个包含1,000个样本的黄金标准评估集,其标注体系基于一个精细的三级回避分类法,将管理层在财报电话会议问答中的回应划分为直接回答、间接回避和完全回避三个类别。
特点
该数据集的核心特点在于其系统化的标注框架与规模化的数据覆盖。其引入的三级回避分类法为识别管理层在财务沟通中的策略性回避行为提供了清晰的语义边界,使得模型能够更细致地理解回应中的微妙差异。数据集规模庞大且类别平衡,确保了训练过程的稳定性和评估结果的可靠性。尤为突出的是,基于该数据集微调的Eva-4B模型在评估集上取得了84.9%的宏平均F1分数,其性能超越了包括Claude Opus 4.5和GPT-5.2在内的多个更大规模的先进模型,这充分验证了数据集在模型训练与基准测试方面的实用价值。
使用方法
研究人员和开发者可通过Hugging Face平台直接访问EvasionBench数据集,并利用其进行模型训练、微调与性能评估。数据集附带了详细的提示模板和推理脚本,包括命令行工具和Colab笔记本,便于用户快速复现实验或将其集成至自有工作流中。用户可基于该数据集的黄金标准测试集构建模型性能排行榜,或利用其训练样本对现有模型进行针对性优化,以提升在管理层回避行为检测这一特定自然语言理解任务上的表现。
背景与挑战
背景概述
在金融文本分析领域,准确识别管理层在财报电话会议问答环节中的规避行为,对于投资者决策与市场透明度至关重要。EvasionBench数据集由Shijian Ma、Yan Lin和Yi Yang等研究人员于2026年创建,其核心研究问题在于系统性地检测与分类管理层在回应投资者质询时的直接回答、间接回避及完全规避等行为模式。该数据集构建了一个包含8.4万条平衡训练样本与1千条黄金标准评估集的大规模基准,通过引入三级规避分类体系与多模型共识标注框架,显著提升了自然语言处理模型在金融对话理解任务上的性能表现,为自动化财务文本分析提供了重要的数据基础与评估标准。
当前挑战
EvasionBench旨在解决的领域挑战是管理层规避行为的细粒度检测与分类,这要求模型不仅能理解自然语言语义,还需洞察金融对话中的隐含意图与修辞策略。构建过程中的主要挑战在于高质量标注数据的获取,由于规避行为本身具有主观性与语境依赖性,传统人工标注易产生不一致性。为此,研究团队设计了多模型共识框架,利用前沿大语言模型进行协同标注,并通过多数投票机制解决分歧,但这一过程仍面临标注成本高昂与模型偏差校准的复杂性。此外,确保数据集的平衡性与代表性,以覆盖多样化的规避场景与行业语境,亦是构建过程中的关键难点。
常用场景
经典使用场景
在金融文本分析领域,EvasionBench数据集为检测企业收益电话会议问答环节中的管理层规避行为提供了标准化评估框架。该数据集通过构建大规模标注样本,支持研究者训练和验证自然语言处理模型,以识别管理层对核心问题的直接回答、间接回避或完全规避等行为模式,从而推动对话系统与文本理解技术在金融监管场景中的深度应用。
实际应用
在实际应用中,EvasionBench可服务于金融机构、监管机构与投资分析平台,用于自动化监控企业公开沟通中的信息规避风险。例如,通过集成Eva-4B等模型,系统能实时分析收益电话会议转录文本,辅助投资者识别潜在的信息不对称,增强决策支持能力,并推动企业治理与合规管理的智能化转型。
衍生相关工作
围绕EvasionBench衍生的经典工作包括基于Eva-4B模型的轻量化部署方案、跨领域规避行为迁移学习研究,以及结合多模态数据的金融风险预测框架。这些工作进一步拓展了数据集的边界,促进了自然语言处理与计算金融的交叉创新,为后续的模型优化与应用场景深化奠定了理论基础。
以上内容由遇见数据集搜集并总结生成



