five

FinSearchComp

收藏
github2025-10-03 更新2025-10-04 收录
下载链接:
https://github.com/randomtutu/FinSearchComp
下载链接
链接失效反馈
官方服务:
资源简介:
FinSearchComp是一个现实的、专家级别的金融搜索和推理评估基础设施,提供了一个开放的金融基准,包含时间敏感的获取、历史查找和多源调查任务,用于直接衡量寻找正确信号、检查和协调来源以及在时间压力下做出有根据判断的核心技能

FinSearchComp is a realistic, expert-level financial search and reasoning evaluation infrastructure. It provides an open financial benchmark consisting of time-sensitive information retrieval, historical lookup, and multi-source investigation tasks, which directly measure core skills including identifying correct signals, cross-checking and reconciling sources, and making informed judgments under time pressure.
创建时间:
2025-09-12
原始信息汇总

FinSearchComp 数据集概述

数据集基本信息

  • 数据集名称:FinSearchComp
  • 全称:FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning
  • 项目地址:https://github.com/randomtutu/FinSearchComp
  • Hugging Face地址:https://huggingface.co/datasets/ByteSeedXpert/FinSearchComp
  • 论文地址:https://arxiv.org/abs/2509.13160
  • 许可证:CC-BY-4.0

数据集描述

FinSearchComp是一个用于金融搜索和推理评估的基础性端到端评估基础设施,包含一个开放的金融基准测试。该数据集旨在直接衡量现实决策任务中的三个核心技能:

  • 寻找正确信号的能力
  • 检查和协调信息来源的能力
  • 在时间压力下基于信息做出有根据判断的能力

数据集特点

  • 包含时间敏感获取任务
  • 包含历史查找任务
  • 包含多源调查任务
  • 提供专家级别的金融搜索和推理评估

项目结构

核心模块

  • eval:评估模块,包含主要评估脚本eval.py
  • chat:对话处理模块,包含chat.py用于处理完整数据集
  • data:数据存储模块,包含JSON格式的FinSearchComp数据文件
  • config:配置模块,包含API密钥和模型设置
  • result:结果存储模块,包含对话输出和评估结果
  • models:模型实现模块,支持DeepSeek、OpenAI和Gemini模型
  • logger:日志配置模块

快速开始

环境配置

bash git clone git@github.com:randomtutu/FinSearchComp.git cd FinSearchComp conda create -n finsearchcomp python=3.10 conda activate finsearchcomp pip install -r finsearchcomp/requirements.txt

数据处理流程

  1. 配置API密钥至finsearchcomp/config/config.yaml

  2. 处理数据文件: bash python finsearchcomp/chat/chat.py --model_name gemini-2.5-flash --input_file ../data/finsearchcomp_data.json --output_path result/chat-result/chat.json --limit 1

  3. 执行评估: bash python finsearchcomp/eval/eval.py --model_name gemini-2.5-flash --input finsearchcomp/result/chat-result/chat.json --output finsearchcomp/result/eval-result/eval.json

开发机构

  • ByteDance Seed
  • Columbia Business School

引用信息

bibtex @misc{hu2025finsearchcomprealisticexpertlevelevaluation, title={FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning}, author={Liang Hu and Jianpeng Jiao and Jiashuo Liu and Yanle Ren and Zhoufutu Wen and Kaiyuan Zhang and Xuanliang Zhang and Xiang Gao and Tianci He and Fei Hu and Yali Liao and Zaiyuan Wang and Chenghao Yang and Qianyu Yang and Mingren Yin and Zhiyuan Zeng and Ge Zhang and Xinyi Zhang and Xiying Zhao and Zhenwei Zhu and Hongseok Namkoong and Wenhao Huang and Yuwen Tang}, year={2025}, eprint={2509.13160}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2509.13160}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在金融决策领域,FinSearchComp数据集通过模拟真实场景下的信息检索与推理需求构建而成。该数据集整合了时间敏感型查询、历史数据回溯以及多源信息交叉验证三类任务,其构建过程严格遵循金融专业标准,确保每项任务均能反映实际业务中的复杂决策流程。数据来源于权威金融文档与实时市场信息,经过领域专家审核与结构化处理,形成具有高度可信度的评估基准。
特点
FinSearchComp数据集的核心特点在于其全面覆盖金融搜索与推理的关键能力维度。该数据集不仅包含动态时间约束下的信号提取任务,还设计了多源数据对比与矛盾解析的挑战性场景,有效模拟了金融分析师在实际工作中面临的决策压力。其任务设计兼具专业深度与广度,能够精准评估模型在复杂金融环境下的综合表现。
使用方法
针对该数据集的应用,研究人员可通过配置标准化接口快速接入主流大语言模型进行测试。使用流程包括数据加载、模型推理与结果评估三个主要环节,其中评估模块采用多维指标体系对模型的搜索准确率、推理逻辑性和时效性进行量化分析。该框架支持端到端的性能评测,为金融领域人工智能系统的优化提供可靠依据。
背景与挑战
背景概述
金融决策智能化研究领域长期面临如何模拟真实环境下专家级信息检索与推理能力的核心问题。FinSearchComp数据集由字节跳动Seed团队与哥伦比亚商学院于2025年联合构建,通过设计时间敏感信息获取、历史数据追溯及多源信息核查三类任务,建立了首个端到端的金融搜索推理评估体系。该数据集填补了传统基准在动态金融场景中实时决策能力验证的空白,为量化分析模型在复杂市场环境下的实际表现提供了重要基础设施。
当前挑战
金融领域数据具有强时效性、多源异构与高专业门槛三重特性,构建过程需攻克动态信息更新同步、跨源数据语义对齐等关键技术难题。该数据集着力解决金融决策中信号甄别、来源验证与时限压力下的推理判断等核心挑战,其评估框架需平衡历史回溯的完整性与实时决策的响应效率,同时确保多模态金融数据的专业标注质量与逻辑一致性。
常用场景
经典使用场景
在金融信息检索领域,FinSearchComp数据集通过模拟真实决策环境中的时间敏感数据获取、历史查询与多源信息整合任务,构建了端到端的评估框架。该数据集特别强调在时效压力下对金融信号的精准捕捉与交叉验证能力,为测试智能系统在动态金融环境中的综合表现提供了标准化平台。
解决学术问题
该数据集有效解决了金融智能领域三大核心挑战:复杂信号提取的量化评估、多源异构数据的可信度验证,以及时间约束下的推理决策优化。通过构建专业级金融搜索与推理基准,填补了传统评估方法在真实场景还原度方面的空白,为衡量模型在非结构化金融数据中的认知能力提供了科学依据。
衍生相关工作
基于该数据集衍生的经典研究包括时序感知的金融问答系统架构设计、跨文档证据融合技术,以及面向专业领域的检索增强生成模型优化。这些工作不仅推进了金融自然语言处理的技术前沿,更催生了多个专注于金融认知智能的开源项目与评估标准体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作