Conv-FinRe

github2026-02-26 更新2026-02-27 收录

下载链接：

https://github.com/The-FinAI/Conv-FinRe

下载链接

链接失效反馈

官方服务：

资源简介：

Conv-FinRe是第一个旨在评估LLMs在对话式、基于个性化和长期股票推荐中的表现的基准数据集。它超越了行为模仿，通过区分用户选择（描述性行为）、与风险偏好一致的长期效用（规范性决策质量）以及市场动量信号，来诊断LLM是否进行理性金融推理、模仿用户噪音或跟随市场趋势。

Conv-FinRe is the first benchmark dataset designed to evaluate the performance of Large Language Models (LLMs) in conversational, personalized, and long-term stock recommendation tasks. It transcends behavioral mimicry by differentiating three core dimensions: user choices (descriptive behaviors), long-term utility consistent with risk preferences (normative decision quality), and market momentum signals, to diagnose whether LLMs engage in rational financial reasoning, mimic user noise, or follow market trends.

创建时间：

2026-02-11

原始信息汇总

Conv-FinRe 数据集概述

数据集简介

Conv-FinRe 是首个用于评估大型语言模型在对话式、基于个性、纵向股票推荐方面能力的基准。该基准超越了传统的行为模仿评估，旨在区分用户选择（描述性行为）、符合风险偏好的长期效用（规范性决策质量）以及市场动量信号。

核心特点

评估目标：诊断大型语言模型是否进行理性的金融推理、模仿用户噪声或跟随市场趋势。
关键区别：评估决策质量与行为对齐之间的张力。

数据集资源

论文地址：https://huggingface.co/papers/2602.16990
数据集地址：https://huggingface.co/collections/TheFinAI/conv-finre
资产模拟工具：https://huggingface.co/spaces/TheFinAI/LetYourProfitsRun
用户研究调查：https://forms.gle/igev4aKirigxpNYr6
评估框架（FinBen）：https://github.com/Yan2266336/FinBen

评估模型

闭源模型

GPT-5.2
GPT-4o

开源通用模型

DeepSeek-V3.2
Qwen3-235B-A22B-Instruct
Qwen2.5-72B-Instruct
Llama-3.3-70B-Instruct

金融领域模型

Llama3-XuanYuan3-70B-Chat

基准测试结果

纵向股票咨询性能

模型	uNDCG ↑	MRR ↑	HR@1 ↑	HR@3 ↑
Random	0.73 ± 0.00	0.29 ± 0.01	0.10 ± 0.01	0.30 ± 0.01
GPT-5.2	0.94 ± 0.03	0.46 ± 0.02	0.29 ± 0.03	0.51 ± 0.03
GPT-4o	0.94 ± 0.00	0.56 ± 0.03	0.42 ± 0.03	0.60 ± 0.03
DeepSeek-V3.2	0.92 ± 0.00	0.51 ± 0.03	0.37 ± 0.03	0.55 ± 0.03
Qwen3-235B-A22B-Instruct	0.94 ± 0.00	0.47 ± 0.02	0.30 ± 0.03	0.52 ± 0.03
Qwen2.5-72B-Instruct	0.92 ± 0.01	0.63 ± 0.03	0.50 ± 0.03	0.69 ± 0.03
Llama-3.3-70B-Instruct	0.97 ± 0.00	0.52 ± 0.03	0.36 ± 0.03	0.59 ± 0.03
Llama3-XuanYuan3-70B-Chat	0.92 ± 0.00	0.65 ± 0.03	0.54 ± 0.03	0.69 ± 0.01

与咨询原则的对齐度

模型	τ (Utility) ↑	τ (Momentum) ↑	τ (Risk) ↑
Random	0.00 ± 0.01	0.00 ± 0.01	0.00 ± 0.01
GPT-5.2	0.59 ± 0.02	0.56 ± 0.02	0.28 ± 0.02
GPT-4o	0.60 ± 0.02	0.60 ± 0.02	0.20 ± 0.02
DeepSeek-V3.2	0.51 ± 0.02	0.49 ± 0.02	0.26 ± 0.02
Qwen3-235B-A22B-Instruct	0.56 ± 0.02	0.55 ± 0.02	0.26 ± 0.02
Qwen2.5-72B-Instruct	0.52 ± 0.02	0.49 ± 0.02	0.22 ± 0.02
Llama-3.3-70B-Instruct	0.74 ± 0.02	0.73 ± 0.01	0.17 ± 0.02
Llama3-XuanYuan3-70B-Chat	0.47 ± 0.02	0.46 ± 0.02	0.15 ± 0.02

评估方法

Conv-FinRe 通过 FinBen 进行评估，这是一个基于 LM Evaluation Harness 构建的金融领域评估框架。评估支持通过 OpenAI Chat Completions、DeepSeek Chat Completions、TogetherAI 以及本地 vLLM 等多种方式运行。

引用信息

bibtex @misc{wang2026convfinreconversationallongitudinalbenchmark, title={Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation}, author={Yan Wang and Yi Han and Lingfei Qian and Yueru He and Xueqing Peng and Dongji Feng and Zhuohan Xie and Vincent Jim Zhang and Rosie Guo and Fengran Mo and Jimin Huang and Yankai Chen and Xue Liu and Jian-Yun Nie}, year={2026}, eprint={2602.16990}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.16990} }

搜集汇总

数据集介绍

构建方式

在金融科技领域，构建能够评估大型语言模型在复杂决策场景中表现的数据集至关重要。Conv-FinRe作为首个专注于对话式、个性化且具有时间维度的股票推荐基准，其构建过程融合了多源数据与模拟环境。该数据集通过整合真实市场数据、用户风险偏好档案以及模拟的交易历史，生成了包含多轮对话的交互序列。每个对话情境均植根于特定的投资人格特质，并贯穿长期的投资周期，从而捕捉金融决策中描述性行为与规范性效用之间的张力。数据构建还引入了市场动量信号作为外部参考，确保评估框架能够区分模型的理性推理能力、对用户噪声的模仿倾向以及对市场趋势的跟随行为。

使用方法

为有效利用Conv-FinRe进行评估，研究者需依托其配套的金融领域评估框架FinBen，该框架构建于LM Evaluation Harness之上。使用方法涉及安装FinBen工具包，并通过命令行接口配置不同的模型后端进行评估。例如，对于GPT系列模型，可通过指定OpenAI聊天补全接口及相应模型名称来执行任务；对于DeepSeek等开源模型，则使用对应的聊天补全适配器；本地部署的模型则可借助vLLM引擎进行高效推理。评估过程支持零样本设置，并可启用缓存与样本日志功能以优化效率与可复现性。通过运行预置的脚本或自定义命令，用户能够系统性地测试模型在对话式股票推荐任务中的纵向表现，并获取包括效用归一化折损累计增益、平均倒数排名及命中率在内的多项核心指标。

背景与挑战

背景概述

在金融科技与人工智能交叉领域，传统推荐系统多侧重于对用户历史行为的模仿，然而金融决策具有高度复杂性，涉及风险偏好、长期效用与市场动态等多维因素。Conv-FinRe数据集由TheFinAI研究团队于2026年提出，作为首个面向对话式、个性化且具有时间纵向维度的股票推荐基准，其核心研究问题在于评估大型语言模型是否能够超越简单的行为模仿，进行理性金融推理，并在决策质量与行为对齐之间取得平衡。该数据集通过引入用户选择、长期效用与市场动量信号的区分，为金融推荐系统的评估提供了更为严谨与细粒度的框架，对推动智能投顾与个性化金融服务的发展具有重要影响力。

当前挑战

Conv-FinRe数据集旨在解决金融推荐领域中模型评估的深层次挑战，即如何准确衡量模型在复杂动态环境下的决策理性，而非仅仅拟合用户可能存在的噪声行为或市场趋势。构建过程中的挑战体现在多个方面：一是需要设计能够同时捕捉对话交互、个性化风险偏好与时间序列依赖的基准结构；二是需整合真实市场数据与模拟用户行为，确保数据既具代表性又符合伦理规范；三是建立兼顾效用对齐、风险匹配与动量信号感知的评估指标，以全面诊断模型的金融推理能力。这些挑战共同指向了构建一个可靠、可解释且具有实际应用价值的金融人工智能基准的复杂性。

常用场景

经典使用场景

在金融科技与人工智能交叉领域，Conv-FinRe数据集为评估大型语言模型在对话式股票推荐任务中的表现提供了标准化测试平台。其经典使用场景聚焦于模拟真实投资顾问与客户之间的多轮交互过程，通过融入用户风险偏好、市场动量信号以及长期效用目标，构建了一个动态且个性化的评估环境。研究人员利用该数据集能够系统性地检验模型是否能够基于历史对话上下文，生成既符合用户个性又兼顾理性财务决策的股票推荐，从而推动对话式金融助手向更智能、更可靠的方向演进。

解决学术问题

Conv-FinRe数据集的核心贡献在于解决了金融推荐系统中行为模仿与决策质量之间的张力问题。传统推荐基准往往仅关注模型对用户历史行为的拟合程度，而忽视了金融决策特有的噪声与短视性。该数据集通过区分用户选择、长期效用对齐以及市场信号，为学术界提供了一个能够诊断模型是否进行理性财务推理、抑或仅仅是模仿用户噪声或跟随市场趋势的精细工具。这有助于深化对智能体决策机制的理解，并推动建立更稳健、更符合经济学原理的评估范式。

实际应用

在实际应用层面，Conv-FinRe数据集为开发下一代智能投顾与个性化金融服务提供了关键的验证基础。金融机构与科技公司可借助该数据集训练和评估其对话式AI系统，确保其在复杂的市场环境中能为不同风险偏好的客户提供连贯、长期且效用最大化的投资建议。这不仅提升了金融服务的可及性与个性化水平，也为降低因行为偏差导致的投资失误、增强投资者长期财富积累的稳定性提供了技术支撑。

数据集最近研究