Conv-FinRe
收藏Conv-FinRe 数据集概述
数据集简介
Conv-FinRe 是首个用于评估大型语言模型在对话式、基于个性、纵向股票推荐方面能力的基准。该基准超越了传统的行为模仿评估,旨在区分用户选择(描述性行为)、符合风险偏好的长期效用(规范性决策质量)以及市场动量信号。
核心特点
- 评估目标:诊断大型语言模型是否进行理性的金融推理、模仿用户噪声或跟随市场趋势。
- 关键区别:评估决策质量与行为对齐之间的张力。
数据集资源
- 论文地址:https://huggingface.co/papers/2602.16990
- 数据集地址:https://huggingface.co/collections/TheFinAI/conv-finre
- 资产模拟工具:https://huggingface.co/spaces/TheFinAI/LetYourProfitsRun
- 用户研究调查:https://forms.gle/igev4aKirigxpNYr6
- 评估框架(FinBen):https://github.com/Yan2266336/FinBen
评估模型
闭源模型
- GPT-5.2
- GPT-4o
开源通用模型
- DeepSeek-V3.2
- Qwen3-235B-A22B-Instruct
- Qwen2.5-72B-Instruct
- Llama-3.3-70B-Instruct
金融领域模型
- Llama3-XuanYuan3-70B-Chat
基准测试结果
纵向股票咨询性能
| 模型 | uNDCG ↑ | MRR ↑ | HR@1 ↑ | HR@3 ↑ |
|---|---|---|---|---|
| Random | 0.73 ± 0.00 | 0.29 ± 0.01 | 0.10 ± 0.01 | 0.30 ± 0.01 |
| GPT-5.2 | 0.94 ± 0.03 | 0.46 ± 0.02 | 0.29 ± 0.03 | 0.51 ± 0.03 |
| GPT-4o | 0.94 ± 0.00 | 0.56 ± 0.03 | 0.42 ± 0.03 | 0.60 ± 0.03 |
| DeepSeek-V3.2 | 0.92 ± 0.00 | 0.51 ± 0.03 | 0.37 ± 0.03 | 0.55 ± 0.03 |
| Qwen3-235B-A22B-Instruct | 0.94 ± 0.00 | 0.47 ± 0.02 | 0.30 ± 0.03 | 0.52 ± 0.03 |
| Qwen2.5-72B-Instruct | 0.92 ± 0.01 | 0.63 ± 0.03 | 0.50 ± 0.03 | 0.69 ± 0.03 |
| Llama-3.3-70B-Instruct | 0.97 ± 0.00 | 0.52 ± 0.03 | 0.36 ± 0.03 | 0.59 ± 0.03 |
| Llama3-XuanYuan3-70B-Chat | 0.92 ± 0.00 | 0.65 ± 0.03 | 0.54 ± 0.03 | 0.69 ± 0.01 |
与咨询原则的对齐度
| 模型 | τ (Utility) ↑ | τ (Momentum) ↑ | τ (Risk) ↑ |
|---|---|---|---|
| Random | 0.00 ± 0.01 | 0.00 ± 0.01 | 0.00 ± 0.01 |
| GPT-5.2 | 0.59 ± 0.02 | 0.56 ± 0.02 | 0.28 ± 0.02 |
| GPT-4o | 0.60 ± 0.02 | 0.60 ± 0.02 | 0.20 ± 0.02 |
| DeepSeek-V3.2 | 0.51 ± 0.02 | 0.49 ± 0.02 | 0.26 ± 0.02 |
| Qwen3-235B-A22B-Instruct | 0.56 ± 0.02 | 0.55 ± 0.02 | 0.26 ± 0.02 |
| Qwen2.5-72B-Instruct | 0.52 ± 0.02 | 0.49 ± 0.02 | 0.22 ± 0.02 |
| Llama-3.3-70B-Instruct | 0.74 ± 0.02 | 0.73 ± 0.01 | 0.17 ± 0.02 |
| Llama3-XuanYuan3-70B-Chat | 0.47 ± 0.02 | 0.46 ± 0.02 | 0.15 ± 0.02 |
评估方法
Conv-FinRe 通过 FinBen 进行评估,这是一个基于 LM Evaluation Harness 构建的金融领域评估框架。评估支持通过 OpenAI Chat Completions、DeepSeek Chat Completions、TogetherAI 以及本地 vLLM 等多种方式运行。
引用信息
bibtex @misc{wang2026convfinreconversationallongitudinalbenchmark, title={Conv-FinRe: A Conversational and Longitudinal Benchmark for Utility-Grounded Financial Recommendation}, author={Yan Wang and Yi Han and Lingfei Qian and Yueru He and Xueqing Peng and Dongji Feng and Zhuohan Xie and Vincent Jim Zhang and Rosie Guo and Fengran Mo and Jimin Huang and Yankai Chen and Xue Liu and Jian-Yun Nie}, year={2026}, eprint={2602.16990}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.16990} }



