D-EVAL__standard_eval_v3__FinEval_16k_fulleval_3arg_OT_ours_1k-at150-RL-eval_rl

Hugging Face2025-11-29 更新2025-11-30 收录

下载链接：

https://huggingface.co/datasets/TAUR-dev/D-EVAL__standard_eval_v3__FinEval_16k_fulleval_3arg_OT_ours_1k-at150-RL-eval_rl

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了不同配置下的文本数据，包括问题、答案、任务配置、任务来源、提示内容、模型响应等。数据集分为default、latest、older_1和older_2四个版本，每个版本都包含测试集。数据集的下载大小和总大小有所不同。

This dataset contains text data under various configurations, including questions, answers, task configurations, task sources, prompt content, model responses, and more. The dataset is divided into four versions: default, latest, older_1, and older_2, each of which includes a test set. The download size and total size of the dataset vary across different versions.

创建时间：

2025-11-27

原始信息汇总

数据集概述

基本信息

数据集名称: D-EVAL__standard_eval_v3__FinEval_16k_fulleval_3arg_OT_ours_1k-at150-RL-eval_rl
存储位置: https://huggingface.co/datasets/TAUR-dev/D-EVAL__standard_eval_v3__FinEval_16k_fulleval_3arg_OT_ours_1k-at150-RL-eval_rl
配置数量: 4个配置(default、latest、older_1、older_2)

配置详情

default配置

数据量: 11,481个样本
文件大小: 532.87 MB
下载大小: 98.27 MB
特征字段:
- 基础字段: question、answer、task_config、task_source
- 提示信息: prompt(content、role)
- 选择题信息: choices(label、text)、answer_index、answer_key
- 元数据: id、metadata、original_split、acronym
- 评估相关: difficulty、domain、evaluation_type、expected_answer_format
- 模型响应: model_responses__best_of_n_atags及相关评估指标
- 统计指标: model_responses__best_of_n_atags__metrics(flips_by、flips_total、num_correct等)

latest配置

数据量: 268个样本
文件大小: 2.57 MB
下载大小: 362.53 KB
特征字段:
- 基础字段与default配置类似
- 简化了部分评估字段
- 新增option_string字段
- 评估指标中flips_by和flips_total为null

older_1配置

数据量: 11,481个样本
文件大小: 532.87 MB
下载大小: 98.75 MB
特征字段: 与default配置完全一致

older_2配置

数据量: 11,481个样本
文件大小: 41.09 MB
下载大小: 4.36 MB
特征字段:
- 基础字段与default配置相同
- 评估字段部分简化
- model_responses__best_of_n_atags__eval_extracted_answers为null
- 内部答案评估字段为null
- 评估指标中flips_by和flips_total为null

数据特征

任务类型: 选择题评估任务
评估方式: 多轮模型响应评估
数据结构: 包含问题、答案、提示、模型响应和评估指标
评估指标: 正确率、通过率、翻转次数等统计指标

文件结构

所有配置均包含test分割，数据文件路径分别为:

default: data/test-*
latest: latest/test-*
older_1: older_1/test-*
older_2: older_2/test-*

搜集汇总

数据集介绍

构建方式

在金融知识评估领域，该数据集通过多阶段严谨流程构建而成。基于FinEval基准框架，采用16k规模的全评估体系，整合了三个核心论证维度的专业金融问题。构建过程中运用了强化学习优化策略，通过150轮迭代的对抗训练机制，确保问题质量和评估标准的科学性。数据来源涵盖金融领域的权威文本和实务案例，每个样本都经过严格的标注和验证流程，形成了包含11481个测试样本的完整评估集合。

使用方法

在金融大语言模型评估实践中，该数据集提供了标准化的应用流程。研究人员可通过加载不同配置版本，获取包含prompt结构、选项设置和标准答案的完整评估样本。使用过程中需关注模型响应的自动评估机制，系统将根据预设的正确答案自动计算准确率等核心指标。数据集支持最佳N次采样评估模式，通过内部答案对比和指标统计，全面分析模型在金融领域的知识掌握程度。评估结果包含通过率、正确百分比等关键性能指标，为模型优化提供明确方向。

背景与挑战

背景概述

随着大型语言模型在金融领域的深入应用，FinEval数据集应运而生，旨在系统评估模型在金融知识理解与推理任务中的表现。该数据集聚焦于金融领域的专业问题，涵盖投资分析、风险评估、市场预测等核心场景，通过构建多维度评估框架推动金融智能技术的发展。数据集设计融合了领域专家知识与机器学习方法，为模型在复杂金融环境下的决策能力提供了标准化测试基准。

当前挑战

金融领域评估面临专业术语密集与逻辑推理复杂的双重挑战，要求模型准确解析金融文本中的隐含关联。数据集构建过程中需平衡领域覆盖度与标注一致性，涉及大量金融专家参与验证。多轮对话评估机制的设计需解决上下文依赖性与答案提取可靠性问题，同时确保不同难度层级任务的公平性评估。

常用场景

经典使用场景

在大型语言模型评估领域，该数据集作为标准化基准工具，通过多轮对话结构、任务配置和答案评估机制，系统性地测试模型在金融知识推理、数学计算和逻辑分析等复杂场景下的表现。其精心设计的提示工程和响应评估框架，为研究人员提供了可复现的模型能力对比平台。

解决学术问题

该数据集有效解决了大语言模型评估中存在的标准化缺失问题，通过结构化任务设计和自动化评估指标，为模型鲁棒性、领域适应性和推理能力提供了量化依据。其多维度评估体系显著推进了模型可解释性研究，为学术界建立了可靠的性能基准。

实际应用

在金融科技和智能投顾领域，该数据集支撑的评估体系可直接应用于风险控制模型优化、自动化报告生成系统的质量检验。其严格的评估标准有助于提升金融领域AI应用的准确性和合规性，为行业提供了可信赖的模型选型参考。

数据集最近研究