five

DCAgent2/financeagent_terminal_SWE_Lego_Qwen3_32B_20260501_071028

收藏
Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DCAgent2/financeagent_terminal_SWE_Lego_Qwen3_32B_20260501_071028
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: conversations list: - name: content dtype: string - name: role dtype: string - name: agent dtype: string - name: model dtype: string - name: model_provider dtype: string - name: date dtype: string - name: task dtype: string - name: episode dtype: string - name: run_id dtype: string - name: trial_name dtype: string - name: result dtype: string - name: verifier_output dtype: string splits: - name: train num_bytes: 8553217 num_examples: 130 download_size: 8422049 dataset_size: 8553217 configs: - config_name: default data_files: - split: train path: data/train-* ---
提供机构:
DCAgent2
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集名为financeagent_terminal_SWE_Lego_Qwen3_32B_20260501_071028,是在金融智能体(FinanceAgent)框架下,基于终端交互任务(Terminal SWE Lego)构建的对话式微调数据集。数据集的构建依赖于大型语言模型Qwen3-32B,通过在特定日期(20260501_071028)执行一系列金融领域的自主任务指令,采集智能体与环境交互的完整会话记录。每条数据包含对话历史与角色标注(conversations字段)、调用模型及供应商信息(model、model_provider)、任务描述(task)、运行标识(run_id、episode、trial_name)以及执行结果(result)与验证器输出(verifier_output),形成结构化的多轮交互样本库。
特点
本数据集的核心特点在于其高度专业化的金融任务导向与细粒度的交互过程记录。对话内容涵盖多轮角色分工(user与assistant交替),真实模拟了智能体在终端环境中完成复杂金融指令的协作场景。数据项中特别包含了独立的验证器输出(verifier_output),用于评估任务执行质量,为强化学习或指令微调提供了可靠的奖励信号。此外,数据集记录了每次运行的任务类型、模型版本与时间戳,支持可复现的追踪分析,适合用于金融领域智能体任务的仿真训练与性能评估。
使用方法
该数据集适用于金融场景下基于对话的智能体微调与评估任务。使用时可加载train分片,利用conversations字段中的多轮对话格式对语言模型进行指令微调(supervised fine-tuning),也可结合result与verifier_output字段构建偏好学习或强化学习的奖励模型。由于数据规模适中(130条样本),建议作为领域特定任务的验证集或与大规模通用指令数据集混合使用,以提升模型在金融终端交互任务上的适应能力与执行成功率。
背景与挑战
背景概述
随着大型语言模型在复杂推理与多步决策任务中的广泛应用,软件工程领域(SWE)逐渐成为评估其能力的重要场景。在此背景下,financeagent_terminal_SWE_Lego_Qwen3_32B_20260501_071028数据集由金融智能体研究团队于近期构建,旨在探索基于Qwen3-32B模型在终端环境中进行软件工程任务时,融合强化学习与结构化指令生成的可行性。该数据集以基于Lego框架的SWE任务为核心,记录了130条多轮交互会话,涵盖agent行为、模型输出、任务类型与验证结果等关键字段,为研究金融领域的自动化编程、调试与工程问题求解提供了标准化评测基准。其发布对于推动大模型在金融软件工程中的可靠性与效率研究具有重要意义。
当前挑战
该数据集面临的核心挑战首先源于领域问题的复杂性:SWE任务要求模型在终端环境中执行包含代码编写、错误修复与系统配置等多步骤操作,而金融场景下对任务安全性、可复现性及领域合规性的严苛要求,使得仅依靠通用语言模型难以保证输出质量与稳定性。其次,在构建过程中,收集高质量的末端执行轨迹面临数据稀疏、标注成本高昂等问题;此外,不同类型SWE任务(如测试用例生成、代码审查)之间的结构差异,以及多轮对话中agent长期依赖与状态维护的困难,进一步增加了数据集平衡性与泛用性的设计难度。如何确保有限样本下模型学习的策略具备跨任务迁移能力,仍是当前技术瓶颈。
常用场景
经典使用场景
金融智能体终端数据集financeagent_terminal_SWE_Lego_Qwen3_32B_20260501_071028,专为金融领域的自主智能体系统设计,其经典使用场景聚焦于通过多轮对话交互,使智能体在模拟终端环境中完成复杂金融任务。研究人员常利用该数据集训练和评估大型语言模型驱动的智能体,在股票交易分析、投资组合管理、市场情绪解读等场景中,精准执行指令并生成可验证的终端操作结果。该数据集包含完整的对话轨迹、任务描述与验证输出,为端到端的智能体行为学习提供了坚实的资源基础。
实际应用
在实际应用层面,该数据集直接服务于金融科技领域的智能助手开发,助力构建能够接入证券交易终端、执行资金调度指令、进行实时市场数据查询与分析的自动化代理系统。金融机构可借助基于此数据集微调的模型,实现客户服务中的智能投顾、风险预警信息自动处理、以及监管合规报告的自动化生成。数据集内嵌的验证器输出机制,确保了智能体执行金融操作的可追溯性与准确性,为高风险金融场景下的AI落地提供了安全可靠的数据保障。
衍生相关工作
该数据集的发布催生了一系列衍生的经典研究工作,例如基于强化学习的金融智能体微调策略、多工具协同调用的动作空间优化、以及面向金融领域的大模型自身纠错机制研究。研究者利用其对话结构构建了多种基线模型,并在此基础上开发了任务难度分级方案与智能体能力评估基准。同时,该数据集也激发了针对金融终端仿真环境的扩展,衍生出跨市场、跨币种的多任务智能体工作,并推动了SWE-bench风格评测在垂直金融领域中的迁移应用,有力促进了金融AI学术社区的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作