synth-tavily-edgar-sft-1

Name: synth-tavily-edgar-sft-1
Creator: Writer
Published: 2026-01-03 09:34:04
License: 暂无描述

Hugging Face2026-01-03 更新2026-01-05 收录

下载链接：

https://huggingface.co/datasets/Writer/synth-tavily-edgar-sft-1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要包含对话消息和渲染文本两种特征。对话消息特征包括内容、角色、工具调用ID和工具调用等详细信息，其中工具调用又包含函数、ID、索引和类型等子特征。函数特征中进一步包含参数和名称等结构化数据。此外，数据集还包含渲染文本特征。数据集分为GLM4.6一个分割，包含85个样本。

提供机构：

Writer

创建时间：

2026-01-03

原始信息汇总

数据集概述

基本信息

数据集名称: synth-tavily-edgar-sft-1
发布者: Writer
数据集地址: https://huggingface.co/datasets/Writer/synth-tavily-edgar-sft-1

数据集结构

特征

messages: 列表类型，包含以下字段：
- content: 字符串类型
- role: 字符串类型
- tool_call_id: 字符串类型
- tool_calls: 列表类型，包含以下结构：
  - function: 结构体，包含：
    - arguments: 结构体，包含：
      - company_ticker: 字符串类型
      - filing_date_range: 字符串类型
      - filing_type: 字符串类型
      - latest_k: 字符串类型
      - max_results: int64类型
      - query: 字符串类型
      - search_depth: 字符串类型
      - search_query: 字符串类型
    - name: 字符串类型
  - id: 字符串类型
  - index: int64类型
  - type: 字符串类型
rendered_text: 字符串类型

数据划分

划分名称: GLM4.6
样本数量: 85
数据大小: 11576103字节

数据集统计

下载大小: 2846102字节
数据集总大小: 11576103字节

配置信息

配置名称: default
数据文件:
- 划分: GLM4.6
- 路径: data/GLM4.6-*

搜集汇总

数据集介绍

构建方式

在金融信息检索领域，synth-tavily-edgar-sft-1数据集通过合成方法构建，专注于模拟真实世界中的工具调用场景。该数据集基于GLM4.6模型生成，包含85个示例，每个示例以消息序列形式组织，其中嵌入了针对EDGAR数据库的复杂查询工具调用。这些工具调用涉及公司股票代码、申报日期范围、文件类型及搜索深度等结构化参数，旨在精确模拟金融文档检索任务中的多轮交互过程。数据集的构建注重逻辑连贯性与领域特异性，通过合成数据生成技术，有效捕捉了专业金融信息查询的复杂性与动态性。

特点

该数据集的核心特点在于其高度结构化的工具调用表示与金融领域的深度结合。每个数据样本包含完整的消息序列，其中工具调用部分详细定义了函数名称、参数及调用标识，覆盖了公司股票代码、申报类型、查询语句等关键金融属性。数据集采用列表嵌套结构存储工具调用信息，确保了数据的一致性与可解析性。此外，每个样本还附带渲染文本字段，提供了工具调用结果的文本表示，增强了数据的实用性与可读性。这种设计使得数据集不仅适用于训练工具调用模型，还能支持多模态金融信息处理任务。

使用方法

使用synth-tavily-edgar-sft-1数据集时，研究者可将其应用于金融领域工具调用模型的训练与评估。数据集以标准JSON格式提供，可直接加载至支持工具调用功能的机器学习框架中。用户可通过解析消息序列中的工具调用结构，模拟真实金融信息检索流程，训练模型理解并生成符合EDGAR查询规范的请求。数据集的渲染文本字段可用于验证模型输出的准确性，或作为参考文本生成任务的辅助信息。在实际应用中，建议结合金融领域知识对模型进行微调，以提升其在复杂查询场景下的泛化能力与可靠性。

背景与挑战

背景概述

在人工智能与金融科技交叉领域，数据驱动的模型训练对于提升自动化分析能力至关重要。synth-tavily-edgar-sft-1数据集由相关研究团队于近期构建，专注于支持大型语言模型在金融文档检索与理解方面的监督微调任务。该数据集的核心研究问题在于如何通过合成数据模拟真实世界中的企业文件查询与工具调用场景，从而增强模型处理美国证券交易委员会EDGAR数据库等复杂金融信息的能力。其构建体现了当前研究对专业化、高质量训练数据的迫切需求，为金融自然语言处理领域的模型优化提供了关键资源，推动了智能财务分析工具的发展。

当前挑战

该数据集旨在解决金融领域信息检索与结构化查询的挑战，特别是针对EDGAR系统中多样化、非标准化企业文件的精准定位与内容提取问题。构建过程中的主要困难包括合成数据与真实金融场景之间的语义对齐，确保工具调用序列的逻辑一致性，以及平衡查询复杂性与数据覆盖范围。此外，数据标注需要深度融合领域知识，以准确模拟专业用户的交互行为，同时避免引入偏差或错误模式，这对数据生成流程的可靠性与有效性提出了较高要求。

常用场景

经典使用场景

在金融信息检索与自然语言处理领域，synth-tavily-edgar-sft-1数据集为研究工具增强语言模型提供了典型范例。该数据集通过模拟用户查询企业财务报告的场景，整合了工具调用与结构化对话数据，常用于训练模型执行精准的文档检索与信息提取任务。其核心应用聚焦于教导模型理解复杂指令，如根据公司代码、报告类型及时间范围等参数，动态调用外部工具以获取EDGAR数据库中的财务信息，从而提升模型在专业领域的交互能力与准确性。

衍生相关工作

围绕该数据集，学术界与工业界衍生了一系列聚焦工具学习与领域自适应的工作。例如，研究如何优化工具调用的触发机制与参数生成，以提升模型在金融语料上的精确性；亦有工作探索将类似框架迁移至法律、医疗等需专业检索的领域，构建跨领域的工具增强对话系统。这些工作进一步丰富了语言模型与外部知识源协同的理论基础，推动了任务导向型对话系统的实际落地。

数据集最近研究