toolu-dpo-mix-D1-raw

Hugging Face2025-07-18 更新2025-07-19 收录

下载链接：

https://huggingface.co/datasets/ai2-adapt-dev/toolu-dpo-mix-D1-raw

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个配置，每个配置都有如source_id、source_tool、system（包括content、function_calls、functions、role）、prompt、chosen、rejected、functions和intervention等特征。数据集被划分为训练数据，每个配置都有各自的训练部分和文件路径。具体的配置描述未提供。

创建时间：

2025-07-18

原始信息汇总

数据集概述

基本信息

数据集名称: toolu-dpo-mix-D1-raw
数据集地址: https://huggingface.co/datasets/ai2-adapt-dev/toolu-dpo-mix-D1-raw

数据集配置

数据集包含7个配置，每个配置对应不同的数据子集：

multiple__correct_fx_incorrect_fc
- 特征:
  - source_id: string
  - source_tool: string
  - system: struct (content: string, function_calls: null, functions: string, role: string)
  - prompt: string
  - chosen: list (content: string, function_calls: string, functions: string, role: string)
  - rejected: list (content: string, function_calls: string, functions: string, role: string)
  - functions: string
  - intervention: string
- 训练集:
  - 样本数: 85838
  - 大小: 691152257 bytes
  - 下载大小: 219775088 bytes
parallel__incomplete_fc
- 特征: 同multiple__correct_fx_incorrect_fc
- 训练集:
  - 样本数: 43178
  - 大小: 275329779 bytes
  - 下载大小: 76873759 bytes
parallel__incorrect_refusal
- 特征: 同multiple__correct_fx_incorrect_fc
- 训练集:
  - 样本数: 80527
  - 大小: 579313966 bytes
  - 下载大小: 133069373 bytes
simple__hallucinated_arg_values
- 特征: 同multiple__correct_fx_incorrect_fc
- 训练集:
  - 样本数: 91502
  - 大小: 701802395 bytes
  - 下载大小: 223479150 bytes
simple__incorrect_refusal
- 特征: 同multiple__correct_fx_incorrect_fc
- 训练集:
  - 样本数: 93857
  - 大小: 723557636 bytes
  - 下载大小: 222685922 bytes
simple__missing_arguments
- 特征: 同multiple__correct_fx_incorrect_fc
- 训练集:
  - 样本数: 93857
  - 大小: 713512429 bytes
  - 下载大小: 225567631 bytes
simple__no_module_name
- 特征: 同multiple__correct_fx_incorrect_fc
- 训练集:
  - 样本数: 14313
  - 大小: 92234477 bytes
  - 下载大小: 27984975 bytes

数据文件路径

每个配置的训练集数据文件路径如下:
- multiple__correct_fx_incorrect_fc/train-*
- parallel__incomplete_fc/train-*
- parallel__incorrect_refusal/train-*
- simple__hallucinated_arg_values/train-*
- simple__incorrect_refusal/train-*
- simple__missing_arguments/train-*
- simple__no_module_name/train-*

搜集汇总

数据集介绍

构建方式

在人工智能辅助工具交互领域，toolu-dpo-mix-D1-raw数据集通过精心设计的对比学习框架构建。该数据集采用多配置策略，包含七种不同场景下的对话样本，每个样本均由系统提示、优选回复和劣质回复三元组构成。数据采集过程严格遵循函数调用场景的真实交互逻辑，通过结构化字段记录对话内容、函数调用参数及系统角色信息，确保数据在语义和功能层面的完整性。

特点

该数据集展现出鲜明的层次化特征，七种配置分别针对函数调用错误、参数缺失、模块命名异常等典型问题场景。每个样本包含完整的对话上下文和函数调用细节，其中优选回复与劣质回复的对比标注为模型偏好学习提供了明确信号。数据规模达到数十万量级，覆盖多种工具交互场景，其细粒度的干预标记为研究对话系统的错误修正机制提供了独特视角。

使用方法

研究者可通过HuggingFace平台直接加载特定配置的子数据集，各配置以独立文件形式存储。典型使用流程包括：解析system字段获取对话上下文，对比分析chosen和rejected字段中的响应差异，结合functions字段验证函数调用的正确性。该数据集特别适用于对话策略优化、偏好学习等研究任务，其丰富的干预标记可支持细粒度的错误类型分析。

背景与挑战

背景概述

toolu-dpo-mix-D1-raw数据集是近年来为优化语言模型在工具使用场景中的表现而构建的高质量数据集。该数据集由专业研究团队开发，旨在解决语言模型在函数调用、参数生成和模块引用等任务中常见的错误模式。通过精心设计的对比样本（chosen/rejected pairs），数据集为直接偏好优化（DPO）算法提供了训练基础，显著提升了模型在复杂工具交互场景中的准确性和可靠性。其多配置结构覆盖了参数缺失、模块名遗漏、错误拒绝等七类典型错误，已成为评估工具增强型语言模型性能的重要基准。

当前挑战

该数据集面临的核心挑战体现在两个维度：在领域问题层面，如何精准识别并分类语言模型在工具调用过程中产生的多样化错误，特别是处理参数幻觉（hallucinated arguments）与不完整函数调用（incomplete function calls）等复杂场景的判别标准制定。在构建过程中，主要挑战在于确保对比样本的质量一致性，包括准确标注函数调用正确与错误的边界情况，以及平衡不同错误类型在数据集中的分布比例。此外，干预策略（intervention）的设计需要在不破坏原始语义的前提下有效修正模型错误，这对数据标注的专业性提出了极高要求。

常用场景

经典使用场景

在自然语言处理领域，toolu-dpo-mix-D1-raw数据集被广泛用于研究语言模型在函数调用任务中的表现。该数据集通过提供包含正确和错误函数调用的对话样本，为研究者提供了一个标准化的评估平台，用于测试模型在复杂场景下的理解和执行能力。

衍生相关工作

基于toolu-dpo-mix-D1-raw数据集，研究者们开发了一系列改进语言模型在函数调用任务中表现的方法。这些工作包括但不限于基于强化学习的优化策略、多任务学习框架以及针对特定错误类型的针对性训练方法，显著推动了该领域的研究进展。

数据集最近研究