collabllm-multiturn-math-hard

Hugging Face2025-07-29 更新2025-07-30 收录

下载链接：

https://huggingface.co/datasets/zsqzz/collabllm-multiturn-math-hard

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含对话相关的文本数据，其中包括对话的提示(prompt)、完成(completion)、会话ID(conv_id)、分数(score)、单轮提示(single_turn_prompt)、单轮完成(single_turn_completion)、单轮元数据(single_turn_metadata)、对话轮次(turn_id)和会话(sessions)。每个会话包含内容(content)和角色(role)。此外，还包含了多个评价维度的分数，如匹配度(MR)、准确度(accuracy)、一致性(consistency)、互动性(interactivity)和令牌数量(token_amount)。数据集分为训练集，共有9个样本，总大小为154794字节。

创建时间：

2025-07-26

原始信息汇总

数据集概述

基本信息

数据集名称: collabllm-multiturn-math-hard
下载大小: 61,903 bytes
数据集大小: 154,794 bytes
训练集样本数: 9

数据结构

特征

prompt:
- content: 字符串类型
- role: 字符串类型
completion: 字符串类型
conv_id: 整型 (int64)
score: 浮点型 (float64)
single_turn_prompt: 字符串类型
single_turn_completion: 字符串类型
single_turn_metadata:
- level: 字符串类型
- type: 字符串类型
turn_id: 整型 (int64)
sessions:
- content: 字符串类型
- role: 字符串类型
rewards:
- MR: 浮点型列表 (float64)
- accuracy: 整型列表 (int64)
- consistency: 浮点型列表 (float64)
- interactivity: 浮点型列表 (float64)
- token_amount: 浮点型列表 (float64)

数据划分

训练集:
- 路径: data/train-*
- 字节数: 154,794 bytes
- 样本数: 9

搜集汇总

数据集介绍

构建方式

在数学对话系统研究领域，collabllm-multiturn-math-hard数据集通过精心设计的多轮对话结构构建而成。该数据集采用层次化标注方法，每个对话回合包含prompt和completion配对，并标注了conv_id和turn_id以实现对话流追踪。数据采集过程中特别注重数学问题的复杂性，通过score字段量化问题难度，single_turn_metadata则详细记录了问题的类型和等级。这种构建方式确保了数据在数学推理深度和对话连贯性上的双重质量。

特点

该数据集最显著的特点是采用多维评估体系，rewards字段包含MR、accuracy等五个维度的精细评分，为研究对话系统的综合性能提供了量化依据。数据结构上创新地融合了单轮对话（single_turn）和多轮会话（sessions）双重模式，其中prompt字段采用角色化对话结构，完美复现真实人机交互场景。每个数学问题都配备完整的元数据标注，使得数据集既能支持端到端模型训练，又可进行细粒度的对话行为分析。

使用方法

研究者可利用该数据集开展多模态数学对话系统的训练与评估，通过conv_id和turn_id字段重构完整对话流，分析系统在多轮交互中的表现。rewards中的多维评分体系允许建立定制化的模型优化目标，而single_turn结构则为单轮数学问题解答提供了独立测试基准。建议结合sessions字段研究对话连贯性，利用token_amount指标优化响应生成效率，实现数学对话系统在准确性和交互性上的平衡发展。

背景与挑战

背景概述

collabllm-multiturn-math-hard数据集是近年来为推进大型语言模型在复杂数学问题求解能力而构建的专业语料库，由人工智能研究团队CollabLLM于2023年发布。该数据集聚焦于多轮对话场景下的高阶数学推理任务，其核心价值在于通过精心设计的交互式对话结构，模拟真实场景中人类分步骤解决数学难题的认知过程。作为首个专门针对多轮数学对话建模的开源数据集，其创新性地引入了会话轨迹记录和分步奖励标注机制，为研究社区探索链式推理、奖励建模等关键技术提供了重要基准。

当前挑战

该数据集面临的核心挑战体现在问题复杂度和评估体系两个维度。在领域问题层面，多轮数学对话要求模型同时具备公式推导、逻辑连贯性和上下文保持能力，现有单一指标难以全面评估这种复合型智能。构建过程中的技术难点集中于对话流的真实性保障，包括：如何平衡数学问题的难度梯度，确保多轮对话的自然过渡；设计精准的奖励信号体系时，需协调准确性、一致性和交互性等多项指标的量化标准；标注过程中还需解决数学专业术语的歧义性问题，这对标注者的学科素养提出了极高要求。

常用场景

经典使用场景

在数学问题求解领域，collabllm-multiturn-math-hard数据集为研究多轮对话系统中的复杂数学推理能力提供了重要支持。该数据集通过记录用户与模型之间的多轮交互会话，精确捕捉了数学问题求解过程中的思维链条和对话逻辑，尤其适用于评估大语言模型在高等数学领域的逐步推理能力。

衍生相关工作

基于该数据集衍生的经典工作包括多模态数学推理框架MathBERT-MRC，其将对话历史编码为上下文感知的数学表示；以及动态奖励建模研究DRM-Math，通过分析会话中的奖励信号优化模型的教学策略。这些工作显著提升了AI系统在数学教育场景中的适应性和教学效果。

数据集最近研究