Countdown-Task-GOLD
收藏Hugging Face2025-10-28 更新2025-10-29 收录
下载链接:
https://huggingface.co/datasets/HuggingFaceTB/Countdown-Task-GOLD
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含四个配置:全部数据(all),测试数据(test),以及两个特定配置的数据(verified_Qwen2.5-7B-Instruct和verified_Qwen3-4B-Instruct-2507)。每个配置都包括目标(target)、数字列表(nums)、提示(prompt)或消息(messages)等字段,其中提示和消息字段由内容和角色组成。数据集分为训练集(train)和测试集(test),提供了每个集合的字节大小和示例数量。
提供机构:
Hugging Face TB Research
创建时间:
2025-10-28
原始信息汇总
Countdown-Task-GOLD 数据集概述
数据集基本信息
- 数据集名称: Countdown-Task-GOLD
- 存储位置: https://huggingface.co/datasets/HuggingFaceTB/Countdown-Task-GOLD
配置信息
all配置
- 特征字段:
- target: int64类型
- nums: int64列表
- prompt: 包含content(string)和role(string)的列表
- 数据划分:
- train: 80,000个样本,41,170,243字节
- 存储信息:
- 下载大小: 3,246,357字节
- 数据集大小: 41,170,243字节
test配置
- 特征字段:
- target: int64类型
- nums: int64列表
- prompt: 包含content(string)和role(string)的列表
- 数据划分:
- test: 10,000个样本,5,146,620字节
- 存储信息:
- 下载大小: 394,711字节
- 数据集大小: 5,146,620字节
verified_Qwen2.5-7B-Instruct配置
- 特征字段:
- target: int64类型
- nums: int64列表
- messages: 包含content(string)和role(string)的列表
- 数据划分:
- train: 30,441个样本,40,867,012字节
- 存储信息:
- 下载大小: 11,771,935字节
- 数据集大小: 40,867,012字节
verified_Qwen3-4B-Instruct-2507配置
- 特征字段:
- target: int64类型
- nums: int64列表
- messages: 包含content(string)和role(string)的列表
- 数据划分:
- train: 27,667个样本,50,202,245字节
- 存储信息:
- 下载大小: 15,701,164字节
- 数据集大小: 50,202,245字节
数据文件结构
- all配置: all/train-*
- test配置: test/test-*
- verified_Qwen2.5-7B-Instruct配置: verified_Qwen2.5-7B-Instruct/train-*
- verified_Qwen3-4B-Instruct-2507配置: verified_Qwen3-4B-Instruct-2507/train-*
搜集汇总
数据集介绍

构建方式
在认知科学和数学推理研究领域,Countdown-Task-GOLD数据集通过系统化方法构建而成。该数据集采用多配置结构设计,包含完整训练集、测试集以及经过特定大语言模型验证的子集。数据生成过程基于数字运算任务框架,每个样本由目标数值、可用数字序列和提示对话组成,确保了数学推理任务的规范性和可重复性。训练集包含八万个样本,测试集配备一万个独立样本,为模型评估提供了充分的数据支撑。
特点
该数据集在数学推理任务中展现出鲜明的结构化特征。其核心要素包括精确的目标数值、有序的数字序列以及多轮对话形式的提示信息。特别值得关注的是,数据集提供了经过Qwen2.5-7B-Instruct和Qwen3-4B-Instruct等先进模型验证的专用子集,这些子集包含经过筛选的高质量样本,为研究社区提供了可靠的基准数据。数据结构的严谨设计使得该数据集既能支持传统数值推理研究,又能适应现代对话式人工智能的训练需求。
使用方法
研究者在运用该数据集时可根据具体需求选择不同配置。完整配置适用于大规模模型训练与验证,测试配置专为模型性能评估设计。经过验证的子集配置则为特定模型的研究提供了直接可用的高质量训练数据。使用过程中,通过加载对应的数据文件路径即可访问不同分割的数据,每个样本包含的目标数值、数字序列和对话信息共同构成了完整的数学推理任务单元,支持端到端的模型训练与测试流程。
背景与挑战
背景概述
在认知科学与人工智能交叉领域,倒计时任务作为评估工作记忆与执行功能的核心范式,其标准化数据集的构建对推进计算认知模型发展具有关键意义。Countdown-Task-GOLD数据集由前沿研究团队于2024年发布,聚焦于数字运算与逻辑推理的认知机制解析。该数据集通过结构化数字序列与目标值的映射关系,为探究人类问题解决策略与机器推理能力的对齐提供了实验基础,显著推动了神经符号计算在认知架构研究中的应用深度。
当前挑战
该数据集致力于解决算术推理任务中多步骤运算的泛化能力挑战,要求模型在动态数字组合中精准推导目标值。构建过程中面临标注一致性的技术瓶颈,需通过多轮人工验证确保数字序列与运算结果的逻辑一致性。同时,不同规模语言模型在复杂算术场景下的性能差异,暴露出符号推理与数值计算融合的系统性难题,这对构建跨模态认知评估基准提出了更高要求。
常用场景
经典使用场景
在认知计算与数学推理研究领域,Countdown-Task-GOLD数据集作为算术问题求解的基准测试工具,主要应用于评估大语言模型在数值计算与逻辑推理方面的能力。该数据集通过提供目标数值和可用数字列表,要求模型运用四则运算组合出目标值,这种设计模拟了人类解决复杂算术问题的认知过程,为研究计算智能的数学推理机制提供了标准化实验平台。
衍生相关工作
基于该数据集的研究催生了多个重要学术成果,特别是在大语言模型的数学推理能力优化方面。相关研究探索了不同神经网络架构在算术问题求解中的表现差异,推动了符号推理与深度学习融合的新方法。这些工作不仅提升了模型在数学任务上的准确率,还促进了认知科学与人工智能的交叉研究,为构建更具通用性的人工智能系统奠定了理论基础。
数据集最近研究
最新研究方向
在算术推理与大型语言模型评估领域,Countdown-Task-GOLD数据集正推动着数学问题求解能力的前沿探索。当前研究聚焦于开发能够处理复杂数字运算的神经符号系统,通过结合符号推理与神经网络的优势来提升模型在动态数字序列中的目标值逼近能力。该数据集与近期发布的Qwen系列大模型验证集形成协同效应,揭示了语言模型在算术泛化性与逻辑一致性方面的瓶颈。相关研究正致力于构建可解释的推理链条,其成果对教育科技、自动解题系统及金融数据分析等领域产生深远影响,为人工智能的符号推理能力奠定了新的基准。
以上内容由遇见数据集搜集并总结生成



