DAPO-Math-17k|数学学习数据集|算法训练数据集
收藏DAPO数据集概述
数据集基本信息
- 名称: DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization)
- 开发者: ByteDance Seed和Tsinghua AIR
- 类型: 强化学习系统(包含算法、代码基础设施和数据集)
- 基础框架: 基于verl框架
数据集内容
- 训练数据集: DAPO-Math-17k(经过精心筛选和处理的数学数据集)
- 验证数据集: AIME 2024
模型权重
- 模型名称: DAPO-Qwen-32B
- 基础模型: Qwen2.5-32B
- 下载地址: DAPO-Qwen-32B
性能表现
- AIME 2024得分: 50分(基于Qwen2.5-32B基础模型)
- 比较优势: 比之前的SoTA DeepSeek-R1-Zero-Qwen-32B少用50%的训练步骤
训练记录
- 早期版本训练记录: wandb记录(AIME得分44分)
训练脚本
- 数据集准备脚本: prepare_dapo_data.sh
- 早期版本训练脚本: run_dapo_early_qwen2.5_32b.sh(AIME 44分)
- 完整版本训练脚本: run_dapo_qwen2.5_32b.sh(AIME 50分)
使用说明
- 环境配置: 推荐使用conda创建Python 3.10环境
- 推理代码: 提供了基于vllm的模型推理示例代码

中国区域教育数据库
该数据集包含了中国各区域的教育统计数据,涵盖了学校数量、学生人数、教师资源、教育经费等多个方面的信息。
www.moe.gov.cn 收录
MECCANO
MECCANO数据集是首个专注于工业类似环境中第一人称视角下人类-物体交互的研究数据集。该数据集由20名参与者在模拟工业场景中构建摩托车玩具模型的视频组成,包含299,376帧视频数据。数据集不仅标注了时间上的动作片段,还标注了空间上的活跃物体边界框,涵盖了12种动词、20种名词和61种独特动作的分类。MECCANO数据集旨在推动工业环境中第一人称视角下人类动作识别、活跃物体检测、活跃物体识别及第一人称视角下人类-物体交互检测等任务的研究。
arXiv 收录
Plant-Diseases
Dataset for Plant Diseases containg variours Plant Disease
kaggle 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
中性笔商品在不同地区天猫平台的销售渗透率分析数据
销售渗透率通常定义为特定产品在潜在市场中的占有率。对公司天猫平台上中性笔商品在不同地区的销售渗透率进行分析,对于理解中性笔商品在不同地区的市场发展趋势、识别商品在不同地区的增长机会和潜在风险、指导公司选品规划和商品定价以及优化资源配置,具有重要的统计意义和实际应用价值。本数据也可为中性笔商品的供应商(生产厂商)和其他销售商同行在市场进入、产品开发、定价策略等方面提供参考。1.数据收集和预处理:(1)数据收集:收集公司在天猫平台上销售的中性笔商品在不同地区每季度的销售统计信息,具体包括商品类目、商品名称、销售渠道/平台、统计区域、统计年份和季度、本季度内单月最高销量、本季度内单月最低销量、本季度平均月销量。(2)数据预处理:对采集到的原始数据进行处理,去除缺失和异常数据。 2.建立销售渗透率分析模型:(1)计算本季度月均潜在销量:本季度月均潜在销量=本季度内单月最高销量-本季度内单月最低销量+本季度平均月销量;(2)计算本季度月均销售渗透率:本季度月均销售渗透率=(本季度平均月销量/本季度月均潜在销量)*100%;(3)销售渗透率分析:基于计算出的销售渗透率,根据区县划分不同的类别和级别,≥90%以上标记为“销售渗透率高”,50%-90%区间(不含50%和90%)内标记为“销售渗透率中等”,≤50%标记为“销售渗透率低”。分界线90%和50%通过公司内部与行业专家研讨确定。
浙江省数据知识产权登记平台 收录