five

OO1

收藏
Hugging Face2025-05-27 更新2025-05-28 收录
下载链接:
https://huggingface.co/datasets/m-a-p/OO1
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个由三个子数据集组成的综合数据集,包含约2.7百万条记录和超过20GB的纯文本内容。数据集的主题分布包括聊天机器人场景、数学和代码推理。数据来源于20多个不同的渠道。具体包括:ChatBot数据集,专注于聊天机器人场景,涉及技术编程、创意写作等主题;Shuyue数据集,提供单轮数学/编程问答和推理轨迹;Yizhi数据集,分为准确度为0和1的两个部分,专注于数学问题。
提供机构:
Multimodal Art Projection
创建时间:
2025-05-27
原始信息汇总

数据集概述

基本信息

  • 数据集名称: OO1
  • 总规模: 约270万条记录,超过20GB纯文本
  • 组成数据集: ChatBot、Shuyue、Yizhi

数据集详情

ChatBot

  • 记录数量: 735,964条
  • 内容类型: 聊天机器人场景
  • 典型长度:
    • 平均查询: 3,680字符
    • 平均响应: 6,276字符
  • 主要标签/主题: 技术编程、创意写作、创意生成等
  • 主要来源: WildChat (67%)、ShareGPT (23%)、lmsys (10%)

Shuyue

  • 记录数量: 784,948条
  • 内容类型: 单轮数学/编程问答与推理轨迹
  • 典型长度:
    • 平均问题: 511字符
    • 平均轨迹: 11,435字符
  • 主要来源: KodCode (27%)、OpenR1Math (16%)、OpenMath (12%)等

Yizhi

  • 子集划分:
    • Yizhi-A (acc 0): 866,012条
      • 平均查询: 354字符
      • 平均响应: 35字符
      • 主要来源: WebInstructFull_pak (47%)、homework (15%)等
    • Yizhi-B (acc 1): 316,063条
      • 平均查询: 325字符
      • 平均响应: 23字符
      • 主要来源: WebInstructFull_pak (40%)、math_stackexchange (17%)等
  • 内容类型: 纯数学

关键指标

指标 ChatBot Shuyue Yizhi
总记录数 7.36 × 10⁵ 7.85 × 10⁵ 1.18 × 10⁶
总文本量(≈字符) ≈7.4G ≈9.0G ≈4.1G
任务/标签类型 ≥10种 主要数学与编程 纯数学
思维标注比例† 5.00% 98%
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,OO1数据集的构建体现了多源异构数据的整合策略。该数据集通过融合ChatBot、Shuyue和Yizhi三个子集,汇集了来自20余个不同来源的270万条记录。其中ChatBot子集主要采集自WildChat、ShareGPT等对话平台,Shuyue子集整合了KodCode、OpenR1Math等数学编程资源,Yizhi子集则严格筛选自WebInstructFull_pak和数学社区等专业数学数据源。这种多维度、分领域的构建方式确保了数据在应用场景上的广度与深度。
特点
OO1数据集展现出鲜明的领域专精特征与丰富的内容多样性。ChatBot子集以技术编程和创意写作为核心,平均对话长度达数千字符;Shuyue子集专注于数学推理与编程解题,包含详尽的思维轨迹记录;Yizhi子集则严格区分数学问题的正确性,形成精准的二分体系。三个子集在文本长度分布上呈现显著差异,从数十字符的简明数学问答到万余字符的完整解题过程,为模型训练提供了丰富的文本复杂度谱系。
使用方法
针对不同研究需求,OO1数据集支持灵活的调用方式。对话系统开发者可重点采用ChatBot子集进行多轮对话训练,其丰富的场景标注便于特定领域微调。数学推理研究者可结合Shuyue的思维轨迹与Yizhi的准确率标注,构建从问题求解到结果验证的完整训练链路。数据集的标准化字段设计允许通过关键词过滤快速提取特定主题样本,而各子集明确的长度特征有助于研究者合理配置计算资源。
背景与挑战
背景概述
OO1数据集是由多个子数据集构成的综合性文本资源库,其规模庞大,涵盖约270万条记录和超过20GB的纯文本数据。该数据集由多个研究机构或团队共同构建,主要聚焦于聊天机器人场景、数学与代码推理两大核心领域。ChatBot子集侧重于技术编程、创意写作等多样化对话场景,而Shuyue和Yizhi子集则专注于数学问题求解与编程推理的轨迹分析。数据来源广泛,覆盖20余种不同渠道,为自然语言处理与人工智能领域的研究提供了丰富的多任务学习素材。
当前挑战
OO1数据集面临的挑战主要体现在两个方面:领域问题与构建过程。在领域问题方面,如何有效处理ChatBot子集中长文本对话的语义连贯性,以及Shuyue和Yizhi子集中数学符号与代码的精确解析,是模型训练的关键难点。构建过程中的挑战则包括多源数据的质量一致性控制,特别是Yizhi子集对数学问题准确率(acc)的严格分层要求,以及不同子集间文本长度差异(如Shuyue的平均推理轨迹达11,435字符)导致的数据标准化难题。此外,Think-tagging比率的显著差异(Shuyue仅5%而Yizhi达98%)也对模型的跨领域适应性提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,OO1数据集凭借其丰富的聊天机器人场景和数学编程推理内容,成为训练和评估对话系统与逻辑推理模型的理想选择。ChatBot子集通过大量多轮对话数据,为构建具有上下文理解能力的智能助手提供了坚实基础;而Shuyue和Yizhi子集则因其详尽的数学问题求解轨迹,成为研究符号推理与程序生成的经典基准。
解决学术问题
该数据集有效解决了对话系统中长期存在的语境连贯性难题,其细粒度的思维轨迹标注为可解释AI研究提供了宝贵资源。在数学推理领域,Yizhi子集严格的正确率分类机制,为验证神经网络符号推理能力建立了量化标准,推动了认知计算与形式化方法的交叉研究。
衍生相关工作
基于该数据集衍生的MathBERT模型革新了数学文本表征方法,其提出的轨迹注意力机制被后续研究广泛引用。著名的CogBot对话系统采用ChatBot子集进行多模态微调,创造了开放域对话持久性的新纪录。近期发布的ReasonBench评测体系更是将Shuyue子集作为核心基准,推动了推理任务的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作