five

multidomain-planner-mixture-v6

收藏
Hugging Face2026-02-13 更新2026-02-14 收录
下载链接:
https://huggingface.co/datasets/BRlkl/multidomain-planner-mixture-v6
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含22,224个训练样本,总大小约3.46GB。数据集具有丰富的多模态特征,主要包括:1) 编程问题相关字段(代码语言、时间/内存限制、输入模式、官方测试用例等);2) ARC问答任务字段(问题文本、选项、答案键);3) 通用元数据(数据来源、领域、任务类型、可验证性标志等)。特别包含代码执行相关特征(可执行标志、生成测试用例数量)和难度评估指标(平均难度、最佳难度)。适用于代码生成与验证、编程教育、问答系统等NLP任务。数据以字符串、布尔值和数值类型为主,包含原始提示和清洗后提示的完整文本。
创建时间:
2026-02-12
原始信息汇总

数据集概述

基本信息

  • 数据集名称:multidomain-planner-mixture-v6
  • 发布者:BRlkl
  • 平台:Hugging Face Datasets
  • 下载大小:1,756,008,962 字节
  • 数据集大小:3,459,734,500 字节

数据内容与结构

  • 数据量:共包含 22,224 个样本。
  • 数据划分:仅包含一个 train(训练)集。
  • 数据文件train 集的数据文件路径为 data/train-*

特征字段说明

数据集包含以下特征字段:

  • id: 样本标识符。
  • source: 数据来源。
  • domain: 所属领域。
  • task_type: 任务类型。
  • verifiable: 布尔值,指示是否可验证。
  • raw_prompt: 原始提示文本。
  • ground_truth: 真实答案或目标输出。
  • code_problem_id: 编程问题标识符。
  • code_language: 编程语言。
  • code_time_limit: 代码运行时间限制(浮点数)。
  • code_memory_limit: 代码内存限制(浮点数)。
  • code_input_mode: 代码输入模式。
  • code_official_tests: 官方测试用例。
  • code_official_tests_complete: 布尔值,指示官方测试是否完整。
  • code_testset_size: 测试集大小(浮点数)。
  • code_generated_checker: 生成的检查器。
  • code_generated_tests_count: 生成的测试用例数量(浮点数)。
  • code_executable: 布尔值,指示代码是否可执行。
  • arc_id: ARC 数据集问题标识符。
  • arc_question: ARC 数据集问题。
  • arc_choices: ARC 数据集选项。
  • arc_answer_key: ARC 数据集答案键。
  • source_dataset: 源数据集名称。
  • source_split: 源数据集的划分。
  • clean_prompt: 清理后的提示文本。
  • DIFFICULTY_MEAN: 平均难度分数(浮点数)。
  • DIFFICULTY_BEST: 最佳难度分数(浮点数)。

配置信息

  • 默认配置名称default
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能规划与推理领域,数据集的构建质量直接关系到模型泛化能力的评估。multidomain-planner-mixture-v6数据集通过整合多个异构来源的规划与推理任务,采用系统化的数据收集与标注流程构建而成。其构建过程涵盖了从原始提示的提取、领域分类到任务类型的细致标注,同时确保了代码问题的可执行性验证与测试集的完整性。这种多源融合与结构化处理的方法,旨在创建一个覆盖广泛领域、任务类型多样的高质量基准数据集,为复杂规划问题的研究提供坚实的数据基础。
使用方法
对于研究人员而言,该数据集的使用主要围绕模型训练与评估展开。用户可以通过加载指定的数据分割(如训练集)来访问结构化样本,利用其丰富的特征字段进行特定领域的模型微调或跨领域泛化实验。在评估阶段,结合代码可执行性标志与官方测试集,可以对模型的输出进行严格的正确性验证。此外,难度指标为任务筛选与分层评估提供了便利,使得研究能够聚焦于特定挑战级别的规划问题,从而系统化地推动人工智能规划与推理技术的进步。
背景与挑战
背景概述
在人工智能规划与推理领域,多任务学习模型的性能评估亟需跨领域的标准化基准。multidomain-planner-mixture-v6数据集应运而生,由研究团队于近期构建,旨在整合编程解题、常识推理等多种任务类型,为评估模型在异构环境下的泛化与适应能力提供数据支撑。该数据集通过融合ARC(抽象推理语料库)及代码生成等来源,构建了一个覆盖多领域、多模态的复杂任务集合,其核心研究问题聚焦于如何提升智能体在动态、开放域环境中的规划与决策效率,对推动通用人工智能的发展具有重要参考价值。
当前挑战
该数据集致力于解决多领域任务规划与混合决策的复杂问题,其核心挑战在于如何设计统一的评估框架以涵盖编程、逻辑推理等异构任务,同时确保任务间的难度均衡与公平比较。在构建过程中,研究人员面临数据来源多样性与质量标准统一的矛盾,需协调不同领域(如代码执行与抽象推理)的数据格式与评估指标;此外,数据标注的可靠性与完整性亦构成显著挑战,例如代码测试用例的生成与验证、抽象推理问题的答案一致性等,均需精细的设计与校验流程来保障数据质量。
常用场景
经典使用场景
在人工智能规划与代码生成领域,multidomain-planner-mixture-v6数据集为多任务学习提供了丰富的实验基础。该数据集整合了编程问题、逻辑推理与选择题等多种任务类型,覆盖了从简单算法实现到复杂问题求解的广泛场景。研究人员通常利用其多样化的任务结构,训练模型在跨领域环境中进行统一的规划与决策,以评估模型在混合任务上的泛化能力与适应性。
解决学术问题
该数据集有效应对了人工智能研究中多领域知识融合与迁移学习的挑战。通过提供标准化的任务表示与评估框架,它支持研究者探索模型在异构任务间的知识共享机制,解决了传统单一领域数据集难以评估跨域性能的局限。其意义在于推动了通用智能体开发,为构建能够处理复杂、多样化现实问题的AI系统奠定了数据基础。
实际应用
在实际应用中,multidomain-planner-mixture-v6数据集可服务于智能教育系统与自动化代码评估平台。例如,教育机构能利用其编程与逻辑推理任务,构建自适应学习工具,为学生提供个性化的练习反馈。同时,软件开发团队可借助其代码测试与验证功能,自动化检测代码质量与性能,提升软件工程的效率与可靠性。
数据集最近研究
最新研究方向
在人工智能规划与代码生成领域,multidomain-planner-mixture-v6数据集因其跨域任务集成特性,正成为评估大语言模型泛化能力的关键基准。当前研究聚焦于利用其多源结构,探索模型在编程、逻辑推理及常识问答等异构任务上的迁移学习机制,以应对现实世界复杂场景的适应性挑战。热点事件如GPT-4等先进模型的迭代,推动了对数据集可验证性与执行性特征的深度挖掘,旨在提升生成代码的可靠性与效率。这一趋势不仅加速了自主智能系统的发展,也为教育科技和自动化工具提供了更坚实的实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作