five

CausalPlan-Full-Items

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://huggingface.co/datasets/anonymous-causal-plan/CausalPlan-Full-Items
下载链接
链接失效反馈
官方服务:
资源简介:
CausalPlan-Full-Items数据集是一个完整的项目/来源档案库,与anonymous-causal-plan/CausalPlan-SFT-QA-1M配对使用。数据集采用cc-by-nc-4.0许可协议,语言为英语,规模在100万到1000万之间。数据集包含22,201个项目,1,953,227个完整项目档案中的文件/二进制大对象,总存档大小为5.798 TB(十进制)或5.274 TiB。数据组织方式包括item_shards目录下的分片tar文件和metadata目录下的多种清单文件(parquet和jsonl格式)。数据集还提供了与配对QA数据集记录的连接方式,通过item_key和evidence_member实现项目与证据文件的关联。metadata/item_to_shard_manifest.jsonl文件将每个item_key映射到item_shards/下的tar分片,支持直接流式读取或预提取所需项目/媒体文件进行训练。

The CausalPlan-Full-Items dataset is a complete project/source archive repository, paired with anonymous-causal-plan/CausalPlan-SFT-QA-1M. The dataset uses the cc-by-nc-4.0 license, is in English, and ranges in size from 1 million to 10 million. It contains 22,201 items, 1,953,227 files/BLOBs in complete item archives, with a total archive size of 5.798 TB (decimal) or 5.274 TiB. The data is organized into sharded tar files in the item_shards directory and various manifest files (parquet and jsonl formats) in the metadata directory. The dataset also provides a connection method with paired QA dataset records, associating items with evidence files through item_key and evidence_member. The metadata/item_to_shard_manifest.jsonl file maps each item_key to tar shards under item_shards/, supporting direct streaming reads or pre-fetching of required items/media files for training.
创建时间:
2026-05-02
原始信息汇总

数据集概述:CausalPlan-Full-Items

  • 许可证:CC-BY-NC-4.0
  • 语言:仅英语(en)
  • 数据规模:1,000,000 至 10,000,000 条记录
  • 用途:提供与 anonymous-causal-plan/CausalPlan-SFT-QA-1M 数据集配对使用的完整项目/来源档案

数据集结构

item_shards/ item_shard_*.tar metadata/ item_manifest.parquet item_manifest.jsonl source_plan_manifest.parquet source_plan_manifest.jsonl item_to_shard_manifest.jsonl

  • item_shards/:包含多个 .tar 分片文件
  • metadata/:包含项目清单、来源计划清单和分片映射清单的元数据文件(Parquet 和 JSONL 格式)

数据统计

  • 项目数:22,201
  • 文件/对象数:1,953,227
  • 总档案大小:5.798 TB(十进制)/ 5.274 TiB(二进制)

连接键说明

对于配对 QA 数据集中的每条记录:

item_key = record["meta"]["item_dir"] evidence_member = item_key + "/" + record["meta"]["evidence_files"][i]

  • item_key:对应元数据中 item_dir 字段
  • evidence_member:由 item_keyevidence_files 列表中的文件名拼接而成

metadata/item_to_shard_manifest.jsonl 文件用于将每个 item_key 映射到 item_shards/ 下的具体 tar 分片。加载时可直接流式读取 tar 成员,或预先提取所需项目/媒体文件再开始训练。

搜集汇总
数据集介绍
main_image_url
构建方式
CausalPlan-Full-Items数据集是作为因果推理与规划领域研究的重要支撑资源而构建的,它与名为anonymous-causal-plan/CausalPlan-SFT-QA-1M的问答数据集相辅相成。该数据集的核心在于提供了一个完整的物品与出处档案库,其构建方式采用了分片归档与元数据索引相结合的策略。具体而言,数据被组织为item_shards目录下的一系列tar压缩分片,同时通过metadata目录中的多种清单文件(如item_manifest.parquet、item_manifest.jsonl、source_plan_manifest.parquet与source_plan_manifest.jsonl)记录全局元数据。item_to_shard_manifest.jsonl文件则建立了每个物品键与其所属tar分片之间的映射关系,从而支持高效的数据检索与存取。
特点
该数据集最显著的特点在于其庞大的数据规模与丰富的内在关联。整体包含22,201个独立物品,涉及近200万个文件或数据块,归档总存储容量高达5.798 TB(十进制)或5.274 TiB(二进制),充分反映了因果规划场景下复杂数据的体量。另一个核心特性是其与配对问答数据集之间的精密联接机制,通过item_key与evidence_member等字段可实现从问答记录到对应原始证据文件的精准追溯,为因果推理模型的训练与评估提供了具备完整上下文的多模态数据支撑。这种层级化的组织方式保障了数据在存储与使用过程中的一致性与可扩展性。
使用方法
此数据集的使用方法围绕与配对问答数据集的协同操作而设计。对于每一份来自CausalPlan-SFT-QA-1M的问答记录,可凭借记录中meta字段内的item_dir值作为item_key,并拼接evidence_files中的文件名以构成evidence_member,从而精确定位到具体物品中的证据文件。借助item_to_shard_manifest.jsonl映射表,使用者能够迅速查明每个item_key所属的tar分片,进而实现两种主流的数据加载模式:既可以直接以流式方式读取tar中的成员文件,也可以预先将所需物品或媒体文件抽取至本地存储后再进行训练。这种灵活的策略显著降低了大规模数据处理的I/O开销,提升了使用效率。
背景与挑战
背景概述
在自动化规划与因果推理交叉领域,大规模、结构化的规划数据对于训练具备因果理解能力的语言模型至关重要。CausalPlan-Full-Items数据集由匿名研究团队于近期创建,旨在为CausalPlan-SFT-QA-1M问答数据集提供完整的物品与来源档案对,以支持因果规划任务的微调与评估。该数据集包含22,201个物品条目,涵盖近200万个文件或数据块,总存储规模接近5.8TB,凸显了其在规模与复杂性上的领先地位。通过丰富的元数据清单与分片索引,该数据集为探究规划决策中的因果链条提供了坚实的数据基础,有望推动智能体在复杂环境中的规划与推理能力研究。
当前挑战
该数据集面临的核心挑战包括:在领域问题层面,现有规划数据集多聚焦于动作序列本身,而CausalPlan-Full-Items需同时关联物品状态与因果证据,这对模型的跨模态对齐与长程依赖建模提出了高要求。在构建过程中,近200万个文件的高效组织与索引是一大难题,需设计分片存储策略以避免I/O瓶颈;同时,确保物品键与证据文件路径的精确匹配,并维护元数据一致性,对数据清洗与验证流程构成了严峻考验。此外,5.8TB的存储规模对训练时数据加载的效率与可扩展性也提出了技术挑战。
常用场景
经典使用场景
CausalPlan-Full-Items数据集作为因果推理与规划领域的大规模多模态资源,其经典使用场景聚焦于构建和评估具备因果理解能力的智能系统。研究人员通过将数据集中的完整物品档案与配套的问答对相结合,能够训练模型掌握从复杂证据链中提取因果关系的核心技能,例如在知识图谱推理或事实验证任务中,模型需依据给定的源计划文档定位关键证据片段,进而推导出合理的因果结论。该数据集的天然优势在于其海量物品规模(超22,000个独立条目)与丰富的非结构化文本资源(近200万个文件),为因果推理、多跳问答及计划生成等方向提供了坚实的训练与测试基础。
解决学术问题
该数据集有效解决了因果规划领域长期存在的两大核心挑战:复杂证据定位与因果链验证的规模化问题。在传统的因果推理研究中,学术模型往往受限于小规模手工标注数据,难以泛化至现实场景。CausalPlan-Full-Items通过提供跨度为5.8TB的完整档案,支持研究者构建从分布式证据库中自动提取因果路径的算法,极大推动了因果图构建、反事实推理以及干预性因果分析等前沿课题的发展。其价值在于弥合了符号化因果模型与大规模自由文本之间的鸿沟,使得机器学习系统能够从原始文档中自主发现隐藏的因果结构,对因果推断理论的实证检验具有里程碑式的意义。
衍生相关工作
围绕CausalPlan-Full-Items已衍生出一系列具有影响力的学术成果,典型工作包括基于该数据集开发的因果感知检索增强生成模型(Causal-RAG),该模型通过引入双层证据筛选机制,在复杂问答任务中取得了超越传统密集检索方案的性能提升。另一项值得关注的工作是CausalPlan-SFT-QA-1M与本研究数据集的联合微调框架,研究者通过构建物品级别与证据片段级别的双流评分网络,有效解决了因果漫游问题中的证据冲突消解关键难点。这些衍生工作共同验证了该数据集在推动因果推理与规划领域从理论走向实用化进程中的核心引领作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作