CLaRa_multi_stage

Name: CLaRa_multi_stage
Creator: Apple
Published: 2025-12-12 06:37:11
License: 暂无描述

Hugging Face2025-12-12 更新2025-12-14 收录

下载链接：

https://huggingface.co/datasets/apple/CLaRa_multi_stage

下载链接

链接失效反馈

官方服务：

资源简介：

CLaRa数据集是为支持CLaRa模型而设计的官方数据集，包含预训练、指令调优和端到端调优三个主要部分。预训练数据用于压缩器学习，格式为JSONL，包含`data_type`、`question`、`answers`和`docs`字段。指令调优数据用于基于压缩文档表示回答问题，包含`question`、`docs`、`gold_answer`和`answer`字段。端到端调优数据包括正常和oracle设置下的训练和评估集，格式为JSONL，包含`question`、`answer`、`docs`和`pos_index`字段。数据集支持多种评估集，如`2wiki`、`hotpotqa`、`musique`和`nq`。

提供机构：

Apple

创建时间：

2025-12-12

原始信息汇总

CLaRa_multi_stage 数据集概述

基本信息

数据集名称: CLaRa_multi_stage
发布者: apple
许可证: MIT License
主要任务类别: 问答、文本生成
相关技术标签: 检索增强生成、问答、压缩
语言: 英语
数据规模: 10G<n<100G

数据集背景

该数据集是论文《CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning》的官方数据集，用于CLaRa模型的训练和评估。

数据集结构

数据集主要分为三个部分：预训练数据、指令微调数据和端到端微调数据。

1. 预训练数据

数据子集: pretraining
用途: 用于压缩器学习的大规模预训练数据。
格式: JSONL
字段:
- data_type: 数据类型
- question: 问题列表
- answers: 对应答案列表
- docs: 文档上下文列表

2. 指令微调数据

数据子集: instruction_tuning
用途: 用于基于压缩文档表示回答问题的训练数据。
格式: JSONL
字段:
- question: 问题字符串
- docs: 检索到的文档列表
- gold_answer: 真实答案
- answer: 模型生成的答案
评估集:
- inst_eval_*_with_pos: 保证包含正向文档的预言机设置评估集。
- inst_eval_*_no_pos: 常规设置评估集。
- 涵盖数据集: 2wiki, hotpotqa, musique, nq。

3. 端到端微调数据

训练集:
- e2e_training_*_with_pos: 保证包含正向文档的预言机设置训练集。
- e2e_training_*_no_pos: 常规设置训练集。
评估集:
- e2e_eval_*_with_pos: 保证包含正向文档的预言机设置评估集。
- e2e_eval_*_no_pos: 常规设置评估集。
涵盖数据集: ours_2wiki, ours_hotpotqa, ours_musique, ours_nq。
格式: JSONL
字段:
- question: 问题字符串
- answer: 答案字符串
- docs: 检索到的文档列表
- pos_index: 在docs列表中，有助于模型回答问题的那篇文档的索引。

使用方式

可通过 datasets 库加载数据集的不同子集，示例如下： python from datasets import load_dataset pretrain = load_dataset("probejie/Clara_data", "pretraining") inst_tune = load_dataset("probejie/Clara_data", "instruction_tuning") e2e_train = load_dataset("probejie/Clara_data", "e2e_training_ours_2wiki_no_pos") e2e_train_oracle = load_dataset("probejie/Clara_data", "e2e_training_ours_2wiki_with_pos")

引用信息

如需使用本数据集，请引用： bibtex @misc{he2025clarabridgingretrievalgeneration, title={CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning}, author={Jie He and Richard He Bai and Sinead Williamson and Jeff Z. Pan and Navdeep Jaitly and Yizhe Zhang}, year={2025}, eprint={2511.18659}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.18659}, }

搜集汇总

数据集介绍

构建方式

在信息检索与文本生成融合的研究背景下，CLaRa_multi_stage数据集通过系统化的多阶段流程构建而成。其数据来源于多个公开问答基准，包括2Wiki、HotpotQA、Musique和NQ，并依据模型训练的不同阶段需求进行精心组织。数据构建过程首先整合大规模预训练语料，用于压缩器学习；随后基于检索文档生成指令微调数据，涵盖常规与包含正例文档的预言机设置；最终，为端到端调优阶段准备了专门的训练与评估集，确保模型能在不同检索条件下学习推理。整个构建流程注重数据结构的清晰划分与字段的一致性，为连续潜在推理研究提供了坚实基础。

特点

该数据集的核心特点在于其多层次的结构设计，紧密对应检索增强生成模型的不同训练阶段。数据集明确划分为预训练、指令微调和端到端调优三大类别，每类数据均包含常规场景与预言机设置，从而支持模型在有无正例文档保障的多种检索环境下进行验证。数据字段设计科学，如预训练数据包含问题、答案和文档上下文，而端到端数据则引入了正例文档索引，以精准定位关键信息。这种结构不仅促进了模型从压缩表示到最终答案生成的连贯学习，也为评估模型在复杂推理任务中的鲁棒性提供了丰富场景。

使用方法

利用该数据集时，研究者可借助Hugging Face的datasets库便捷加载不同阶段的数据子集。例如，通过指定'pretraining'、'instruction_tuning'或'e2e_training_ours_2wiki_no_pos'等配置名称，即可分别获取对应阶段的训练或评估数据。数据以JSONL格式存储，字段清晰，便于直接用于模型输入输出管道。在实际应用中，用户可依据研究目标灵活组合各阶段数据，例如先在预训练数据上学习文档压缩，再使用指令微调数据优化基于压缩表示的问答能力，最终通过端到端数据在完整检索生成流程中进行调优与测试，从而系统推进连续潜在推理模型的开发与评估。

背景与挑战

背景概述

在信息检索与文本生成融合的前沿领域，CLaRa_multi_stage数据集由苹果公司的研究团队于2025年提出，旨在通过连续潜在推理机制桥接检索与生成任务。该数据集的核心研究问题聚焦于如何高效压缩检索到的文档信息，并利用压缩后的潜在表示来增强问答系统的推理能力。其构建基于大规模预训练、指令微调及端到端微调的三阶段框架，整合了2Wiki、HotpotQA、Musique及NQ等多个知名基准，为探索检索增强生成模型中的知识压缩与推理路径优化提供了关键数据支撑，对推动开放域问答与复杂推理任务的发展具有显著影响力。

当前挑战

CLaRa_multi_stage数据集致力于解决检索增强生成中知识压缩与高效推理的挑战，其核心问题在于如何从海量检索文档中提炼出精炼的潜在表示，以支持模型进行连续、多步的推理过程。在构建过程中，研究团队面临多重挑战：首先，需确保预训练数据的大规模与高质量，以学习有效的压缩器；其次，指令微调阶段需在包含正例文档与无正例文档的两种设定下平衡模型性能，模拟真实检索环境的不确定性；最后，端到端微调要求精确标注正例文档索引，以指导模型在复杂文档列表中定位关键信息，这些挑战共同体现了数据集在模拟现实世界问答场景时的严谨性与复杂性。

常用场景

经典使用场景

在检索增强生成领域，CLaRa_multi_stage数据集为模型训练与评估提供了结构化支持。其经典使用场景集中于多阶段训练流程，包括预训练、指令微调与端到端微调，旨在优化模型对压缩文档表征的理解与利用。通过整合如2Wiki、HotpotQA、Musique和NQ等多样化问答子集，该数据集能够系统性地提升模型在复杂信息检索与生成任务中的性能，尤其适用于需要从多文档中推理答案的开放域问答场景。

实际应用

在实际应用中，CLaRa_multi_stage数据集能够支撑智能问答系统、知识库增强助手以及学术文献分析工具的开发。其多阶段训练数据使得系统能够高效处理用户查询，从海量文档中精准检索相关信息，并生成简洁准确的答案。这种能力在客户服务自动化、教育技术支持以及专业领域信息检索等场景中具有重要价值，有助于提升信息获取的效率与可靠性。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于改进检索增强生成模型的架构与训练策略。例如，基于连续潜在推理的压缩器设计、多任务学习框架的优化以及针对长文档问答的评估基准构建。这些研究进一步拓展了模型在复杂推理任务中的应用边界，促进了如多模态检索生成、低资源场景适应等相关方向的发展，为后续工作提供了重要的技术参照与数据资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集