CLaRa_6M

Name: CLaRa_6M
Creator: Apple
Published: 2025-12-11 11:36:55
License: 暂无描述

Hugging Face2025-12-11 更新2025-12-12 收录

下载链接：

https://huggingface.co/datasets/apple/CLaRa_6M

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于Clara（压缩感知的检索增强生成）模型的训练和评估数据，分为三个主要类别：预训练、指令调优和端到端调优。预训练数据为大规模数据，格式为JSONL，包含'data_type'、'question'、'answers'和'docs'字段。指令调优数据用于训练指令跟随，格式为JSONL，包含'question'、'docs'、'gold_answer'和'answer'字段。端到端调优数据包括训练集和评估集，分别在正常设置和oracle设置下提供，格式为JSONL，包含'question'、'answer'、'docs'和'pos_index'字段。

This dataset contains training and evaluation data for the Clara (Retrieval-Augmented Generation for Compressed Sensing) model, which is divided into three main categories: pre-training, instruction tuning, and end-to-end tuning. Pre-training data consists of large-scale datasets in JSONL format, including the fields 'data_type', 'question', 'answers', and 'docs'. Instruction tuning data is used to train instruction-following capabilities, formatted as JSONL with the fields 'question', 'docs', 'gold_answer', and 'answer'. End-to-end tuning data includes training and evaluation subsets, which are provided under both standard and oracle settings, and is stored in JSONL format containing the fields 'question', 'answer', 'docs', and 'pos_index'.

提供机构：

Apple

创建时间：

2025-12-11

原始信息汇总

数据集概述

基本信息

数据集名称: CLaRa Data
发布者: apple
许可证: MIT License
主要任务类别: 问答、文本生成
语言: 英语
标签: 检索增强生成、问答、指令微调
数据规模: 1M 到 10M 之间

数据集结构

数据集包含三个主要部分，用于 CLaRa 模型的训练和评估。

1. 预训练数据

配置名: pretraining
用途: 模型的大规模预训练。
格式: JSONL
字段:
- data_type: 数据类型
- question: 问题列表
- answers: 对应答案列表
- docs: 文档上下文列表

2. 指令微调数据

配置名: instruction_tuning
用途: 训练模型遵循指令。
格式: JSONL
字段:
- question: 问题字符串
- docs: 检索到的文档列表
- gold_answer: 真实答案
- answer: 模型生成的答案
评估集:
- Oracle 设置 (保证包含相关文档): inst_eval_*_with_pos
- 常规设置: inst_eval_*_no_pos
- 涵盖数据集: 2wiki, hotpotqa, musique, nq

3. 端到端微调数据

用途: 模型的端到端训练与评估。
格式: JSONL
字段:
- question: 问题字符串
- answer: 答案字符串
- docs: 检索到的文档列表
- pos_index: 包含答案的文档在 docs 列表中的索引
数据子集:
- 训练集 (Oracle 设置): e2e_training_*_with_pos
- 训练集 (常规设置): e2e_training_*_no_pos
- 评估集 (Oracle 设置): e2e_eval_*_with_pos
- 评估集 (常规设置): e2e_eval_*_no_pos
- 涵盖数据集: ours_2wiki, ours_hotpotqa, ours_musique, ours_nq

使用方式

可通过 datasets 库加载不同配置的数据。 python from datasets import load_dataset

加载预训练数据

pretrain = load_dataset("probejie/Clara_data", "pretraining")

加载指令微调数据

inst_tune = load_dataset("probejie/Clara_data", "instruction_tuning")

加载端到端微调数据（常规设置）

e2e_train = load_dataset("probejie/Clara_data", "e2e_training_ours_2wiki_no_pos")

加载端到端微调数据（Oracle 设置）

e2e_train_oracle = load_dataset("probejie/Clara_data", "e2e_training_ours_2wiki_with_pos")

引用信息

如果使用此数据集，请引用： bibtex @misc{he2025clarabridgingretrievalgeneration, title={CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning}, author={Jie He and Richard He Bai and Sinead Williamson and Jeff Z. Pan and Navdeep Jaitly and Yizhe Zhang}, year={2025}, eprint={2511.18659}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.18659}, }

搜集汇总

数据集介绍

构建方式

在检索增强生成领域，CLaRa_6M数据集的构建体现了多层次训练策略的精心设计。该数据集通过整合预训练、指令微调及端到端微调三大模块，构建了规模达数百万条样本的综合性语料库。预训练数据采用JSONL格式，囊括了问题、答案及文档上下文的对应关系；指令微调部分则聚焦于模型对指令的理解与执行，同时设置了包含正例文档与无正例文档两种评估场景；端到端微调进一步细分为常规设置与预言机设置，覆盖了2Wiki、HotpotQA、Musique及NQ等多个公开问答数据集，确保了数据来源的多样性与代表性。

特点

CLaRa_6M数据集在检索增强生成任务中展现出鲜明的结构化特征。其核心特点在于严格区分了不同训练阶段的数据组织形式，预训练数据强调大规模上下文学习，指令微调数据注重模型对复杂指令的遵循能力，而端到端微调则引入了正例文档索引机制，以精准定位支持答案的关键文档。数据集涵盖了多种评估设置，包括预言机环境与常规环境，这为模型在不同检索条件下的性能评估提供了坚实基础。此外，数据字段设计清晰，如`pos_index`字段直接标识了答案所在文档的位置，极大便利了模型训练与验证过程。

使用方法

利用CLaRa_6M数据集进行模型开发时，研究者可通过Hugging Face的`datasets`库便捷加载不同子集。例如，调用`load_dataset`函数并指定`pretraining`配置即可获取预训练数据；指令微调数据可通过`instruction_tuning`配置加载；端到端微调则支持按数据集名称与设置类型灵活选择，如`e2e_training_ours_2wiki_no_pos`代表在常规设置下的2Wiki训练数据。这种模块化加载方式允许用户根据具体研究需求，有针对性地使用预训练、微调或评估数据，高效推进检索增强生成模型的训练与优化工作。

背景与挑战

背景概述

在检索增强生成（Retrieval-Augmented Generation, RAG）技术快速演进的背景下，CLaRa_6M数据集于2025年由Jie He、Richard He Bai等研究人员共同构建，旨在推动压缩感知的检索增强生成模型的发展。该数据集聚焦于解决开放域问答与指令跟随任务中，如何有效桥接检索系统与文本生成模型的核心研究问题。通过提供大规模预训练、指令微调及端到端微调数据，CLaRa_6M为探索连续潜在推理机制提供了关键资源，显著促进了RAG领域在模型效率与答案准确性方面的研究进展。

当前挑战

CLaRa_6M数据集致力于应对开放域问答中检索与生成模块协同优化的挑战，特别是在处理多跳推理、噪声文档过滤及答案生成一致性等复杂场景时，模型需平衡检索精度与生成流畅性。在构建过程中，数据集面临数据规模与质量的双重考验：一方面需从多样来源整合数百万级的高质量问答对，确保覆盖广泛主题；另一方面，需精确标注正例文档索引，并在有正例保证与无正例保证两种设置下构建评估集，以模拟真实检索环境中的不确定性，这对数据清洗与对齐提出了极高要求。

常用场景

经典使用场景

在检索增强生成（RAG）领域，CLaRa_6M数据集为模型训练提供了丰富的多阶段学习框架。该数据集通过预训练、指令微调和端到端微调三个模块，系统地构建了从大规模知识获取到精确问答生成的完整流程。其经典使用场景聚焦于训练模型在复杂文档检索与答案生成间的协同能力，特别是在处理多跳推理问题时，能够有效整合外部知识源，提升生成答案的准确性和连贯性。

衍生相关工作

围绕CLaRa_6M数据集，衍生了一系列关于检索增强生成优化的经典研究工作。这些工作主要集中于改进潜在空间对齐、增强多跳推理能力以及探索更高效的指令微调策略。相关研究不仅深化了对RAG模型中检索-生成交互机制的理论理解，还催生了多种新型架构和训练方法，进一步推动了压缩感知检索、动态文档选择等前沿方向的发展，为后续大规模知识密集型语言模型的演进提供了重要参考。

数据集最近研究