CLaRa_multi_stage
收藏CLaRa_multi_stage 数据集概述
基本信息
- 数据集名称: CLaRa_multi_stage
- 发布者: apple
- 许可证: MIT License
- 主要任务类别: 问答、文本生成
- 相关技术标签: 检索增强生成、问答、压缩
- 语言: 英语
- 数据规模: 10G<n<100G
数据集背景
该数据集是论文《CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning》的官方数据集,用于CLaRa模型的训练和评估。
数据集结构
数据集主要分为三个部分:预训练数据、指令微调数据和端到端微调数据。
1. 预训练数据
- 数据子集:
pretraining - 用途: 用于压缩器学习的大规模预训练数据。
- 格式: JSONL
- 字段:
data_type: 数据类型question: 问题列表answers: 对应答案列表docs: 文档上下文列表
2. 指令微调数据
- 数据子集:
instruction_tuning - 用途: 用于基于压缩文档表示回答问题的训练数据。
- 格式: JSONL
- 字段:
question: 问题字符串docs: 检索到的文档列表gold_answer: 真实答案answer: 模型生成的答案
- 评估集:
inst_eval_*_with_pos: 保证包含正向文档的预言机设置评估集。inst_eval_*_no_pos: 常规设置评估集。- 涵盖数据集:
2wiki,hotpotqa,musique,nq。
3. 端到端微调数据
- 训练集:
e2e_training_*_with_pos: 保证包含正向文档的预言机设置训练集。e2e_training_*_no_pos: 常规设置训练集。
- 评估集:
e2e_eval_*_with_pos: 保证包含正向文档的预言机设置评估集。e2e_eval_*_no_pos: 常规设置评估集。
- 涵盖数据集:
ours_2wiki,ours_hotpotqa,ours_musique,ours_nq。 - 格式: JSONL
- 字段:
question: 问题字符串answer: 答案字符串docs: 检索到的文档列表pos_index: 在docs列表中,有助于模型回答问题的那篇文档的索引。
使用方式
可通过 datasets 库加载数据集的不同子集,示例如下:
python
from datasets import load_dataset
pretrain = load_dataset("probejie/Clara_data", "pretraining")
inst_tune = load_dataset("probejie/Clara_data", "instruction_tuning")
e2e_train = load_dataset("probejie/Clara_data", "e2e_training_ours_2wiki_no_pos")
e2e_train_oracle = load_dataset("probejie/Clara_data", "e2e_training_ours_2wiki_with_pos")
相关资源
- 论文: CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning (https://arxiv.org/abs/2511.18659)
- GitHub代码库: https://github.com/apple/ml-clara
引用信息
如需使用本数据集,请引用: bibtex @misc{he2025clarabridgingretrievalgeneration, title={CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning}, author={Jie He and Richard He Bai and Sinead Williamson and Jeff Z. Pan and Navdeep Jaitly and Yizhe Zhang}, year={2025}, eprint={2511.18659}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.18659}, }




