CLaRa_6M
收藏数据集概述
基本信息
- 数据集名称: CLaRa Data
- 发布者: apple
- 许可证: MIT License
- 主要任务类别: 问答、文本生成
- 语言: 英语
- 标签: 检索增强生成、问答、指令微调
- 数据规模: 1M 到 10M 之间
数据集结构
数据集包含三个主要部分,用于 CLaRa 模型的训练和评估。
1. 预训练数据
- 配置名:
pretraining - 用途: 模型的大规模预训练。
- 格式: JSONL
- 字段:
data_type: 数据类型question: 问题列表answers: 对应答案列表docs: 文档上下文列表
2. 指令微调数据
- 配置名:
instruction_tuning - 用途: 训练模型遵循指令。
- 格式: JSONL
- 字段:
question: 问题字符串docs: 检索到的文档列表gold_answer: 真实答案answer: 模型生成的答案
- 评估集:
- Oracle 设置 (保证包含相关文档):
inst_eval_*_with_pos - 常规设置:
inst_eval_*_no_pos - 涵盖数据集:
2wiki,hotpotqa,musique,nq
- Oracle 设置 (保证包含相关文档):
3. 端到端微调数据
- 用途: 模型的端到端训练与评估。
- 格式: JSONL
- 字段:
question: 问题字符串answer: 答案字符串docs: 检索到的文档列表pos_index: 包含答案的文档在docs列表中的索引
- 数据子集:
- 训练集 (Oracle 设置):
e2e_training_*_with_pos - 训练集 (常规设置):
e2e_training_*_no_pos - 评估集 (Oracle 设置):
e2e_eval_*_with_pos - 评估集 (常规设置):
e2e_eval_*_no_pos - 涵盖数据集:
ours_2wiki,ours_hotpotqa,ours_musique,ours_nq
- 训练集 (Oracle 设置):
使用方式
可通过 datasets 库加载不同配置的数据。
python
from datasets import load_dataset
加载预训练数据
pretrain = load_dataset("probejie/Clara_data", "pretraining")
加载指令微调数据
inst_tune = load_dataset("probejie/Clara_data", "instruction_tuning")
加载端到端微调数据(常规设置)
e2e_train = load_dataset("probejie/Clara_data", "e2e_training_ours_2wiki_no_pos")
加载端到端微调数据(Oracle 设置)
e2e_train_oracle = load_dataset("probejie/Clara_data", "e2e_training_ours_2wiki_with_pos")
引用信息
如果使用此数据集,请引用: bibtex @misc{he2025clarabridgingretrievalgeneration, title={CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning}, author={Jie He and Richard He Bai and Sinead Williamson and Jeff Z. Pan and Navdeep Jaitly and Yizhe Zhang}, year={2025}, eprint={2511.18659}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.18659}, }




