five

CLaRa_6M

收藏
Hugging Face2025-12-11 更新2025-12-12 收录
下载链接:
https://huggingface.co/datasets/apple/CLaRa_6M
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于Clara(压缩感知的检索增强生成)模型的训练和评估数据,分为三个主要类别:预训练、指令调优和端到端调优。预训练数据为大规模数据,格式为JSONL,包含'data_type'、'question'、'answers'和'docs'字段。指令调优数据用于训练指令跟随,格式为JSONL,包含'question'、'docs'、'gold_answer'和'answer'字段。端到端调优数据包括训练集和评估集,分别在正常设置和oracle设置下提供,格式为JSONL,包含'question'、'answer'、'docs'和'pos_index'字段。

This dataset contains training and evaluation data for the Clara (Retrieval-Augmented Generation for Compressed Sensing) model, which is divided into three main categories: pre-training, instruction tuning, and end-to-end tuning. Pre-training data consists of large-scale datasets in JSONL format, including the fields 'data_type', 'question', 'answers', and 'docs'. Instruction tuning data is used to train instruction-following capabilities, formatted as JSONL with the fields 'question', 'docs', 'gold_answer', and 'answer'. End-to-end tuning data includes training and evaluation subsets, which are provided under both standard and oracle settings, and is stored in JSONL format containing the fields 'question', 'answer', 'docs', and 'pos_index'.
提供机构:
Apple
创建时间:
2025-12-11
原始信息汇总

数据集概述

基本信息

  • 数据集名称: CLaRa Data
  • 发布者: apple
  • 许可证: MIT License
  • 主要任务类别: 问答、文本生成
  • 语言: 英语
  • 标签: 检索增强生成、问答、指令微调
  • 数据规模: 1M 到 10M 之间

数据集结构

数据集包含三个主要部分,用于 CLaRa 模型的训练和评估。

1. 预训练数据

  • 配置名: pretraining
  • 用途: 模型的大规模预训练。
  • 格式: JSONL
  • 字段:
    • data_type: 数据类型
    • question: 问题列表
    • answers: 对应答案列表
    • docs: 文档上下文列表

2. 指令微调数据

  • 配置名: instruction_tuning
  • 用途: 训练模型遵循指令。
  • 格式: JSONL
  • 字段:
    • question: 问题字符串
    • docs: 检索到的文档列表
    • gold_answer: 真实答案
    • answer: 模型生成的答案
  • 评估集:
    • Oracle 设置 (保证包含相关文档): inst_eval_*_with_pos
    • 常规设置: inst_eval_*_no_pos
    • 涵盖数据集: 2wiki, hotpotqa, musique, nq

3. 端到端微调数据

  • 用途: 模型的端到端训练与评估。
  • 格式: JSONL
  • 字段:
    • question: 问题字符串
    • answer: 答案字符串
    • docs: 检索到的文档列表
    • pos_index: 包含答案的文档在 docs 列表中的索引
  • 数据子集:
    • 训练集 (Oracle 设置): e2e_training_*_with_pos
    • 训练集 (常规设置): e2e_training_*_no_pos
    • 评估集 (Oracle 设置): e2e_eval_*_with_pos
    • 评估集 (常规设置): e2e_eval_*_no_pos
    • 涵盖数据集: ours_2wiki, ours_hotpotqa, ours_musique, ours_nq

使用方式

可通过 datasets 库加载不同配置的数据。 python from datasets import load_dataset

加载预训练数据

pretrain = load_dataset("probejie/Clara_data", "pretraining")

加载指令微调数据

inst_tune = load_dataset("probejie/Clara_data", "instruction_tuning")

加载端到端微调数据(常规设置)

e2e_train = load_dataset("probejie/Clara_data", "e2e_training_ours_2wiki_no_pos")

加载端到端微调数据(Oracle 设置)

e2e_train_oracle = load_dataset("probejie/Clara_data", "e2e_training_ours_2wiki_with_pos")

引用信息

如果使用此数据集,请引用: bibtex @misc{he2025clarabridgingretrievalgeneration, title={CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning}, author={Jie He and Richard He Bai and Sinead Williamson and Jeff Z. Pan and Navdeep Jaitly and Yizhe Zhang}, year={2025}, eprint={2511.18659}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2511.18659}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在检索增强生成领域,CLaRa_6M数据集的构建体现了多层次训练策略的精心设计。该数据集通过整合预训练、指令微调及端到端微调三大模块,构建了规模达数百万条样本的综合性语料库。预训练数据采用JSONL格式,囊括了问题、答案及文档上下文的对应关系;指令微调部分则聚焦于模型对指令的理解与执行,同时设置了包含正例文档与无正例文档两种评估场景;端到端微调进一步细分为常规设置与预言机设置,覆盖了2Wiki、HotpotQA、Musique及NQ等多个公开问答数据集,确保了数据来源的多样性与代表性。
特点
CLaRa_6M数据集在检索增强生成任务中展现出鲜明的结构化特征。其核心特点在于严格区分了不同训练阶段的数据组织形式,预训练数据强调大规模上下文学习,指令微调数据注重模型对复杂指令的遵循能力,而端到端微调则引入了正例文档索引机制,以精准定位支持答案的关键文档。数据集涵盖了多种评估设置,包括预言机环境与常规环境,这为模型在不同检索条件下的性能评估提供了坚实基础。此外,数据字段设计清晰,如`pos_index`字段直接标识了答案所在文档的位置,极大便利了模型训练与验证过程。
使用方法
利用CLaRa_6M数据集进行模型开发时,研究者可通过Hugging Face的`datasets`库便捷加载不同子集。例如,调用`load_dataset`函数并指定`pretraining`配置即可获取预训练数据;指令微调数据可通过`instruction_tuning`配置加载;端到端微调则支持按数据集名称与设置类型灵活选择,如`e2e_training_ours_2wiki_no_pos`代表在常规设置下的2Wiki训练数据。这种模块化加载方式允许用户根据具体研究需求,有针对性地使用预训练、微调或评估数据,高效推进检索增强生成模型的训练与优化工作。
背景与挑战
背景概述
在检索增强生成(Retrieval-Augmented Generation, RAG)技术快速演进的背景下,CLaRa_6M数据集于2025年由Jie He、Richard He Bai等研究人员共同构建,旨在推动压缩感知的检索增强生成模型的发展。该数据集聚焦于解决开放域问答与指令跟随任务中,如何有效桥接检索系统与文本生成模型的核心研究问题。通过提供大规模预训练、指令微调及端到端微调数据,CLaRa_6M为探索连续潜在推理机制提供了关键资源,显著促进了RAG领域在模型效率与答案准确性方面的研究进展。
当前挑战
CLaRa_6M数据集致力于应对开放域问答中检索与生成模块协同优化的挑战,特别是在处理多跳推理、噪声文档过滤及答案生成一致性等复杂场景时,模型需平衡检索精度与生成流畅性。在构建过程中,数据集面临数据规模与质量的双重考验:一方面需从多样来源整合数百万级的高质量问答对,确保覆盖广泛主题;另一方面,需精确标注正例文档索引,并在有正例保证与无正例保证两种设置下构建评估集,以模拟真实检索环境中的不确定性,这对数据清洗与对齐提出了极高要求。
常用场景
经典使用场景
在检索增强生成(RAG)领域,CLaRa_6M数据集为模型训练提供了丰富的多阶段学习框架。该数据集通过预训练、指令微调和端到端微调三个模块,系统地构建了从大规模知识获取到精确问答生成的完整流程。其经典使用场景聚焦于训练模型在复杂文档检索与答案生成间的协同能力,特别是在处理多跳推理问题时,能够有效整合外部知识源,提升生成答案的准确性和连贯性。
衍生相关工作
围绕CLaRa_6M数据集,衍生了一系列关于检索增强生成优化的经典研究工作。这些工作主要集中于改进潜在空间对齐、增强多跳推理能力以及探索更高效的指令微调策略。相关研究不仅深化了对RAG模型中检索-生成交互机制的理论理解,还催生了多种新型架构和训练方法,进一步推动了压缩感知检索、动态文档选择等前沿方向的发展,为后续大规模知识密集型语言模型的演进提供了重要参考。
数据集最近研究
最新研究方向
在检索增强生成(RAG)领域,CLaRa_6M数据集正推动着模型架构与训练范式的深刻变革。该数据集通过引入压缩感知的连续潜在推理机制,旨在弥合检索与生成模块间的语义鸿沟,从而提升模型在复杂问答任务中的准确性与鲁棒性。当前研究热点聚焦于如何利用其多层次训练数据——包括预训练、指令微调及端到端微调——来优化模型对噪声文档的鲁棒性,并在开放域设置中实现更精准的答案定位。这一进展不仅回应了大规模语言模型对可解释性与事实一致性的迫切需求,也为构建更高效、可靠的智能问答系统提供了关键数据支撑,标志着RAG技术向更精细化、一体化方向演进的重要里程碑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作