EnronQA
收藏arXiv2025-05-01 更新2025-05-03 收录
下载链接:
https://huggingface.co/MichaelR207/enron_qa_0922
下载链接
链接失效反馈官方服务:
资源简介:
EnronQA是一个包含103,638封电子邮件和528,304个问答对的数据集,涵盖了150个不同的用户邮箱。该数据集基于Enron电子邮件语料库构建,旨在为个性化RAG模型提供测试和评估标准。数据集内容丰富,涵盖了私人文档领域,为研究个性化检索和记忆提供了现实的数据基础。EnronQA的构建过程严格,包括数据过滤、问答对生成和后处理三个阶段,以确保数据集的质量和多样性。该数据集适用于LLM模型的微调和优化,并有助于探索LLM在私人文档领域的应用。EnronQA数据集的发布填补了RAG模型在私人文档检索领域的空白,为未来研究提供了重要的资源。
EnronQA is a dataset containing 103,638 email messages and 528,304 question-answer pairs, covering 150 distinct user mailboxes. Built upon the Enron Email Corpus, this dataset aims to provide test and evaluation benchmarks for personalized Retrieval-Augmented Generation (RAG) models. Featuring rich content spanning the private document domain, EnronQA offers a realistic data foundation for research on personalized retrieval and memory. The construction of EnronQA follows a rigorous three-stage pipeline including data filtering, question-answer pair generation and post-processing, to ensure the dataset's quality and diversity. This dataset is suitable for fine-tuning and optimizing Large Language Models (LLMs), and facilitates the exploration of LLM applications in the private document domain. The release of EnronQA fills the gap in RAG model research focused on private document retrieval, serving as a critical resource for future studies.
提供机构:
斯坦福大学
创建时间:
2025-05-01
原始信息汇总
数据集概述
基本信息
- 数据集名称: enron_qa_0922
- 下载大小: 666346042 bytes
- 数据集大小: 1397501902 bytes
数据集特征
- email: 字符串类型,表示电子邮件内容
- questions: 字符串序列,表示问题列表
- rephrased_questions: 字符串序列,表示重述的问题列表
- gold_answers: 字符串序列,表示标准答案列表
- alternate_answers: 字符串序列的序列,表示替代答案列表
- incorrect_answers: 字符串序列的序列,表示错误答案列表
- path: 字符串类型,表示路径
- user: 字符串类型,表示用户
- questions_count: 整型,表示问题数量
- gold_rationales: 字符串序列,表示标准理由列表
- alternate_rationales: 字符串序列的序列,表示替代理由列表
- include_email: 整型序列,表示是否包含电子邮件
数据集划分
- train:
- 样本数量: 73772
- 大小: 730246275 bytes
- dev:
- 样本数量: 73772
- 大小: 347395653 bytes
- test:
- 样本数量: 73772
- 大小: 319859974 bytes
配置文件
- config_name: default
- 数据文件:
- train: data/train-*
- dev: data/dev-*
- test: data/test-*
搜集汇总
数据集介绍

构建方式
EnronQA数据集的构建采用了多阶段的严谨流程。首先对原始Enron电子邮件语料库进行过滤处理,包括去重、质量筛选、语言识别以及NSFW/毒性内容过滤等步骤,确保数据纯净度。随后通过创新的复合LLM系统生成问题-答案对,该系统包含初始生成、评估、反馈生成和优化四个核心阶段,每个问题平均需10-50次LLM调用。最后进行附加数据处理,包括问题重述和多种辅助产物的整理,形成包含103,638封邮件和528,304个问答对的最终数据集。
特点
该数据集最显著的特点是专注于私有文档领域的检索增强生成(RAG)研究,填补了现有基准测试在个性化私有数据检索方面的空白。其规模远超同类资源,包含150个独立用户邮箱的分段数据,支持个性化RAG研究。问题设计具有高度特异性,每个问题都经过客观性、基础性和质量验证,确保答案仅来自对应邮件内容。数据集还特别校准了检索质量与基准分数之间的关系,避免了LLM参数知识对评估结果的干扰。
使用方法
EnronQA支持多种应用场景:作为RAG系统基准测试工具,可评估检索器与LLM的协同表现;用于探索参数记忆与检索的平衡关系,支持持续预训练研究;也可作为个性化信息检索的实验平台。使用时需注意数据分割设置,包含333,473个训练问题、105,515个开发集问题和89,316个测试问题。典型工作流程包括检索相关邮件、问题重写优化以及答案生成等步骤,支持BM25和ColBERTv2等多种检索方法。
背景与挑战
背景概述
EnronQA数据集由斯坦福大学的Michael J. Ryan等人于2025年提出,旨在为私有文档上的检索增强生成(RAG)系统提供个性化基准测试。该数据集基于著名的Enron电子邮件语料库,包含103,638封电子邮件和528,304个问答对,覆盖150个不同用户的收件箱。EnronQA的创建解决了当前RAG基准测试主要依赖公开数据(如维基百科)而缺乏私有文档和个性化上下文的问题,为企业在处理敏感数据时的RAG系统优化提供了重要资源。
当前挑战
EnronQA面临的挑战主要包括:1) 领域问题挑战:如何确保问答对准确反映私有文档中的个性化信息,同时避免模型依赖公开知识;2) 构建过程挑战:在过滤原始电子邮件时需要平衡数据质量与隐私保护,处理大量非结构化数据时确保问答对的多样性和高质量,以及设计有效的评估标准来衡量问答对的客观性和特异性。
常用场景
经典使用场景
EnronQA数据集在信息检索与生成领域具有重要价值,其核心应用场景聚焦于个性化检索增强生成(Personalized RAG)系统的开发与评估。该数据集通过150个独立用户邮箱的10.3万封邮件构建的52.8万组问答对,为研究者提供了模拟企业环境下私有文档检索的真实场景。典型应用包括测试RAG管道在跨用户个性化检索时的性能差异,例如当系统需要从特定用户的邮件历史中提取关于‘Powder River Gathering费率问题’的负责人信息时,可验证模型是否能在多用户数据中精准定位目标信息。
衍生相关工作
该数据集已衍生出多个重要研究方向:在个性化RAG领域催生了PersonaRAG等用户中心型代理系统;在隐私保护方面启发了FLIRT等联邦检索框架的研究;其问答生成管道被改进应用于TechQA等专业领域数据集构建。值得注意的是,ConcurrentQA团队已将该数据集扩展用于多跳推理研究,而论文中提出的LoRA记忆适配器方法也为后续‘合成持续预训练’等参数化知识注入研究提供了基线。
数据集最近研究
最新研究方向
近年来,EnronQA数据集在信息检索与生成领域引起了广泛关注,特别是在个性化RAG(检索增强生成)和隐私文档处理方面。该数据集通过整合超过10万封真实企业邮件和50万对问答数据,为研究社区提供了一个独特的基准测试平台,用于评估在私有文档上的检索与生成性能。前沿研究主要聚焦于三个方向:一是探索多用户环境下的个性化检索策略,通过分析150个独立用户邮箱的数据分布,优化用户画像构建与上下文感知检索;二是研究隐私保护机制下的知识记忆与检索平衡,如通过LoRA适配器实现参数化知识记忆,同时保持检索系统的实时性;三是开发新型评估指标,解决传统基于公开数据的RAG基准在私有领域存在的校准偏差问题。该数据集的发布推动了企业级LLM应用中隐私保护与知识增强的技术演进,为金融、法律等敏感领域的文档智能处理提供了重要研究基础。
相关研究论文
- 1EnronQA: Towards Personalized RAG over Private Documents斯坦福大学 · 2025年
以上内容由遇见数据集搜集并总结生成



