COMPACTDS
收藏arXiv2025-07-02 更新2025-08-15 收录
下载链接:
https://huggingface.co/datasets/alrope/CompactDS-102GB
下载链接
链接失效反馈官方服务:
资源简介:
COMPACTDS是一个由高质量、多样化来源构建的3800亿单词的数据存储库,旨在与预训练数据的广度相匹配,同时保持可访问性。该数据集包括来自网络爬虫、精选的数学内容、学术论文和教科书的多样化数据。COMPACTDS的设计基于两个关键见解:一是可以在不影响覆盖范围的情况下过滤掉低质量的网络文本,从而得到一个更小但具有代表性的数据集;二是结合内存中的近似最近邻(ANN)检索和磁盘上的精确搜索,可以在单个节点上实现毫秒级的检索。
COMPACTDS is a 380-billion-word data repository constructed from high-quality, diverse sources, designed to match the breadth of pre-training data while remaining accessible. This dataset encompasses diverse data sourced from web crawls, curated mathematical content, academic papers, and textbooks. COMPACTDS is built upon two key insights: first, low-quality web text can be filtered out without compromising coverage, resulting in a smaller yet representative dataset; second, combining in-memory approximate nearest neighbor (ANN) retrieval with exact search on disk enables millisecond-level retrieval on a single node.
提供机构:
艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校、南加州大学、华盛顿大学、加州大学伯克利分校
创建时间:
2025-07-02
搜集汇总
数据集介绍

构建方式
COMPACTDS是一个多样化的、高质量的、网络规模的数据存储库,旨在匹配预训练数据的广度,同时保持可访问性。其构建基于两个关键洞察:首先,可以积极过滤低质量的网络文本,同时保留网络的覆盖范围和多样性,从而得到一个更小但具有代表性的数据集;其次,结合内存中的近似最近邻(ANN)检索和磁盘上的精确内积搜索,可以在单个456GB RAM节点上实现亚秒级检索。数据源包括网络爬取、精选数学内容、学术论文和教科书等,总计包含3800亿单词和6.39亿文档。
特点
COMPACTDS的特点在于其多样性和高质量的数据源组合,以及高效的检索机制。数据源涵盖了广泛的领域,包括网络爬取、数学内容、学术论文和教科书等,确保了数据的多样性和覆盖范围。通过结合ANN和精确搜索,COMPACTDS在保持高效检索的同时,显著提升了检索准确性。此外,其紧凑的设计使得在单个节点上部署成为可能,大大降低了资源需求。
使用方法
COMPACTDS的使用方法包括两个阶段:首先,使用近似最近邻(ANN)检索从内存中的索引中快速获取候选段落;然后,通过精确内积搜索对候选段落进行重新排序,以提升检索质量。用户可以将检索到的段落输入到语言模型中,以生成答案。此外,还可以选择使用语言模型对检索结果进行重新排序,以进一步提升性能。COMPACTDS的设计使其能够轻松集成到现有的检索增强生成(RAG)流程中,适用于各种推理密集型任务。
背景与挑战
背景概述
COMPACTDS是由Allen Institute for AI、University of Illinois Urbana-Champaign、University of Southern California、University of Washington和University of California, Berkeley的研究团队于2025年提出的一个多样化、高质量的网页规模数据存储库。该数据集旨在解决检索增强生成(RAG)在推理密集型任务中的局限性问题,通过提供一个与预训练数据广度对齐的通用数据存储库,显著提升了在MMLU、MMLU Pro、AGI Eval、GPQA和MATH等基准测试中的性能。COMPACTDS的构建基于两个关键洞察:一是通过过滤低质量网页文本保留覆盖范围和多样性;二是结合内存中的近似最近邻(ANN)检索和磁盘上的精确搜索,实现了在单节点上的亚秒级检索延迟。
当前挑战
COMPACTDS面临的挑战主要包括两个方面:1) 领域问题的挑战:在推理密集型任务中,如何通过检索增强生成(RAG)提升模型性能是一个复杂的问题,尤其是在需要广泛知识覆盖的任务中,传统的数据存储库(如Wikipedia)覆盖范围有限,而大规模网页数据存储库则存在质量低和难以访问的问题。2) 构建过程中的挑战:构建一个既广泛覆盖又高质量的数据存储库需要有效的过滤策略,以确保数据的多样性和质量;同时,实现高效的检索速度和低内存占用也是一个技术难点,尤其是在处理数十亿级别的数据时。
常用场景
经典使用场景
COMPACTDS数据集在检索增强生成(RAG)领域中被广泛应用,特别是在处理需要复杂推理的任务时表现突出。该数据集通过结合多样化的数据源(如网络爬取数据、数学内容、学术论文和教科书)和高效的检索技术,显著提升了模型在MMLU、MMLU Pro、AGI Eval、GPQA和MATH等基准测试中的表现。
实际应用
COMPACTDS在实际应用中表现出色,尤其在需要广泛知识覆盖和高效检索的场景中。例如,在教育领域,该数据集可以帮助学生和教师快速获取高质量的学术资源;在研究领域,它能够为科学家提供跨学科的文献支持。此外,COMPACTDS的高效检索能力使其在商业应用中(如智能客服和知识管理系统)也具有广泛潜力。
衍生相关工作
COMPACTDS的推出催生了一系列相关研究,特别是在改进数据存储库和检索技术方面。例如,ReasonIR等研究专注于提升嵌入模型的质量,而COMPACTDS则侧重于优化数据存储库和检索流程。此外,该数据集还为基于代理的RAG系统提供了高质量、可复现的数据支持,推动了这一领域的进一步发展。
以上内容由遇见数据集搜集并总结生成



