COMPACTDS

Name: COMPACTDS
Creator: 艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校、南加州大学、华盛顿大学、加州大学伯克利分校
Published: 2025-07-02 10:35:47
License: 暂无描述

arXiv2025-07-02 更新2025-08-15 收录

下载链接：

https://huggingface.co/datasets/alrope/CompactDS-102GB

下载链接

链接失效反馈

官方服务：

资源简介：

COMPACTDS是一个由高质量、多样化来源构建的3800亿单词的数据存储库，旨在与预训练数据的广度相匹配，同时保持可访问性。该数据集包括来自网络爬虫、精选的数学内容、学术论文和教科书的多样化数据。COMPACTDS的设计基于两个关键见解：一是可以在不影响覆盖范围的情况下过滤掉低质量的网络文本，从而得到一个更小但具有代表性的数据集；二是结合内存中的近似最近邻（ANN）检索和磁盘上的精确搜索，可以在单个节点上实现毫秒级的检索。

COMPACTDS is a 380-billion-word data repository constructed from high-quality, diverse sources, designed to match the breadth of pre-training data while remaining accessible. This dataset encompasses diverse data sourced from web crawls, curated mathematical content, academic papers, and textbooks. COMPACTDS is built upon two key insights: first, low-quality web text can be filtered out without compromising coverage, resulting in a smaller yet representative dataset; second, combining in-memory approximate nearest neighbor (ANN) retrieval with exact search on disk enables millisecond-level retrieval on a single node.

提供机构：

艾伦人工智能研究所、伊利诺伊大学厄巴纳-香槟分校、南加州大学、华盛顿大学、加州大学伯克利分校

创建时间：

2025-07-02

搜集汇总

数据集介绍

构建方式

COMPACTDS是一个多样化的、高质量的、网络规模的数据存储库，旨在匹配预训练数据的广度，同时保持可访问性。其构建基于两个关键洞察：首先，可以积极过滤低质量的网络文本，同时保留网络的覆盖范围和多样性，从而得到一个更小但具有代表性的数据集；其次，结合内存中的近似最近邻（ANN）检索和磁盘上的精确内积搜索，可以在单个456GB RAM节点上实现亚秒级检索。数据源包括网络爬取、精选数学内容、学术论文和教科书等，总计包含3800亿单词和6.39亿文档。

特点

COMPACTDS的特点在于其多样性和高质量的数据源组合，以及高效的检索机制。数据源涵盖了广泛的领域，包括网络爬取、数学内容、学术论文和教科书等，确保了数据的多样性和覆盖范围。通过结合ANN和精确搜索，COMPACTDS在保持高效检索的同时，显著提升了检索准确性。此外，其紧凑的设计使得在单个节点上部署成为可能，大大降低了资源需求。

使用方法

COMPACTDS的使用方法包括两个阶段：首先，使用近似最近邻（ANN）检索从内存中的索引中快速获取候选段落；然后，通过精确内积搜索对候选段落进行重新排序，以提升检索质量。用户可以将检索到的段落输入到语言模型中，以生成答案。此外，还可以选择使用语言模型对检索结果进行重新排序，以进一步提升性能。COMPACTDS的设计使其能够轻松集成到现有的检索增强生成（RAG）流程中，适用于各种推理密集型任务。

背景与挑战

背景概述

COMPACTDS是由Allen Institute for AI、University of Illinois Urbana-Champaign、University of Southern California、University of Washington和University of California, Berkeley的研究团队于2025年提出的一个多样化、高质量的网页规模数据存储库。该数据集旨在解决检索增强生成（RAG）在推理密集型任务中的局限性问题，通过提供一个与预训练数据广度对齐的通用数据存储库，显著提升了在MMLU、MMLU Pro、AGI Eval、GPQA和MATH等基准测试中的性能。COMPACTDS的构建基于两个关键洞察：一是通过过滤低质量网页文本保留覆盖范围和多样性；二是结合内存中的近似最近邻（ANN）检索和磁盘上的精确搜索，实现了在单节点上的亚秒级检索延迟。

当前挑战

COMPACTDS面临的挑战主要包括两个方面：1) 领域问题的挑战：在推理密集型任务中，如何通过检索增强生成（RAG）提升模型性能是一个复杂的问题，尤其是在需要广泛知识覆盖的任务中，传统的数据存储库（如Wikipedia）覆盖范围有限，而大规模网页数据存储库则存在质量低和难以访问的问题。2) 构建过程中的挑战：构建一个既广泛覆盖又高质量的数据存储库需要有效的过滤策略，以确保数据的多样性和质量；同时，实现高效的检索速度和低内存占用也是一个技术难点，尤其是在处理数十亿级别的数据时。

常用场景

经典使用场景

COMPACTDS数据集在检索增强生成（RAG）领域中被广泛应用，特别是在处理需要复杂推理的任务时表现突出。该数据集通过结合多样化的数据源（如网络爬取数据、数学内容、学术论文和教科书）和高效的检索技术，显著提升了模型在MMLU、MMLU Pro、AGI Eval、GPQA和MATH等基准测试中的表现。

实际应用

COMPACTDS在实际应用中表现出色，尤其在需要广泛知识覆盖和高效检索的场景中。例如，在教育领域，该数据集可以帮助学生和教师快速获取高质量的学术资源；在研究领域，它能够为科学家提供跨学科的文献支持。此外，COMPACTDS的高效检索能力使其在商业应用中（如智能客服和知识管理系统）也具有广泛潜力。

衍生相关工作

COMPACTDS的推出催生了一系列相关研究，特别是在改进数据存储库和检索技术方面。例如，ReasonIR等研究专注于提升嵌入模型的质量，而COMPACTDS则侧重于优化数据存储库和检索流程。此外，该数据集还为基于代理的RAG系统提供了高质量、可复现的数据支持，推动了这一领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集