red_pajama_subset_arxiv_subset

Hugging Face2025-03-27 更新2025-03-28 收录

下载链接：

https://huggingface.co/datasets/ai-factory/red_pajama_subset_arxiv_subset

下载链接

链接失效反馈

官方服务：

资源简介：

RedPajama是一个开源的数据集，旨在重现LLaMA训练数据集。数据集包含三个字段：文本内容(text)、元数据(meta)和RedPajama子集(red_pajama_subset)，均为字符串类型。数据集目前只有训练集划分，包含约1558306个示例，总大小约为89461737251字节。

创建时间：

2025-03-26

搜集汇总

数据集介绍

构建方式

RedPajama子集arXiv子集数据集的构建基于开放科学理念，采用分布式数据采集与清洗流程。该数据集从arXiv开放学术论文库中精选155万篇高质量论文文本，通过多阶段过滤机制确保内容完整性，保留原始文本结构与元数据信息。数据处理过程采用SHA-256去重算法，并遵循RedPajama项目的标准化预处理流程，最终形成包含文本内容、元数据和子集标识的三维数据结构。

特点

该数据集最显著的特点是涵盖STEM领域的多学科学术文本，包含完整的LaTeX公式与学术引用格式。每个样本均附带丰富的元数据信息，便于研究者进行细粒度分析。89GB的体量经过优化压缩处理，在保持文本完整性的同时提升存储效率。数据集采用分片存储设计，支持流式读取，特别适合大规模语言模型预训练任务。

使用方法

使用该数据集时建议通过HuggingFace数据集库直接加载，内置的自动分片机制可有效管理内存消耗。研究人员可根据red_pajama_subset字段筛选特定子集数据，meta字段提供的结构化信息支持多维度的数据过滤。该数据集兼容主流深度学习框架，建议配合分词工具处理特殊数学符号，适用于语言模型微调、学术文本挖掘等研究场景。

背景与挑战

背景概述

RedPajama子集arXiv子集数据集由Together Computer团队于2023年4月发布，旨在构建一个开放源代码的LLaMA训练数据集复现方案。该数据集作为RedPajama项目的重要组成部分，聚焦于学术论文文本的收集与处理，其核心研究问题在于如何高效整合海量学术文献资源以支持大规模语言模型的预训练。通过从arXiv开放获取平台提取结构化文本数据，该数据集为自然语言处理领域提供了高质量的学术语料库，显著促进了开放科学背景下语言模型训练的透明性与可重复性研究。

当前挑战

该数据集面临的主要挑战体现在学术文本处理的特殊性上。从领域问题视角，arXiv论文包含复杂的数学公式、专业术语和多语言混合内容，对文本清洗和标准化提出极高要求。在构建过程中，原始数据的异构性导致元信息抽取困难，需要设计复杂的解析算法处理LaTeX源码与PDF格式的兼容性问题。同时，保持学术文本的语义完整性需平衡内容过滤的严格度，避免过度清洗损失关键科研信息，这对数据质量控制策略提出了精细化管理的需求。

常用场景

经典使用场景

RedPajama子集arXiv子集作为大规模开源学术文本数据集，其经典使用场景主要集中在自然语言处理领域的大模型预训练任务。该数据集收录了arXiv平台的海量学术论文文本，为研究者提供了高质量的语料资源。在语言模型训练过程中，这类经过严格筛选的学术文本能够有效提升模型对专业术语和复杂语义结构的理解能力，尤其适合用于训练具备科学文献处理能力的专用模型。

衍生相关工作

围绕该数据集已产生一系列重要研究成果。多所知名高校的研究团队基于该子集开发了面向学术领域的专用语言模型，在文献分类任务中取得突破性进展。开源社区构建了多个基于RedPajama的预训练模型变体，优化了学术文本生成质量。相关衍生工作还包括学术抄袭检测系统、跨学科知识发现工具等创新应用。

数据集最近研究