five

RedPajama-V1, RedPajama-V2

收藏
arXiv2024-11-19 更新2024-11-22 收录
下载链接:
https://github.com/togethercomputer/RedPajama-Data
下载链接
链接失效反馈
官方服务:
资源简介:
RedPajama数据集由Together AI等多家机构联合创建,旨在为大规模语言模型(LLMs)的训练提供高质量、多样化的数据资源。数据集包含超过100万亿个Tokens,涵盖多个领域和语言,主要来源于网络爬取的原始文本数据。创建过程中,数据集经过详细的清洗和质量信号标记,以支持数据过滤和模型训练。RedPajama数据集的应用领域广泛,旨在推动透明和高性能语言模型的发展,解决当前语言模型训练数据集缺乏透明度和高质量数据的问题。

Co-created by Together AI and multiple other institutions, the RedPajama dataset is designed to provide high-quality, diverse data resources for the training of large language models (LLMs). Containing over 100 trillion tokens, the dataset covers multiple domains and languages, and is primarily sourced from raw text data crawled from the Internet. During its creation, the dataset underwent thorough cleaning and quality signal annotation to support data filtering and model training. The RedPajama dataset has a wide range of application scenarios, aiming to promote the development of transparent and high-performance language models and address the current issues that training datasets for language models lack transparency and high-quality data.
提供机构:
Together AI, 斯坦福大学, 芝加哥大学, EleutherAI, Ontocord.ai, 普林斯顿大学, ETH Zurich, Mila, 蒙特利尔大学, 俄亥俄州立大学, 加州理工学院
创建时间:
2024-11-19
原始信息汇总

RedPajama-Data-v2: 一个用于训练大型语言模型的开放数据集

数据集概述

  • 名称: RedPajama-V2
  • 类型: 开放数据集
  • 用途: 训练大型语言模型
  • 文档数量: 超过1000亿
  • 来源: 84个CommonCrawl快照
  • 处理流程: 使用CCNet管道处理
  • 语言: 英语、德语、法语、意大利语、西班牙语

数据集统计

注释和去重后的head_middle部分文档和标记数量

语言 文档数量 估计标记数量(去重后)
英语 145亿 20.5万亿
德语 19亿 3万亿
法语 16亿 2.7万亿
西班牙语 18亿 2.8万亿
意大利语 9亿 1.5万亿
总计 208亿 30.4万亿

数据集处理步骤

  1. 准备工件: 包括构建质量分类器、训练n-gram生成模型、获取不良词汇列表和黑名单URL。
  2. 计算质量信号: 包括计算minhash签名以进行模糊去重。
  3. 去重: 包括基于Bloomfilter的精确去重和基于局部敏感哈希的模糊去重。

质量信号

质量注释

注释标签 描述 类别 参考文献
ccnet_bucket 困惑度分数的head、middle或tail桶 CCNet CCNet
ccnet_language_score 语言识别模型的分数 CCNet CCNet
ccnet_length 字符数量 CCNet CCNet
ccnet_nlines 行数 CCNet CCNet
ccnet_original_length 文档去重前的字符数量 CCNet CCNet
ccnet_original_nlines 文档去重前的行数 CCNet CCNet
ccnet_perplexity 在维基百科上训练的语言模型的困惑度 CCNet CCNet
rps_doc_books_importance 基于Books p训练的{1,2}-wordgram模型与源域q的比率的对数 ML Heuristics Importance Resampling (Xie et al.)
rps_doc_openwebtext_importance 基于OpenWebText p训练的{1,2}-wordgram模型与源域q的比率的对数 ML Heuristics Importance Resampling (Xie et al.)
rps_doc_wikipedia_importance 基于维基百科文章p训练的{1,2}-wordgram模型与源域q的比率的对数 ML Heuristics Importance Resampling (Xie et al.)
rps_doc_ml_wikiref_score 文档为维基百科参考的Fasttext分类器预测 ML Heuristics LLaMA, RedPajama-1T
rps_doc_ml_palm_score 文档为维基百科文章、OpenWebText样本或RedPajama-V1书籍的Fasttext分类器预测 ML Heuristics PALM, GLaM
rps_doc_ml_wikipedia_score 文档为维基百科文章的Fasttext分类器预测 ML Heuristics -
rps_doc_curly_bracket 原始文本中{或}的出现次数与字符数量的比率 Natural Language C4
rps_doc_frac_all_caps_words 内容中仅由大写字母组成的单词的比例 Natural Language Pretrainer’s Guide
rps_doc_frac_lines_end_with_ellipsis 以省略号结尾的行数比例 Natural Language RefinedWeb, Gopher
rps_doc_frac_no_alph_words 不含字母字符的单词比例 Natural Language RefinedWeb, Gopher
rps_doc_lorem_ipsum lorem ipsum出现次数与内容字符数量的比率 Natural Language C4
rps_doc_mean_word_length 内容中单词的平均长度 Natural Language RefinedWeb, Gopher
rps_doc_stop_word_fraction 停用词数量与文档中单词数量的比率 Natural Language RefinedWeb, Gopher
搜集汇总
数据集介绍
main_image_url
构建方式
RedPajama-V1和RedPajama-V2数据集的构建旨在解决开源语言模型在数据集组成和过滤方面的挑战。RedPajama-V1是对LLaMA训练数据集的公开再现,而RedPajama-V2则是一个仅包含网络数据的庞大数据集,包含原始、未过滤的文本数据以及质量信号和元数据。这两个数据集共同包含了超过100万亿个标记,涵盖多个领域,并通过质量信号促进数据过滤,旨在激发新数据集的开发。
特点
RedPajama数据集的主要特点包括其透明性、规模和多功能性。透明性体现在详细记录和公开数据集的构建过程,使开发者和研究者能够更好地理解和设计语言模型。规模方面,数据集提供了大量高质量的数据,这是构建强大语言模型的核心要素。多功能性则体现在提供了一个广泛、通用的网络文档语料库,每个文档都附有质量信号,使用户能够根据特定需求和标准做出明智的决策。
使用方法
RedPajama数据集主要用于训练大型语言模型(LLMs)。用户可以通过Huggingface Hub下载数据集,并根据提供的质量信号和元数据进行数据过滤和分析。数据集的设计原则包括透明性、规模和多功能性,这些原则指导了数据集的创建和使用,使得开发者和研究者能够更好地理解和设计语言模型,从而推动透明和高性能语言模型的发展。
背景与挑战
背景概述
RedPajama-V1和RedPajama-V2数据集是由Together AI、Stanford University、University of Chicago等多个机构的研究人员共同创建的,旨在解决大规模语言模型训练数据集的透明度和质量问题。这些数据集包含了超过100万亿个标记,涵盖多个领域,旨在推动开源语言模型的发展。RedPajama-V1是对LLaMA训练数据集的公开复现,而RedPajama-V2则是一个仅基于网络数据的巨大数据集,包含原始未过滤的文本数据以及质量信号和元数据。这些数据集已被用于训练如Snowflake Arctic、Salesforce’s XGen和AI2’s OLMo等强大的语言模型。
当前挑战
RedPajama数据集面临的挑战主要包括数据透明度、高质量数据的获取以及数据集的可用性。具体来说,构建这些数据集时需要解决模型开发过程中的透明度问题,确保数据采集过程的公开性;同时,需要访问大量高质量数据,这对资源和专业知识的要求极高;此外,还需要提供数据集的元数据和工件,以便于数据集的筛选和分析。在构建过程中,研究人员还面临数据组合和过滤规则的开发与优化,这需要大量的实验和调整。
常用场景
经典使用场景
RedPajama-V1和RedPajama-V2数据集的经典使用场景主要集中在训练大规模语言模型(LLMs)。这些数据集通过提供透明且高质量的数据,支持了多个开源LLMs的训练,如Snowflake Arctic、Salesforce的XGen和AI2的OLMo。通过这些数据集,研究者和开发者能够构建和优化高性能的语言模型,从而推动人工智能技术在自然语言处理领域的应用和发展。
衍生相关工作
基于RedPajama数据集,已经衍生出多个相关的经典工作,包括OpenELM、OLMo、Snowflake的Arctic和RedPajama-INCITE等。这些工作不仅利用了RedPajama数据集进行模型训练,还进一步推动了数据集的优化和扩展,形成了丰富的生态系统,促进了语言模型技术的不断进步。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)的训练数据集领域,RedPajama-V1和RedPajama-V2数据集的最新研究方向主要集中在提高数据集的透明度、可访问性和质量控制上。研究者们致力于解决数据集构成和过滤策略的透明性问题,确保数据集的开放性和高质量,以推动透明和高性能语言模型的发展。通过发布RedPajama-V1和RedPajama-V2,研究团队不仅提供了大规模的文本数据,还引入了质量信号和元数据,以支持数据集的筛选和分析,从而激发新的数据集开发和语言模型的训练。这些数据集已被用于训练如Snowflake Arctic、Salesforce’s XGen和AI2’s OLMo等强大的语言模型,展示了其在实际应用中的潜力和影响力。
相关研究论文
  • 1
    RedPajama: an Open Dataset for Training Large Language ModelsTogether AI, 斯坦福大学, 芝加哥大学, EleutherAI, Ontocord.ai, 普林斯顿大学, ETH Zurich, Mila, 蒙特利尔大学, 俄亥俄州立大学, 加州理工学院 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作