five

togethercomputer/RedPajama-Data-1T-Sample|自然语言处理数据集|开源数据集数据集

收藏
hugging_face2023-07-19 更新2024-03-04 收录
自然语言处理
开源数据集
下载链接:
https://hf-mirror.com/datasets/togethercomputer/RedPajama-Data-1T-Sample
下载链接
链接失效反馈
资源简介:
RedPajama是一个开源的LLaMa数据集的实现,包含了从多个来源(如Commoncrawl、C4、GitHub等)收集的文本数据,总计约1.2万亿个token。该HuggingFace仓库包含了RedPajama数据集的1B-token样本。数据集主要用于文本生成任务,主要语言为英语,尽管Wikipedia部分包含多种语言。数据集的每个条目包含文本内容和元数据(如URL、时间戳、来源、语言等)。
提供机构:
togethercomputer
原始信息汇总

数据集概述

数据集名称

RedPajama

数据集摘要

RedPajama是一个遵循LLaMa论文的完全开源实现的数据集。本仓库包含RedPajama数据集的一个1亿token样本。完整数据集包含以下token计数,并可从此处下载:

数据集 Token计数
Commoncrawl 8780亿
C4 1750亿
GitHub 590亿
Books 260亿
ArXiv 280亿
Wikipedia 240亿
StackExchange 200亿
总计 1.2万亿

语言

主要为英语,但Wikipedia部分包含多种语言。

数据集结构

数据集结构如下: json { "text": ..., "meta": {"url": "...", "timestamp": "...", "source": "...", "language": "...", ...} }

数据集创建

数据集的创建旨在尽可能遵循LLaMa论文,以尝试重现其配方。

源数据

  • Commoncrawl: 下载五个Commoncrawl转储,并通过官方cc_net管道运行。在段落级别进行去重,并使用线性分类器过滤低质量文本。
  • C4: 从Huggingface下载,唯一的预处理步骤是将数据转换为我们的格式。
  • GitHub: 从Google BigQuery下载原始数据,在文件级别去重,并仅保留MIT、BSD或Apache许可下的项目。
  • Wikipedia: 使用基于2023-03-20 Wikipedia转储的Huggingface数据集,包含20种不同语言的文本。
  • Gutenberg和Books3: 下载PG19子集,使用simhash去除近似重复。
  • ArXiv: 从Amazon S3的arxiv请求者付费桶下载,仅保留latex源文件。
  • Stackexchange: 从Internet Archive下载,仅保留来自28个最大站点的帖子,并将其分组为问题-答案对。
AI搜集汇总
数据集介绍
main_image_url
构建方式
RedPajama-Data-1T-Sample数据集的构建遵循了LLaMa论文的指导原则,旨在复现其数据配方。数据集通过整合多个来源的数据,包括Commoncrawl、C4、GitHub、Wikipedia、Gutenberg和Books3、ArXiv以及StackExchange。每个数据源都经过特定的预处理步骤,如去重、质量过滤和格式转换,以确保数据的多样性和高质量。例如,Commoncrawl数据通过官方cc_net管道处理并进行段落级别的去重,而GitHub数据则通过文件级别的去重和许可证过滤。
使用方法
RedPajama-Data-1T-Sample数据集适用于文本生成任务,特别是那些需要大规模、多样化语料的场景。研究者可以通过HuggingFace平台直接下载数据样本,或访问GitHub获取完整的构建脚本以从头开始生成数据集。数据集的结构为JSON格式,每个条目包含文本内容和元数据,便于直接用于模型训练和评估。此外,数据集的多样性和高质量使其成为训练和测试大规模语言模型的理想选择。
背景与挑战
背景概述
RedPajama数据集是由togethercomputer团队于2023年创建的一个开源文本生成数据集,旨在复现LLaMa数据集的构建方法。该数据集涵盖了多种数据源,包括Commoncrawl、C4、GitHub、Wikipedia、Gutenberg、Books3、ArXiv和StackExchange,总规模达到1.2万亿个token。RedPajama的创建不仅为自然语言处理领域提供了丰富的训练资源,还推动了开源社区在大型语言模型数据集构建方面的研究进展。其多样化的数据来源和严格的预处理流程,使其成为研究文本生成、语言模型预训练等任务的重要基准。
当前挑战
RedPajama数据集在构建过程中面临多重挑战。首先,数据源的多样性和规模庞大带来了数据清洗和去重的复杂性,例如Commoncrawl数据的低质量文本过滤和GitHub文件的许可证合规性检查。其次,不同数据源的格式差异要求开发统一的预处理流程,以确保数据的一致性和可用性。此外,数据集的开放性和透明度要求团队在数据采集、处理和发布过程中严格遵守开源协议和隐私保护规范。这些挑战不仅考验了数据处理技术的极限,也为未来大规模数据集的构建提供了宝贵的经验。
常用场景
经典使用场景
RedPajama-Data-1T-Sample数据集在自然语言处理领域中被广泛用于文本生成任务。其丰富的文本来源和多样化的内容使其成为训练大规模语言模型的理想选择。研究人员可以利用该数据集进行语言模型的预训练和微调,以提升模型在生成连贯、上下文相关文本方面的能力。
解决学术问题
该数据集解决了大规模语言模型训练中数据质量和多样性的问题。通过整合来自Commoncrawl、C4、GitHub、Wikipedia等多个高质量数据源,RedPajama-Data-1T-Sample为研究人员提供了一个全面且经过严格筛选的文本资源库。这不仅有助于提升模型的泛化能力,还为研究数据预处理和去重技术提供了宝贵的实验平台。
实际应用
在实际应用中,RedPajama-Data-1T-Sample数据集被广泛用于开发智能对话系统、自动文本摘要和机器翻译等任务。其多样化的文本内容使得模型能够更好地理解和生成不同领域的语言表达,从而在实际应用中表现出更高的准确性和鲁棒性。
数据集最近研究
最新研究方向
在自然语言处理领域,RedPajama-Data-1T-Sample数据集的最新研究方向主要集中在开放域文本生成模型的训练与优化。该数据集作为LLaMa数据集的开放源码实现,提供了包括Commoncrawl、C4、GitHub、Books、ArXiv、Wikipedia和StackExchange在内的多源数据,总计1.2万亿令牌,为研究者提供了丰富的语料资源。当前研究热点包括如何有效利用这些异构数据源提升模型的泛化能力和生成质量,特别是在多语言环境下的表现。此外,数据集的去重和质量过滤机制也为研究数据预处理对模型性能的影响提供了新的视角。RedPajama-Data-1T-Sample的开放性和多样性,不仅推动了文本生成技术的发展,也为探索大规模数据集在AI模型训练中的最佳实践提供了重要参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Data_on_Data_Analysts

我们正在探索数据分析师职位的就业市场趋势:需求技能、薪资变化和招聘模式。该数据集汇编了美国数据分析师职位的招聘信息,直接来源于Google的职位搜索结果。数据收集始于2022年11月4日,并持续增长,每天新增约100个职位信息,提供了当前就业市场的持续更新快照。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录