Awesome-LLMs-Datasets

github2024-04-06 更新2024-05-31 收录

下载链接：

https://github.com/lmmlzn/Awesome-LLMs-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库总结了现有代表性的大型语言模型文本数据集，涵盖五个维度：预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集。此外，还新增了多模态大型语言模型数据集和检索增强生成数据集等部分。

This repository summarizes existing representative large language model text datasets, covering five dimensions: pre-training corpora, fine-tuning instruction datasets, preference datasets, evaluation datasets, and traditional NLP datasets. Additionally, it includes new sections on multimodal large language model datasets and retrieval-augmented generation datasets.

创建时间：

2024-01-17

原始信息汇总

数据集概述

数据集名称

Awesome-LLMs-Datasets

数据集目的

总结现有代表性的大型语言模型（LLMs）文本数据集，涵盖五个维度：预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集。
新增数据集部分：多模态大型语言模型（MLLMs）数据集、检索增强生成（RAG）数据集。

数据集内容

预训练语料库：用于LLMs预训练的大型文本数据集，包括通用和特定领域的语料库。
微调指令数据集：用于指导LLMs进行特定任务微调的数据集。
偏好数据集：用于评估LLMs输出偏好的数据集。
评估数据集：用于评估LLMs性能的数据集，包括多种评估方法和领域。
传统NLP数据集：涵盖多种NLP任务的传统数据集。
多模态大型语言模型（MLLMs）数据集：结合文本与其他模态信息的数据集。
检索增强生成（RAG）数据集：用于增强LLMs检索能力的数据集。

数据集更新

定期更新现有数据集信息。
逐步更新新增数据集部分。

数据集详细信息

数据集信息模块：包括数据集名称、发布者、发布时间、大小、公开状态、许可证、语言、构建方法、类别、来源、领域等详细信息。

数据集版本更新

记录了自2024年1月以来的多次数据集更新，包括新增和修订的数据集信息。

数据集结构

数据集按类别和子类别组织，便于查找和引用。

数据集使用

数据集信息将以CSV格式发布，便于数据分析和处理。

数据集相关文献

相关文献《Datasets for Large Language Models: A Comprehensive Survey》提供了对LLMs数据集的全面调查和分析。

数据集详细信息模块

数据集信息格式

Corpus/Dataset name
Publisher
Release Time
Size
Public or Not
License
Language
Construction Method
Category
Source
Domain

数据集示例

CC-Stories
- 发布时间：2018-6
- 公开状态：Not
- 语言：EN
- 构建方法：CI
- 来源：Common Crawl
CC100
- 发布时间：2020-7
- 公开状态：All
- 语言：Multi (100)
- 构建方法：CI
- 来源：Common Crawl
CLUECorpus2020
- 发布时间：2020-3
- 公开状态：All
- 语言：ZH
- 构建方法：CI
- 来源：Common Crawl
Common Crawl
- 发布时间：2007-X
- 公开状态：All
- 语言：Multi
- 构建方法：HG
- 来源：Web crawler data
CulturaX
- 发布时间：2023-9
- 公开状态：All
- 语言：Multi (167)
- 构建方法：CI
- 来源：mC4, OSCAR
C4
- 发布时间：2019-10
- 公开状态：All
- 语言：EN
- 构建方法：CI
- 来源：Common Crawl
mC4
- 发布时间：2021-6
- 公开状态：All
- 语言：Multi (108)
- 构建方法：CI
- 来源：Common Crawl
OSCAR 22.01
- 发布时间：2022-1
- 公开状态：All
- 语言：Multi (151)
- 构建方法：CI
- 来源：Common Crawl
RealNews
- 发布时间：2019-5
- 公开状态：All
- 语言：EN
- 构建方法：CI
- 来源：Common Crawl
RedPajama-V2
- 发布时间：2023-10
- 公开状态：All
- 语言：Multi (5)
- 构建方法：CI
- 来源：Common Crawl, C4, etc.
RefinedWeb
- 发布时间：2023-6
- 公开状态：Partial
- 语言：EN
- 构建方法：CI
- 来源：Common Crawl
WuDaoCorpora-Text
- 发布时间：2021-6
- 公开状态：Partial
- 语言：ZH
- 构建方法：HG
- 来源：Chinese webpages
WanJuan-CC
- 发布时间：2024-2
- 公开状态：Partial
- 语言：EN
- 构建方法：HG
- 来源：Common Crawl
MADLAD-400
- 发布时间：2023-9
- 公开状态：All
- 语言：Multi (419)
- 构建方法：HG
- 来源：Common Crawl
FineWeb
- 发布时间：2024-4
- 公开状态：All
- 语言：EN
- 构建方法：CI
- 来源：Common Crawl
CCI 2.0
- 发布时间：2024-4
- 公开状态：All
- 语言：ZH
- 构建方法：HG
- 来源：Common Crawl

搜集汇总

数据集介绍

构建方式

Awesome-LLMs-Datasets数据集的构建方式涵盖了五个主要维度：预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统自然语言处理数据集。这些数据集的构建方法包括人工生成（HG）、模型构建（MC）以及现有语料库的收集和改进（CI）。数据集的构建过程严格遵循科学分类和详细统计，确保数据的多样性和高质量。

特点

该数据集的特点在于其全面性和多样性，涵盖了从预训练到微调再到评估的整个生命周期。数据集不仅包括通用领域的文本，还涉及特定领域的专业知识，如金融、医学和数学等。此外，数据集支持多语言，包括英语、中文、阿拉伯语等多种语言，满足全球研究者的需求。

使用方法

使用Awesome-LLMs-Datasets数据集时，研究者可以根据需要选择不同类型的数据集进行预训练、微调或评估。数据集提供了详细的元数据信息，包括数据集名称、发布者、发布时间、大小、公开性、许可证、语言、构建方法等，便于用户快速定位和使用。此外，数据集还提供了CSV格式的数据信息，方便进行进一步的分析和处理。

背景与挑战

背景概述

Awesome-LLMs-Datasets数据集是由一支专注于大型语言模型（LLMs）数据集研究的团队于2024年1月创建的。该数据集的核心研究问题在于系统地总结和分类现有的LLMs文本数据集，涵盖预训练语料库、微调指令数据集、偏好数据集、评估数据集以及传统自然语言处理（NLP）数据集等多个维度。这一研究不仅填补了当前对LLMs数据集全面概览和深入分析的空白，还为相关领域的研究人员提供了宝贵的参考资源。通过整合和分类444个数据集，覆盖8种语言和32个领域，该数据集的总数据量超过774.5 TB，对推动LLMs的发展具有重要影响力。

当前挑战

Awesome-LLMs-Datasets数据集在构建过程中面临多项挑战。首先，数据集的多样性和规模庞大，导致数据整合和分类的复杂性增加。其次，不同数据集的构建方法和来源各异，如何确保数据质量和一致性是一个重要问题。此外，随着多模态大型语言模型（MLLMs）和检索增强生成（RAG）数据集的引入，数据集的更新和维护变得更加频繁和复杂。最后，如何有效地评估这些数据集在LLMs中的应用效果，以及如何解决数据集中的潜在偏见和伦理问题，也是当前研究中亟待解决的挑战。

常用场景

经典使用场景

在大型语言模型（LLMs）的开发过程中，Awesome-LLMs-Datasets数据集被广泛用于预训练、微调、偏好评估和传统自然语言处理任务。其经典使用场景包括构建预训练语料库，用于模型初始化；设计指令微调数据集，以增强模型在特定任务上的表现；以及创建评估数据集，用于衡量模型在不同任务上的性能。

解决学术问题

该数据集解决了大型语言模型在预训练和微调阶段缺乏多样化、高质量数据的问题。通过提供涵盖多个领域和语言的丰富数据，它有助于提升模型的泛化能力和任务适应性。此外，数据集的分类和详细统计信息为研究人员提供了深入分析和优化模型的基础，推动了LLMs领域的学术研究进展。

衍生相关工作

基于Awesome-LLMs-Datasets数据集，研究者们开发了多种衍生工作，如针对特定领域的微调模型、多语言模型的跨语言评估方法以及多模态数据集的扩展研究。这些工作不仅丰富了LLMs的研究内容，还推动了相关技术在实际应用中的落地，形成了从数据集到模型再到应用的完整研究链条。

以上内容由遇见数据集搜集并总结生成