five

Awesome-LLMs-Datasets|大型语言模型数据集|NLP数据集数据集

收藏
github2024-04-06 更新2024-05-31 收录
大型语言模型
NLP数据集
下载链接:
https://github.com/lmmlzn/Awesome-LLMs-Datasets
下载链接
链接失效反馈
资源简介:
该仓库总结了现有代表性的大型语言模型文本数据集,涵盖五个维度:预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集。此外,还新增了多模态大型语言模型数据集和检索增强生成数据集等部分。

This repository summarizes existing representative large language model text datasets, covering five dimensions: pre-training corpora, fine-tuning instruction datasets, preference datasets, evaluation datasets, and traditional NLP datasets. Additionally, it includes new sections on multimodal large language model datasets and retrieval-augmented generation datasets.
创建时间:
2024-01-17
原始信息汇总

数据集概述

数据集名称

  • Awesome-LLMs-Datasets

数据集目的

  • 总结现有代表性的大型语言模型(LLMs)文本数据集,涵盖五个维度:预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集。
  • 新增数据集部分:多模态大型语言模型(MLLMs)数据集、检索增强生成(RAG)数据集。

数据集内容

  • 预训练语料库:用于LLMs预训练的大型文本数据集,包括通用和特定领域的语料库。
  • 微调指令数据集:用于指导LLMs进行特定任务微调的数据集。
  • 偏好数据集:用于评估LLMs输出偏好的数据集。
  • 评估数据集:用于评估LLMs性能的数据集,包括多种评估方法和领域。
  • 传统NLP数据集:涵盖多种NLP任务的传统数据集。
  • 多模态大型语言模型(MLLMs)数据集:结合文本与其他模态信息的数据集。
  • 检索增强生成(RAG)数据集:用于增强LLMs检索能力的数据集。

数据集更新

  • 定期更新现有数据集信息。
  • 逐步更新新增数据集部分。

数据集详细信息

  • 数据集信息模块:包括数据集名称、发布者、发布时间、大小、公开状态、许可证、语言、构建方法、类别、来源、领域等详细信息。

数据集版本更新

  • 记录了自2024年1月以来的多次数据集更新,包括新增和修订的数据集信息。

数据集结构

  • 数据集按类别和子类别组织,便于查找和引用。

数据集使用

  • 数据集信息将以CSV格式发布,便于数据分析和处理。

数据集相关文献

  • 相关文献《Datasets for Large Language Models: A Comprehensive Survey》提供了对LLMs数据集的全面调查和分析。

数据集详细信息模块

数据集信息格式

  • Corpus/Dataset name
  • Publisher
  • Release Time
  • Size
  • Public or Not
  • License
  • Language
  • Construction Method
  • Category
  • Source
  • Domain

数据集示例

  • CC-Stories

    • 发布时间:2018-6
    • 公开状态:Not
    • 语言:EN
    • 构建方法:CI
    • 来源:Common Crawl
  • CC100

    • 发布时间:2020-7
    • 公开状态:All
    • 语言:Multi (100)
    • 构建方法:CI
    • 来源:Common Crawl
  • CLUECorpus2020

    • 发布时间:2020-3
    • 公开状态:All
    • 语言:ZH
    • 构建方法:CI
    • 来源:Common Crawl
  • Common Crawl

    • 发布时间:2007-X
    • 公开状态:All
    • 语言:Multi
    • 构建方法:HG
    • 来源:Web crawler data
  • CulturaX

    • 发布时间:2023-9
    • 公开状态:All
    • 语言:Multi (167)
    • 构建方法:CI
    • 来源:mC4, OSCAR
  • C4

    • 发布时间:2019-10
    • 公开状态:All
    • 语言:EN
    • 构建方法:CI
    • 来源:Common Crawl
  • mC4

    • 发布时间:2021-6
    • 公开状态:All
    • 语言:Multi (108)
    • 构建方法:CI
    • 来源:Common Crawl
  • OSCAR 22.01

    • 发布时间:2022-1
    • 公开状态:All
    • 语言:Multi (151)
    • 构建方法:CI
    • 来源:Common Crawl
  • RealNews

    • 发布时间:2019-5
    • 公开状态:All
    • 语言:EN
    • 构建方法:CI
    • 来源:Common Crawl
  • RedPajama-V2

    • 发布时间:2023-10
    • 公开状态:All
    • 语言:Multi (5)
    • 构建方法:CI
    • 来源:Common Crawl, C4, etc.
  • RefinedWeb

    • 发布时间:2023-6
    • 公开状态:Partial
    • 语言:EN
    • 构建方法:CI
    • 来源:Common Crawl
  • WuDaoCorpora-Text

    • 发布时间:2021-6
    • 公开状态:Partial
    • 语言:ZH
    • 构建方法:HG
    • 来源:Chinese webpages
  • WanJuan-CC

    • 发布时间:2024-2
    • 公开状态:Partial
    • 语言:EN
    • 构建方法:HG
    • 来源:Common Crawl
  • MADLAD-400

    • 发布时间:2023-9
    • 公开状态:All
    • 语言:Multi (419)
    • 构建方法:HG
    • 来源:Common Crawl
  • FineWeb

    • 发布时间:2024-4
    • 公开状态:All
    • 语言:EN
    • 构建方法:CI
    • 来源:Common Crawl
  • CCI 2.0

    • 发布时间:2024-4
    • 公开状态:All
    • 语言:ZH
    • 构建方法:HG
    • 来源:Common Crawl
AI搜集汇总
数据集介绍
main_image_url
构建方式
Awesome-LLMs-Datasets数据集的构建方式涵盖了五个主要维度:预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统自然语言处理数据集。这些数据集的构建方法包括人工生成(HG)、模型构建(MC)以及现有语料库的收集和改进(CI)。数据集的构建过程严格遵循科学分类和详细统计,确保数据的多样性和高质量。
特点
该数据集的特点在于其全面性和多样性,涵盖了从预训练到微调再到评估的整个生命周期。数据集不仅包括通用领域的文本,还涉及特定领域的专业知识,如金融、医学和数学等。此外,数据集支持多语言,包括英语、中文、阿拉伯语等多种语言,满足全球研究者的需求。
使用方法
使用Awesome-LLMs-Datasets数据集时,研究者可以根据需要选择不同类型的数据集进行预训练、微调或评估。数据集提供了详细的元数据信息,包括数据集名称、发布者、发布时间、大小、公开性、许可证、语言、构建方法等,便于用户快速定位和使用。此外,数据集还提供了CSV格式的数据信息,方便进行进一步的分析和处理。
背景与挑战
背景概述
Awesome-LLMs-Datasets数据集是由一支专注于大型语言模型(LLMs)数据集研究的团队于2024年1月创建的。该数据集的核心研究问题在于系统地总结和分类现有的LLMs文本数据集,涵盖预训练语料库、微调指令数据集、偏好数据集、评估数据集以及传统自然语言处理(NLP)数据集等多个维度。这一研究不仅填补了当前对LLMs数据集全面概览和深入分析的空白,还为相关领域的研究人员提供了宝贵的参考资源。通过整合和分类444个数据集,覆盖8种语言和32个领域,该数据集的总数据量超过774.5 TB,对推动LLMs的发展具有重要影响力。
当前挑战
Awesome-LLMs-Datasets数据集在构建过程中面临多项挑战。首先,数据集的多样性和规模庞大,导致数据整合和分类的复杂性增加。其次,不同数据集的构建方法和来源各异,如何确保数据质量和一致性是一个重要问题。此外,随着多模态大型语言模型(MLLMs)和检索增强生成(RAG)数据集的引入,数据集的更新和维护变得更加频繁和复杂。最后,如何有效地评估这些数据集在LLMs中的应用效果,以及如何解决数据集中的潜在偏见和伦理问题,也是当前研究中亟待解决的挑战。
常用场景
经典使用场景
在大型语言模型(LLMs)的开发过程中,Awesome-LLMs-Datasets数据集被广泛用于预训练、微调、偏好评估和传统自然语言处理任务。其经典使用场景包括构建预训练语料库,用于模型初始化;设计指令微调数据集,以增强模型在特定任务上的表现;以及创建评估数据集,用于衡量模型在不同任务上的性能。
解决学术问题
该数据集解决了大型语言模型在预训练和微调阶段缺乏多样化、高质量数据的问题。通过提供涵盖多个领域和语言的丰富数据,它有助于提升模型的泛化能力和任务适应性。此外,数据集的分类和详细统计信息为研究人员提供了深入分析和优化模型的基础,推动了LLMs领域的学术研究进展。
衍生相关工作
基于Awesome-LLMs-Datasets数据集,研究者们开发了多种衍生工作,如针对特定领域的微调模型、多语言模型的跨语言评估方法以及多模态数据集的扩展研究。这些工作不仅丰富了LLMs的研究内容,还推动了相关技术在实际应用中的落地,形成了从数据集到模型再到应用的完整研究链条。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

NIST Thermochemical Database

NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。

webbook.nist.gov 收录

全国兴趣点(POI)数据

  POI(Point of Interest),即兴趣点,一个POI可以是餐厅、超市、景点、酒店、车站、停车场等。兴趣点通常包含四方面信息,分别为名称、类别、坐标、分类。其中,分类一般有一级分类和二级分类,每个分类都有相应的行业的代码和名称一一对应。  POI包含的信息及其衍生信息主要包含三个部分:

CnOpenData 收录