five

Awesome-LLMs-Datasets|大型语言模型数据集|NLP数据集数据集

收藏
github2024-04-06 更新2024-05-31 收录
大型语言模型
NLP数据集
下载链接:
https://github.com/lmmlzn/Awesome-LLMs-Datasets
下载链接
链接失效反馈
资源简介:
该仓库总结了现有代表性的大型语言模型文本数据集,涵盖五个维度:预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集。此外,还新增了多模态大型语言模型数据集和检索增强生成数据集等部分。

This repository summarizes existing representative large language model text datasets, covering five dimensions: pre-training corpora, fine-tuning instruction datasets, preference datasets, evaluation datasets, and traditional NLP datasets. Additionally, it includes new sections on multimodal large language model datasets and retrieval-augmented generation datasets.
创建时间:
2024-01-17
原始信息汇总

数据集概述

数据集名称

  • Awesome-LLMs-Datasets

数据集目的

  • 总结现有代表性的大型语言模型(LLMs)文本数据集,涵盖五个维度:预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集。
  • 新增数据集部分:多模态大型语言模型(MLLMs)数据集、检索增强生成(RAG)数据集。

数据集内容

  • 预训练语料库:用于LLMs预训练的大型文本数据集,包括通用和特定领域的语料库。
  • 微调指令数据集:用于指导LLMs进行特定任务微调的数据集。
  • 偏好数据集:用于评估LLMs输出偏好的数据集。
  • 评估数据集:用于评估LLMs性能的数据集,包括多种评估方法和领域。
  • 传统NLP数据集:涵盖多种NLP任务的传统数据集。
  • 多模态大型语言模型(MLLMs)数据集:结合文本与其他模态信息的数据集。
  • 检索增强生成(RAG)数据集:用于增强LLMs检索能力的数据集。

数据集更新

  • 定期更新现有数据集信息。
  • 逐步更新新增数据集部分。

数据集详细信息

  • 数据集信息模块:包括数据集名称、发布者、发布时间、大小、公开状态、许可证、语言、构建方法、类别、来源、领域等详细信息。

数据集版本更新

  • 记录了自2024年1月以来的多次数据集更新,包括新增和修订的数据集信息。

数据集结构

  • 数据集按类别和子类别组织,便于查找和引用。

数据集使用

  • 数据集信息将以CSV格式发布,便于数据分析和处理。

数据集相关文献

  • 相关文献《Datasets for Large Language Models: A Comprehensive Survey》提供了对LLMs数据集的全面调查和分析。

数据集详细信息模块

数据集信息格式

  • Corpus/Dataset name
  • Publisher
  • Release Time
  • Size
  • Public or Not
  • License
  • Language
  • Construction Method
  • Category
  • Source
  • Domain

数据集示例

  • CC-Stories

    • 发布时间:2018-6
    • 公开状态:Not
    • 语言:EN
    • 构建方法:CI
    • 来源:Common Crawl
  • CC100

    • 发布时间:2020-7
    • 公开状态:All
    • 语言:Multi (100)
    • 构建方法:CI
    • 来源:Common Crawl
  • CLUECorpus2020

    • 发布时间:2020-3
    • 公开状态:All
    • 语言:ZH
    • 构建方法:CI
    • 来源:Common Crawl
  • Common Crawl

    • 发布时间:2007-X
    • 公开状态:All
    • 语言:Multi
    • 构建方法:HG
    • 来源:Web crawler data
  • CulturaX

    • 发布时间:2023-9
    • 公开状态:All
    • 语言:Multi (167)
    • 构建方法:CI
    • 来源:mC4, OSCAR
  • C4

    • 发布时间:2019-10
    • 公开状态:All
    • 语言:EN
    • 构建方法:CI
    • 来源:Common Crawl
  • mC4

    • 发布时间:2021-6
    • 公开状态:All
    • 语言:Multi (108)
    • 构建方法:CI
    • 来源:Common Crawl
  • OSCAR 22.01

    • 发布时间:2022-1
    • 公开状态:All
    • 语言:Multi (151)
    • 构建方法:CI
    • 来源:Common Crawl
  • RealNews

    • 发布时间:2019-5
    • 公开状态:All
    • 语言:EN
    • 构建方法:CI
    • 来源:Common Crawl
  • RedPajama-V2

    • 发布时间:2023-10
    • 公开状态:All
    • 语言:Multi (5)
    • 构建方法:CI
    • 来源:Common Crawl, C4, etc.
  • RefinedWeb

    • 发布时间:2023-6
    • 公开状态:Partial
    • 语言:EN
    • 构建方法:CI
    • 来源:Common Crawl
  • WuDaoCorpora-Text

    • 发布时间:2021-6
    • 公开状态:Partial
    • 语言:ZH
    • 构建方法:HG
    • 来源:Chinese webpages
  • WanJuan-CC

    • 发布时间:2024-2
    • 公开状态:Partial
    • 语言:EN
    • 构建方法:HG
    • 来源:Common Crawl
  • MADLAD-400

    • 发布时间:2023-9
    • 公开状态:All
    • 语言:Multi (419)
    • 构建方法:HG
    • 来源:Common Crawl
  • FineWeb

    • 发布时间:2024-4
    • 公开状态:All
    • 语言:EN
    • 构建方法:CI
    • 来源:Common Crawl
  • CCI 2.0

    • 发布时间:2024-4
    • 公开状态:All
    • 语言:ZH
    • 构建方法:HG
    • 来源:Common Crawl
AI搜集汇总
数据集介绍
main_image_url
构建方式
Awesome-LLMs-Datasets数据集的构建方式涵盖了五个主要维度:预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统自然语言处理数据集。这些数据集的构建方法包括人工生成(HG)、模型构建(MC)以及现有语料库的收集和改进(CI)。数据集的构建过程严格遵循科学分类和详细统计,确保数据的多样性和高质量。
特点
该数据集的特点在于其全面性和多样性,涵盖了从预训练到微调再到评估的整个生命周期。数据集不仅包括通用领域的文本,还涉及特定领域的专业知识,如金融、医学和数学等。此外,数据集支持多语言,包括英语、中文、阿拉伯语等多种语言,满足全球研究者的需求。
使用方法
使用Awesome-LLMs-Datasets数据集时,研究者可以根据需要选择不同类型的数据集进行预训练、微调或评估。数据集提供了详细的元数据信息,包括数据集名称、发布者、发布时间、大小、公开性、许可证、语言、构建方法等,便于用户快速定位和使用。此外,数据集还提供了CSV格式的数据信息,方便进行进一步的分析和处理。
背景与挑战
背景概述
Awesome-LLMs-Datasets数据集是由一支专注于大型语言模型(LLMs)数据集研究的团队于2024年1月创建的。该数据集的核心研究问题在于系统地总结和分类现有的LLMs文本数据集,涵盖预训练语料库、微调指令数据集、偏好数据集、评估数据集以及传统自然语言处理(NLP)数据集等多个维度。这一研究不仅填补了当前对LLMs数据集全面概览和深入分析的空白,还为相关领域的研究人员提供了宝贵的参考资源。通过整合和分类444个数据集,覆盖8种语言和32个领域,该数据集的总数据量超过774.5 TB,对推动LLMs的发展具有重要影响力。
当前挑战
Awesome-LLMs-Datasets数据集在构建过程中面临多项挑战。首先,数据集的多样性和规模庞大,导致数据整合和分类的复杂性增加。其次,不同数据集的构建方法和来源各异,如何确保数据质量和一致性是一个重要问题。此外,随着多模态大型语言模型(MLLMs)和检索增强生成(RAG)数据集的引入,数据集的更新和维护变得更加频繁和复杂。最后,如何有效地评估这些数据集在LLMs中的应用效果,以及如何解决数据集中的潜在偏见和伦理问题,也是当前研究中亟待解决的挑战。
常用场景
经典使用场景
在大型语言模型(LLMs)的开发过程中,Awesome-LLMs-Datasets数据集被广泛用于预训练、微调、偏好评估和传统自然语言处理任务。其经典使用场景包括构建预训练语料库,用于模型初始化;设计指令微调数据集,以增强模型在特定任务上的表现;以及创建评估数据集,用于衡量模型在不同任务上的性能。
解决学术问题
该数据集解决了大型语言模型在预训练和微调阶段缺乏多样化、高质量数据的问题。通过提供涵盖多个领域和语言的丰富数据,它有助于提升模型的泛化能力和任务适应性。此外,数据集的分类和详细统计信息为研究人员提供了深入分析和优化模型的基础,推动了LLMs领域的学术研究进展。
衍生相关工作
基于Awesome-LLMs-Datasets数据集,研究者们开发了多种衍生工作,如针对特定领域的微调模型、多语言模型的跨语言评估方法以及多模态数据集的扩展研究。这些工作不仅丰富了LLMs的研究内容,还推动了相关技术在实际应用中的落地,形成了从数据集到模型再到应用的完整研究链条。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录