Awesome-LLMs-Datasets|大型语言模型数据集|NLP数据集数据集
收藏数据集概述
数据集名称
- Awesome-LLMs-Datasets
数据集目的
- 总结现有代表性的大型语言模型(LLMs)文本数据集,涵盖五个维度:预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集。
- 新增数据集部分:多模态大型语言模型(MLLMs)数据集、检索增强生成(RAG)数据集。
数据集内容
- 预训练语料库:用于LLMs预训练的大型文本数据集,包括通用和特定领域的语料库。
- 微调指令数据集:用于指导LLMs进行特定任务微调的数据集。
- 偏好数据集:用于评估LLMs输出偏好的数据集。
- 评估数据集:用于评估LLMs性能的数据集,包括多种评估方法和领域。
- 传统NLP数据集:涵盖多种NLP任务的传统数据集。
- 多模态大型语言模型(MLLMs)数据集:结合文本与其他模态信息的数据集。
- 检索增强生成(RAG)数据集:用于增强LLMs检索能力的数据集。
数据集更新
- 定期更新现有数据集信息。
- 逐步更新新增数据集部分。
数据集详细信息
- 数据集信息模块:包括数据集名称、发布者、发布时间、大小、公开状态、许可证、语言、构建方法、类别、来源、领域等详细信息。
数据集版本更新
- 记录了自2024年1月以来的多次数据集更新,包括新增和修订的数据集信息。
数据集结构
- 数据集按类别和子类别组织,便于查找和引用。
数据集使用
- 数据集信息将以CSV格式发布,便于数据分析和处理。
数据集相关文献
- 相关文献《Datasets for Large Language Models: A Comprehensive Survey》提供了对LLMs数据集的全面调查和分析。
数据集详细信息模块
数据集信息格式
- Corpus/Dataset name
- Publisher
- Release Time
- Size
- Public or Not
- License
- Language
- Construction Method
- Category
- Source
- Domain
数据集示例
-
CC-Stories
- 发布时间:2018-6
- 公开状态:Not
- 语言:EN
- 构建方法:CI
- 来源:Common Crawl
-
CC100
- 发布时间:2020-7
- 公开状态:All
- 语言:Multi (100)
- 构建方法:CI
- 来源:Common Crawl
-
CLUECorpus2020
- 发布时间:2020-3
- 公开状态:All
- 语言:ZH
- 构建方法:CI
- 来源:Common Crawl
-
Common Crawl
- 发布时间:2007-X
- 公开状态:All
- 语言:Multi
- 构建方法:HG
- 来源:Web crawler data
-
CulturaX
- 发布时间:2023-9
- 公开状态:All
- 语言:Multi (167)
- 构建方法:CI
- 来源:mC4, OSCAR
-
C4
- 发布时间:2019-10
- 公开状态:All
- 语言:EN
- 构建方法:CI
- 来源:Common Crawl
-
mC4
- 发布时间:2021-6
- 公开状态:All
- 语言:Multi (108)
- 构建方法:CI
- 来源:Common Crawl
-
OSCAR 22.01
- 发布时间:2022-1
- 公开状态:All
- 语言:Multi (151)
- 构建方法:CI
- 来源:Common Crawl
-
RealNews
- 发布时间:2019-5
- 公开状态:All
- 语言:EN
- 构建方法:CI
- 来源:Common Crawl
-
RedPajama-V2
- 发布时间:2023-10
- 公开状态:All
- 语言:Multi (5)
- 构建方法:CI
- 来源:Common Crawl, C4, etc.
-
RefinedWeb
- 发布时间:2023-6
- 公开状态:Partial
- 语言:EN
- 构建方法:CI
- 来源:Common Crawl
-
WuDaoCorpora-Text
- 发布时间:2021-6
- 公开状态:Partial
- 语言:ZH
- 构建方法:HG
- 来源:Chinese webpages
-
WanJuan-CC
- 发布时间:2024-2
- 公开状态:Partial
- 语言:EN
- 构建方法:HG
- 来源:Common Crawl
-
MADLAD-400
- 发布时间:2023-9
- 公开状态:All
- 语言:Multi (419)
- 构建方法:HG
- 来源:Common Crawl
-
FineWeb
- 发布时间:2024-4
- 公开状态:All
- 语言:EN
- 构建方法:CI
- 来源:Common Crawl
-
CCI 2.0
- 发布时间:2024-4
- 公开状态:All
- 语言:ZH
- 构建方法:HG
- 来源:Common Crawl

URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
PlantVillage
在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。
OpenDataLab 收录
NIST Thermochemical Database
NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。
webbook.nist.gov 收录
全国兴趣点(POI)数据
POI(Point of Interest),即兴趣点,一个POI可以是餐厅、超市、景点、酒店、车站、停车场等。兴趣点通常包含四方面信息,分别为名称、类别、坐标、分类。其中,分类一般有一级分类和二级分类,每个分类都有相应的行业的代码和名称一一对应。 POI包含的信息及其衍生信息主要包含三个部分:
CnOpenData 收录
