Awesome-LLMs-Datasets|大型语言模型数据集|NLP数据集数据集
收藏数据集概述
数据集名称
- Awesome-LLMs-Datasets
数据集目的
- 总结现有代表性的大型语言模型(LLMs)文本数据集,涵盖五个维度:预训练语料库、微调指令数据集、偏好数据集、评估数据集和传统NLP数据集。
- 新增数据集部分:多模态大型语言模型(MLLMs)数据集、检索增强生成(RAG)数据集。
数据集内容
- 预训练语料库:用于LLMs预训练的大型文本数据集,包括通用和特定领域的语料库。
- 微调指令数据集:用于指导LLMs进行特定任务微调的数据集。
- 偏好数据集:用于评估LLMs输出偏好的数据集。
- 评估数据集:用于评估LLMs性能的数据集,包括多种评估方法和领域。
- 传统NLP数据集:涵盖多种NLP任务的传统数据集。
- 多模态大型语言模型(MLLMs)数据集:结合文本与其他模态信息的数据集。
- 检索增强生成(RAG)数据集:用于增强LLMs检索能力的数据集。
数据集更新
- 定期更新现有数据集信息。
- 逐步更新新增数据集部分。
数据集详细信息
- 数据集信息模块:包括数据集名称、发布者、发布时间、大小、公开状态、许可证、语言、构建方法、类别、来源、领域等详细信息。
数据集版本更新
- 记录了自2024年1月以来的多次数据集更新,包括新增和修订的数据集信息。
数据集结构
- 数据集按类别和子类别组织,便于查找和引用。
数据集使用
- 数据集信息将以CSV格式发布,便于数据分析和处理。
数据集相关文献
- 相关文献《Datasets for Large Language Models: A Comprehensive Survey》提供了对LLMs数据集的全面调查和分析。
数据集详细信息模块
数据集信息格式
- Corpus/Dataset name
- Publisher
- Release Time
- Size
- Public or Not
- License
- Language
- Construction Method
- Category
- Source
- Domain
数据集示例
-
CC-Stories
- 发布时间:2018-6
- 公开状态:Not
- 语言:EN
- 构建方法:CI
- 来源:Common Crawl
-
CC100
- 发布时间:2020-7
- 公开状态:All
- 语言:Multi (100)
- 构建方法:CI
- 来源:Common Crawl
-
CLUECorpus2020
- 发布时间:2020-3
- 公开状态:All
- 语言:ZH
- 构建方法:CI
- 来源:Common Crawl
-
Common Crawl
- 发布时间:2007-X
- 公开状态:All
- 语言:Multi
- 构建方法:HG
- 来源:Web crawler data
-
CulturaX
- 发布时间:2023-9
- 公开状态:All
- 语言:Multi (167)
- 构建方法:CI
- 来源:mC4, OSCAR
-
C4
- 发布时间:2019-10
- 公开状态:All
- 语言:EN
- 构建方法:CI
- 来源:Common Crawl
-
mC4
- 发布时间:2021-6
- 公开状态:All
- 语言:Multi (108)
- 构建方法:CI
- 来源:Common Crawl
-
OSCAR 22.01
- 发布时间:2022-1
- 公开状态:All
- 语言:Multi (151)
- 构建方法:CI
- 来源:Common Crawl
-
RealNews
- 发布时间:2019-5
- 公开状态:All
- 语言:EN
- 构建方法:CI
- 来源:Common Crawl
-
RedPajama-V2
- 发布时间:2023-10
- 公开状态:All
- 语言:Multi (5)
- 构建方法:CI
- 来源:Common Crawl, C4, etc.
-
RefinedWeb
- 发布时间:2023-6
- 公开状态:Partial
- 语言:EN
- 构建方法:CI
- 来源:Common Crawl
-
WuDaoCorpora-Text
- 发布时间:2021-6
- 公开状态:Partial
- 语言:ZH
- 构建方法:HG
- 来源:Chinese webpages
-
WanJuan-CC
- 发布时间:2024-2
- 公开状态:Partial
- 语言:EN
- 构建方法:HG
- 来源:Common Crawl
-
MADLAD-400
- 发布时间:2023-9
- 公开状态:All
- 语言:Multi (419)
- 构建方法:HG
- 来源:Common Crawl
-
FineWeb
- 发布时间:2024-4
- 公开状态:All
- 语言:EN
- 构建方法:CI
- 来源:Common Crawl
-
CCI 2.0
- 发布时间:2024-4
- 公开状态:All
- 语言:ZH
- 构建方法:HG
- 来源:Common Crawl

中国食物成分数据库
食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。
国家人口健康科学数据中心 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录