togethercomputer/RedPajama-Data-1T-Sample|自然语言处理数据集|开源数据集数据集
收藏数据集概述
数据集名称
RedPajama
数据集摘要
RedPajama是一个遵循LLaMa论文的完全开源实现的数据集。本仓库包含RedPajama数据集的一个1亿token样本。完整数据集包含以下token计数,并可从此处下载:
数据集 | Token计数 |
---|---|
Commoncrawl | 8780亿 |
C4 | 1750亿 |
GitHub | 590亿 |
Books | 260亿 |
ArXiv | 280亿 |
Wikipedia | 240亿 |
StackExchange | 200亿 |
总计 | 1.2万亿 |
语言
主要为英语,但Wikipedia部分包含多种语言。
数据集结构
数据集结构如下: json { "text": ..., "meta": {"url": "...", "timestamp": "...", "source": "...", "language": "...", ...} }
数据集创建
数据集的创建旨在尽可能遵循LLaMa论文,以尝试重现其配方。
源数据
- Commoncrawl: 下载五个Commoncrawl转储,并通过官方
cc_net
管道运行。在段落级别进行去重,并使用线性分类器过滤低质量文本。 - C4: 从Huggingface下载,唯一的预处理步骤是将数据转换为我们的格式。
- GitHub: 从Google BigQuery下载原始数据,在文件级别去重,并仅保留MIT、BSD或Apache许可下的项目。
- Wikipedia: 使用基于2023-03-20 Wikipedia转储的Huggingface数据集,包含20种不同语言的文本。
- Gutenberg和Books3: 下载PG19子集,使用simhash去除近似重复。
- ArXiv: 从Amazon S3的
arxiv
请求者付费桶下载,仅保留latex源文件。 - Stackexchange: 从Internet Archive下载,仅保留来自28个最大站点的帖子,并将其分组为问题-答案对。

Data_on_Data_Analysts
我们正在探索数据分析师职位的就业市场趋势:需求技能、薪资变化和招聘模式。该数据集汇编了美国数据分析师职位的招聘信息,直接来源于Google的职位搜索结果。数据收集始于2022年11月4日,并持续增长,每天新增约100个职位信息,提供了当前就业市场的持续更新快照。
github 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
flames-and-smoke-datasets
该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。
github 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录