dclm-baseline-1.0-parquet|预训练数据集数据集|自然语言处理数据集
收藏数据集概述
基本信息
- 名称: DCLM-baseline
- 语言: 英语
- 许可: CC-by-4.0
- 大小: 4T token / 3B document
数据集描述
DCLM-baseline 是一个用于预训练语言模型的大型数据集,包含4万亿个token和30亿个文档,旨在为语言模型基准测试提供强大的性能。
数据集来源
- 团队: DCLM Team
- 来源: Common Crawl
- 论文: DataComp-LM: In search of the next generation of training sets for language models
- 代码: GitHub
使用场景
- 直接使用: 作为DCLM基准测试的研究基线,展示数据筛选在训练高性能语言模型中的重要性。
- 非适用场景: 不适用于训练生产就绪模型或特定领域(如代码和数学)的模型。
数据集创建
- 创建目的: 展示DCLM测试床在开发高质量训练集方面的有效性,作为数据筛选策略的证明。
- 数据处理: 通过一系列清洗、过滤和去重步骤从原始Common Crawl数据(DCLM-Pool)中创建。
偏见、风险和限制
数据集可能包含Common Crawl数据中的偏见,且在代码和数学任务上的表现有限。仅适用于研究目的。
引用
bibtex @misc{li2024datacomplm, title={DataComp-LM: In search of the next generation of training sets for language models}, author={Jeffrey Li and others}, year={2024}, eprint={2406.11794}, archivePrefix={arXiv}, primaryClass={cs.LG} }

AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
VQA
我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。
OpenDataLab 收录
HIT-UAV
HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。
github 收录
YOLO-dataset
该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。
github 收录
UCI Wine
UCI Wine数据集包含了178个样本,每个样本有13个特征,用于分类任务。这些特征包括葡萄酒的化学成分,如酒精含量、苹果酸、灰分等。数据集的目标是将葡萄酒分类为三个不同的品种。
archive.ics.uci.edu 收录