kaist-ai/CoT-Collection|链式思考数据集|语言模型数据集
收藏数据集概述
数据集描述
- 名称: CoT Collection
- 目的: 旨在诱导语言模型具备Chain-of-Thought (CoT)能力。
- 数据量: 1.84百万条CoT数据,覆盖1060个任务。
- 语言: 英语
- 版本: 提供多语言版本,链接为Multilingual-CoT-Collection。
支持的任务和分类
- 任务数量: 1060个任务,选自Flan Collection。
- 分类:
- 自然语言推理
- 抽取式问答
- 闭书问答
- 科学
- 毒性分类
- 算术
- 程序执行
- 对话
- 伦理
- 常识推理
- 多选题问答
数据集结构
-
数据字段:
- source: 语言模型的输入。
- target: 源输入的正确答案。
- rationale: 解释如何从源得到目标的CoT。
- task: 显示源和目标来自哪个数据集的类别。
-
训练格式:
{rationale} [RESULT] {target}
数据分割
名称 | 训练数据量 |
---|---|
CoT-Collection | 1837928 |
许可证
- 许可证: cc-by-4.0

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
UAV123
从低空无人机捕获的视频与流行的跟踪数据集 (如OTB50,OTB100,VOT2014,VOT2015,TC128和ALOV300) 中的视频本质上不同。因此,我们提出了一个新的数据集 (UAV123),其序列来自空中视点,其子集用于长期空中跟踪 (UAV20L)。我们新的UAV123数据集包含总共123个视频序列和超过110K帧,使其成为仅次于ALOV300的第二大对象跟踪数据集。所有序列都用直立的边界框完全注释。数据集可以很容易地与视觉跟踪器基准集成。它包括无人机数据集的所有边界框和属性注释。还请使用包含序列和跟踪器配置的修改后的文件 “configSeqs.m” 和 “configTrackers.m” 下载修改后的跟踪器基准。另外,请注意,文件 “perfPlot.m” 已根据本文中描述的属性进行了修改以进行评估。
OpenDataLab 收录
BTCV
BTCV(Beyond the Cranial Vault)数据集是一个用于医学图像分割的公开数据集,主要包含30个病例的CT扫描图像,涵盖了13个不同的器官和组织。该数据集旨在促进医学图像分割算法的发展和评估。
www.synapse.org 收录