Arrival of France's greatest ballerina, who is to dance with Ballet Russe De Monte Carlo, 1951|芭蕾舞数据集|历史事件数据集
收藏OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
LOL (LOw-Light dataset)
LOL 数据集由 500 个低光和正常光图像对组成,分为 485 个训练对和 15 个测试对。低光图像包含照片捕获过程中产生的噪声。大多数图像是室内场景。所有图像的分辨率均为 400×600。
OpenDataLab 收录
IWSLT/iwslt2017
IWSLT 2017数据集是一个多语言翻译数据集,涵盖了多种语言对,包括英语、阿拉伯语、德语、荷兰语、意大利语、罗马尼亚语、法语、日语、韩语和中文。数据集的主要任务是文本翻译,包括零样本翻译。数据集的结构包括训练集、验证集和测试集,每个语言对都有相应的数据实例和字段。数据集的创建过程、注释过程以及使用数据时的考虑因素等信息未在README中详细描述。
hugging_face 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
