Enterococcus faecium|微生物学数据集|细菌研究数据集
收藏LibriSpeech
LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库,由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物,并经过仔细分割和对齐。
OpenDataLab 收录
HotpotQA
HotpotQA 是收集在英语维基百科上的问答数据集,包含大约 113K 众包问题,这些问题的构建需要两篇维基百科文章的介绍段落才能回答。数据集中的每个问题都带有两个黄金段落,以及这些段落中的句子列表,众包工作人员认为这些句子是回答问题所必需的支持事实。 HotpotQA 提供了多种推理策略,包括涉及问题中缺失实体的问题、交叉问题(什么满足属性 A 和属性 B?)和比较问题,其中两个实体通过一个共同属性进行比较等。在少文档干扰设置中,QA 模型有 10 个段落,保证能找到黄金段落;在开放域全维基设置中,模型只给出问题和整个维基百科。模型根据其答案准确性和可解释性进行评估,其中前者被测量为具有完全匹配 (EM) 和 unigram F1 的预测答案和黄金答案之间的重叠,后者关注预测的支持事实句子与人类注释的匹配程度(Supporting Fact EM/F1)。该数据集还报告了一个联合指标,它鼓励系统同时在两项任务上表现良好。 来源:通过迭代查询生成回答复杂的开放域问题
OpenDataLab 收录
FLIR Dataset
该数据集主要提供三种类型的热成像图像:训练集包含8862张热成像图像,验证集包含1366张热成像图像,视频集包含4224张热成像图像。这些图像被用于训练YOLOv3检测器,并在验证集上报告了mAP。视频集用于跟踪检测到的对象。
github 收录
CKMImageNet
CKMImageNet是一个旨在推进AI驱动的环境感知无线通信和感知研究的综合数据集,由东南大学国家移动通信研究实验室提供。该数据集整合了位置特定的通道知识数据、高保真环境地图及其视觉表示。CKMImageNet支持多种AI驱动的方法进行通道知识图(CKM)构建,包含监督和非监督、判别和生成AI方法。数据集利用先进的射线追踪技术构建,确保了高保真度和环境准确性。它为AI模型学习环境感知传播模式提供了基础工具,可应用于6G系统的网络规划、资源分配等领域。
arXiv 收录
FLSea dataset
FLSea数据集是一个用于水下场景的单目深度估计的数据集。该数据集由11个场景组成,每个场景从240个视角渲染,共包含2131个数据。数据集包括RGB图像、增强图像和相应的深度监督信息。该数据集的构建旨在解决水下场景中单目深度估计方法存在的挑战,如成像质量不一致和遮挡问题。
arXiv 收录