AHAR-I|水下活动识别数据集|毫米波雷达数据集
收藏数据集概述
AHAR-I 数据集
设备与配置:
- 使用 TI AWR1243BOOST 毫米波雷达。
- 雷达参数配置如下:
- 起始频率:77 GHz
- 频率斜率:46.397 MHz/μs
- 空闲时间:30 μs
- 斜坡结束时间:80 μs
- 采样率:6847 ksps
- 帧周期:100 ms
- ADC 点数每 Chirp:256
- Chirp 循环数:128
- 有效方位视场:-60°~60°
数据收集:
- 收集了九类水下人类活动数据,包括挣扎、溺水、带环漂浮、带环游泳、拉环、仰泳、蛙泳、自由泳和求助挥手。
- 数据文件数量和总持续时间如下:
- 挣扎:32个文件,600秒
- 溺水:40个文件,799秒
- 带环漂浮:30个文件,600秒
- 带环游泳:30个文件,501秒
- 拉环:13个文件,516秒
- 仰泳:20个文件,655秒
- 蛙泳:18个文件,639秒
- 自由泳:18个文件,635秒
- 求助挥手:30个文件,600秒
下载链接:
- 链接:https://pan.baidu.com/s/1r1EoYE4SxeX-yP5mz0Co-A
- 密码:2l34
AHAR-II 数据集
新增活动:
- 在 AHAR-I 基础上增加了“嬉戏”活动。
环境与用户变量:
- 研究了不同背景环境(深水、浅水)、不同用户(用户1、用户2)和不同视角(径向和非径向)对水下人类活动识别的影响。
- 将雷达数据分为六个不同的变量域,每个域对应不同的活动和环境设置。
数据收集:
- 对于不同的活动和变量域,收集了300连续帧(30秒)的数据文件。
- 具体数据文件数量如下表所示:
变量域 活动1 活动2 活动3 活动4 活动5 活动6 活动7 活动8 活动9 活动10 总计 D1 10 10 10 11 11 12 13 13 10 10 110 D2 12 11 11 10 12 10 10 11 10 11 108 D3 7 6 8 8 8 6 8 8 11 7 77 D4 7 6 8 8 8 6 7 8 10 7 75 D5 7 7 8 8 8 7 10 8 6 6 75 D6 7 7 9 8 7 7 7 8 7 7 74
下载链接:
- 链接:https://pan.baidu.com/s/15lGhAptfPDBbK4AutnyZ_w
- 密码:zju1
数据集应用
- 提供了一个两阶段融合网络(TSFNet),该网络已在国际计算机会议 ICARCV 2022 上发表,用于水下人类活动识别。
- 还提供了部分双人水下人类活动识别数据集和单人连续不同水下人类活动流数据集,用于测试算法性能。

UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
SPIQA
SPIQA数据集由谷歌研究院和约翰斯·霍普金斯大学共同创建,是首个针对科学研究论文中复杂图表和表格进行多模态问答的大规模数据集。该数据集包含270,194个问题,涉及计算机科学多个领域的研究论文。数据集的创建过程结合了自动和手动筛选,确保了数据的质量和多样性。SPIQA数据集主要用于评估多模态大型语言模型在理解科学论文中的图表和表格方面的能力,旨在提高信息检索和问答系统的性能。
arXiv 收录
ActivityNet Captions
The ActivityNet Captions dataset is built on ActivityNet v1.3 which includes 20k YouTube untrimmed videos with 100k caption annotations. The videos are 120 seconds long on average. Most of the videos contain over 3 annotated events with corresponding start/end time and human-written sentences, which contain 13.5 words on average. The number of videos in train/validation/test split is 10024/4926/5044, respectively.
Papers with Code 收录
RETQA
RETQA是由北京师范大学创建的第一个大规模开放领域中文表格问答数据集,专门针对房地产领域。该数据集包含4932个表格和20762个问答对,涵盖16个子领域,涉及房产信息、房地产公司财务信息和土地拍卖信息。数据集通过从中国八个主要城市的公开数据源收集并清洗整理,每个表格都配有摘要标题以辅助检索。RETQA的创建过程包括表格收集、问答对生成、意图和槽标签注释以及查询重写和质量控制。该数据集主要用于解决房地产领域的开放域和长表格问答问题,推动表格问答技术的发展。
arXiv 收录
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录