imageomics/KABR|动物行为识别数据集|无人机视频分析数据集
收藏数据集卡片:KABR - 肯尼亚动物行为识别无人机视频现场数据集
数据集描述
数据集概述
我们提供了一个用于动物行为识别的高质量无人机视频数据集。该数据集专注于肯尼亚野生动物,包含长颈鹿、平原斑马和格雷维斑马的行为。数据集包含超过10小时的标注视频,包括八个不同的类别,涵盖七种动物行为和一个遮挡实例的额外类别。在标注过程中,一个由10人组成的团队参与其中,由一位专家动物学家监督。每种行为根据其独特特征进行标记,使用一套标准化标准以确保标注的一致性和准确性。数据集使用无人机在肯尼亚的Mpala研究中心上空飞行收集,提供动物自然行为的高质量视频。无人机视频以5472 x 3078像素的分辨率捕获,视频帧率为29.97帧每秒。
支持的任务和排行榜
我们使用I3D、SlowFast和X3D架构评估的结果如下表所示。每个模型都训练了120个周期,批量大小为5。更多信息请参见我们的[论文](coming soon)。
方法 | 全部 | 长颈鹿 | 平原斑马 | 格雷维斑马 |
---|---|---|---|---|
I3D (16x5) | 53.41 | 61.82 | 58.75 | 46.73 |
SlowFast (16x5, 4x5) | 52.92 | 61.15 | 60.60 | 47.42 |
X3D (16x5) | 61.9 | 65.1 | 63.11 | 51.16 |
语言
英语
数据集结构
在KABR/dataset/image/
下,数据已被归档到.zip
文件中,分为2GB的文件。这些文件必须重新组合并提取。克隆并导航到仓库后,可以使用以下命令进行重建:
bash
cd KABR/dataset/image/
cat giraffes_part_* > giraffes.zip
md5sum giraffes.zip # 与 cat giraffes_md5.txt
显示的内容进行比较
unzip giraffes.zip
rm -rf giraffes_part_*
类似地处理 zebras_grevys_part_*
和 zebras_plains_part_*
或者,有一个下载脚本download.py
,允许下载整个数据集而不需要克隆仓库(克隆需要至少双倍数据集大小来存储)。下载download.py
到要访问数据的系统,然后在脚本所在目录运行以下命令开始下载:
bash pip install requests python download.py
该脚本下载仓库中的所有文件(不包括.git
目录等),将部分文件连接到ZIP存档,验证MD5校验和,提取并清理,以便下面的文件夹结构存在。
注意,完成此过程需要大约116GB的可用空间,但最终数据集只会占用大约61GB的磁盘空间(脚本在检查下载成功后删除额外文件)。
KABR数据集遵循Charades格式:
KABR /dataset /image /video_1 /image_1.jpg /image_2.jpg ... /image_n.jpg /video_2 /image_1.jpg /image_2.jpg ... /image_n.jpg ... /video_n /image_1.jpg /image_2.jpg /image_3.jpg ... /image_n.jpg /annotation /classes.json /train.csv /val.csv
数据集可以直接由SlowFast框架加载和处理。
信息文件
KABR/configs
:SlowFast框架配置示例。KABR/annotation/distribution.xlsx
:所有视频的类别分布。
脚本
image2video.py
:将图像序列编码为原始视频。- 例如,
[image/G0067.1, image/G0067.2, ..., image/G0067.24]
将被编码为video/G0067.mp4
。
- 例如,
image2visual.py
:将图像序列编码为带有相应标注的原始视频。- 例如,
[image/G0067.1, image/G0067.2, ..., image/G0067.24]
将被编码为visual/G0067.mp4
。
- 例如,
数据实例
命名:在图像文件夹中,video_n
文件夹命名如下(X表示数字):
- G0XXX.X - 长颈鹿
- ZP0XXX.X - 平原斑马
- ZG0XXX.X - 格雷维斑马
- 每个文件夹中的图像简单命名为
X.jpg
。
注意:数据集包含总共1,139,893帧无人机视频。其中有488,638帧格雷维斑马,492,507帧平原斑马,158,748帧长颈鹿。
数据字段
数据集中有14,764个独特的行为序列。这些包括八种不同的行为:
- 行走
- 小跑
- 奔跑:动物以快步或疾驰移动
- 吃草:动物正在吃草或其他植物
- 吃树:动物正在吃树木或灌木
- 抬头:动物正在四处观察或观察周围环境
- 自我梳理:动物正在自我梳理(舔、抓或摩擦)
- 遮挡:动物不完全可见
数据分割
训练和验证集由各自的CSV文件(train.csv
和val.csv
)指示,位于annotation
文件夹中。
数据集创建
策划理由
我们提供了一个用于动物行为识别的高质量无人机视频数据集。该数据集专注于肯尼亚野生动物,包含长颈鹿、平原斑马和格雷维斑马的行为。数据集包含超过10小时的标注视频,包括八个不同的类别,涵盖七种动物行为和一个遮挡实例的额外类别。在标注过程中,一个由10人组成的团队参与其中,由一位专家动物学家监督。每种行为根据其独特特征进行标记,使用一套标准化标准以确保标注的一致性和准确性。数据集使用无人机在肯尼亚的Mpala研究中心上空飞行收集,提供动物自然行为的高质量视频。我们相信这个数据集将为从事动物行为识别的研究人员提供宝贵的资源,因为它提供了一个多样化和高质量的标注视频集,可用于评估深度学习模型。此外,该数据集可用于研究肯尼亚动物的行为模式,并有助于指导保护工作和野生动物管理策略。
源数据
初始数据收集和规范化
数据从2023年1月6日至2023年1月21日在肯尼亚的Mpala研究中心收集,使用DJI Mavic 2S无人机配备摄像头记录5.4K分辨率视频(5472 x 3078像素),从10到50米的不同高度和距离记录动物(距离由情况和安全规定决定)。
从这些视频中提取小场景以减少无人机移动的影响并促进人工标注。使用YOLOv8在帧中检测动物,然后应用SORT跟踪算法跟踪其移动。然后提取一个400 x 300像素的窗口,中心位于动物上;这是小场景。
标注
标注过程
在标注过程中,一个由10人组成的团队参与其中,由一位专家动物学家监督。每种行为根据其独特特征进行标记,使用一套标准化标准以确保标注的一致性和准确性。
个人和敏感信息
尽管数据中包含濒危物种,但未提供确切位置,并且它们的安全由其位于保护区内的位置保证。
使用数据的考虑
其他已知限制
此数据表现出长尾分布,这是由于观察到的行为自然频率变化。
附加信息
作者
- Maksim Kholiavchenko (Rensselaer Polytechnic Institute) - ORCID: 0000-0001-6757-1957
- Jenna Kline (The Ohio State University)
- Michelle Ramirez (The Ohio State University)
- Sam Stevens (The Ohio State University)
- Alec Sheets (The Ohio State University) - ORCID: 0000-0002-3737-1484
- Reshma Ramesh Babu (The Ohio State University) - ORCID: 0000-0002-2517-5347
- Namrata Banerji (The Ohio State University) - ORCID: 0000-0001-6813-0010
- Elizabeth Campolongo (Imageomics Institute, The Ohio State University) - ORCID: 0000-0003-0846-2413
- Matthew Thompson (Imageomics Institute, The Ohio State University) - ORCID: 0000-0003-0583-8585
- Nina Van Tiel (Eidgenössische Technische Hochschule Zürich) - ORCID: 0000-0001-6393-5629
- Jackson Miliko (Mpala Research Centre)
- Eduardo Bessa (Universidade de Brasília) - ORCID: 0000-0003-0606-5860
- Tanya Berger-Wolf (The Ohio State University) - ORCID: 0000-0001-7610-1412
- Daniel Rubenstein (Princeton University) - ORCID: 0000-0001-9049-5219
- Charles Stewart (Rensselaer Polytechnic Institute)
许可信息
该数据集致力于公共领域,以促进科学研究。如果您在研究中使用它,请引用数据集和期刊论文。
引用信息
数据集
@misc{KABR_Data, author = {Kholiavchenko, Maksim and Kline, Jenna and Ramirez, Michelle and Stevens, Sam and Sheets, Alec and Babu, Reshma and Banerji, Namrata and Campolongo, Elizabeth and Thompson, Matthew and Van Tiel, Nina and Miliko, Jackson and Bessa, Eduardo and Duporge, Isla and Berger-Wolf, Tanya and Rubenstein, Daniel and Stewart, Charles}, title = {KABR: In-Situ Dataset for Kenyan Animal Behavior Recognition from Drone Videos}, year = {2023}, url = {https://huggingface.co/datasets/imageomics/KABR}, doi = {10.57967/hf/1010}, publisher = {Hugging Face} }
论文
@inproceedings{kholiavchenko2024kabr, title={KABR: In-Situ Dataset for Kenyan Animal Behavior Recognition from Drone Videos}, author={Kholiavchenko, Maksim and Kline, Jenna and Ramirez, Michelle and Stevens, Sam and Sheets, Alec and Babu, Reshma and Banerji, Namrata and Campolongo, Elizabeth and Thompson, Matthew and Van Tiel, Nina and Miliko, Jackson and Bessa, Eduardo and Duporge, Isla and Berger-Wolf, Tanya and Rubenstein, Daniel and Stewart, Charles}, booktitle={Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision}, pages={31-40}, year={2024} }
贡献
Imageomics Institute由美国国家科学基金会的Harnessing the Data Revolution (HDR)计划资助,Award #2118240(Imageomics:由知识引导的机器学习驱动的新生物信息前沿)。本材料中的任何观点、发现、结论或建议均为作者的观点,不一定反映国家科学基金会的观点。

CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
中国高分辨率高质量PM2.5数据集(2000-2023)
ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。
国家青藏高原科学数据中心 收录
UIEB, U45, LSUI
本仓库提供了水下图像增强方法和数据集的实现,包括UIEB、U45和LSUI等数据集,用于支持水下图像增强的研究和开发。
github 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录