five

BIRB|生物声学数据集|机器学习数据集

收藏
arXiv2023-12-13 更新2024-06-21 收录
生物声学
机器学习
下载链接:
https://github.com/google-research/perch
下载链接
链接失效反馈
资源简介:
BIRB是一个专注于生物声学信息检索的综合基准数据集,由康奈尔大学鸟类学实验室创建。该数据集包含超过10,000种鸟类的录音,这些录音来自全球几乎所有栖息地,环境多样,背景声音条件复杂。BIRB数据集的创建旨在通过机器学习模型研究模型泛化能力,特别是在分布转移和新的类别泛化方面的能力。数据集的应用领域包括生物多样性监测和环境保护,旨在解决模型在实际环境中的可靠性和泛化问题。
提供机构:
康奈尔大学鸟类学实验室
创建时间:
2023-12-13
AI搜集汇总
数据集介绍
main_image_url
构建方式
BIRB数据集的构建基于多种公开可用的数据集,包括Xeno-Canto项目和来自特定生态监测计划的被动录音声景数据集。Xeno-Canto项目提供了超过10,000种鸟类的75万条录音,而声景数据集则包含数百小时的专家标注。数据集的构建涉及对物种分类法的差异进行调和,确保标签在各种输入格式中的一致性,并从文件级标签/注释中提取固定长度的片段。此外,声景数据集中的时间框注释被转换为固定长度的标签,以便进行评估。
特点
BIRB数据集的特点在于其复杂性和现实性。它模拟了真实世界中的各种挑战,包括分布偏移、小样本学习能力和对类别不平衡和标签偏移的鲁棒性。该数据集的构建旨在推动模型泛化研究,并支持在处理大量未标记音频野外数据方面的实践需求。BIRB数据集的基准任务是一个检索任务,其中模型首先使用上游数据集进行训练,然后在评估过程中使用少量标注的鸟鸣声(示例)来检索和排序给定语料库中所有实例(鸟鸣声)。
使用方法
使用BIRB数据集时,首先需要使用上游数据集(如Xeno-Canto)来训练或获得一个预训练的嵌入模型。然后,使用该模型对评估数据集中的查询物种和候选语料库进行嵌入。评估数据集由多个数据集和类别组成,包括人工稀有类别、来自不同录音设置的类别、未在上游数据集中出现的类别以及来自不同地理区域的额外声景数据集。评估任务包括使用少量示例检索鸟鸣声,并使用ROC-AUC指标评估检索结果的质量。
背景与挑战
背景概述
在机器学习领域,模型泛化能力是评估模型实用性的关键指标。BIRB数据集,即生物声学信息检索泛化基准,是由Google Research和康奈尔大学鸟类学实验室等研究人员合作创建的,旨在评估模型在面对不同训练和部署条件时的泛化能力。该数据集主要关注鸟类鸣叫声的检索,利用大型公民科学语料库中的焦点录音进行训练,并在被动录制的数据集中检索鸟类鸣叫声。BIRB数据集的创建填补了生物声学领域泛化研究的空白,为推动机器学习模型在现实世界条件下的鲁棒性和泛化能力提供了重要的数据基础。
当前挑战
BIRB数据集面临着诸多挑战。首先,该数据集需要解决领域问题,即从焦点录音训练模型后,在被动录音数据集中检索鸟类鸣叫声。其次,在构建过程中,BIRB数据集也面临着挑战,包括解决分布偏移问题,例如训练数据和测试数据之间的标签偏移和协变量偏移,以及小样本学习能力,即在仅有少量实例的情况下对新型鸟类鸣叫声进行检索。此外,BIRB数据集还面临着类别不平衡和标签偏移的挑战,以及处理大规模、高质量、区域性的声景数据集的挑战。
常用场景
经典使用场景
BIRB 数据集旨在评估信息检索在生物声学中的泛化能力,特别是在鸟类鸣叫声的检索方面。该数据集为研究人员提供了一个平台,以测试他们的模型在不同条件下的泛化能力,例如在存在分布偏移或对新类别的泛化。BIRB 数据集的一个经典使用场景是训练一个模型,使其能够从被动记录的数据集中检索鸟类的鸣叫声,这些数据集由大型公民科学语料库提供,用于训练。这涉及使用表示学习技术将鸟类的鸣叫声嵌入到一个高维空间中,并使用最近邻搜索来检索与查询鸣叫声最相似的其他鸣叫声。
实际应用
BIRB 数据集的实际应用场景包括保护濒危动物、早期检测入侵物种、测量广泛的生物多样性和监测政策和干预措施的影响。生物声学为自然世界提供了一个极其丰富的画面,但由于重叠的鸣叫声、物种内变异、背景噪声和稀缺的训练数据等因素,其研究具有挑战性。BIRB 数据集为研究人员提供了一个平台,以开发能够解决这些挑战的模型,并推动生物声学领域的应用。例如,研究人员可以使用 BIRB 数据集来训练一个模型,以识别特定地区的新物种或监测特定物种的鸣叫行为。这些应用对于环境保护和生物多样性研究具有重要意义。
衍生相关工作
BIRB 数据集衍生了与信息检索、域适应和少样本学习相关的一系列经典工作。例如,研究人员可以使用 BIRB 数据集来开发新的表示学习方法,以改进模型对鸟类鸣叫声的检索性能。此外,BIRB 数据集还可以用于评估域适应方法的有效性,以帮助模型适应不同的声学环境。最后,BIRB 数据集还可以用于研究少样本学习方法,以帮助模型从少量实例中学习新物种的鸣叫声。这些衍生工作有助于推动机器学习模型在生物声学领域的应用,并为环境保护和生物多样性研究做出贡献。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录

SPIQA

SPIQA数据集由谷歌研究院和约翰斯·霍普金斯大学共同创建,是首个针对科学研究论文中复杂图表和表格进行多模态问答的大规模数据集。该数据集包含270,194个问题,涉及计算机科学多个领域的研究论文。数据集的创建过程结合了自动和手动筛选,确保了数据的质量和多样性。SPIQA数据集主要用于评估多模态大型语言模型在理解科学论文中的图表和表格方面的能力,旨在提高信息检索和问答系统的性能。

arXiv 收录

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

海天瑞声-超大规模中文多领域高质量多轮对话语料库

这是一个符合中国人表达习惯的自然对话数据集,共计约1,0000,000轮,上亿级token,包含正式&非正式风格对话,使用偏口语化自然表达。覆盖工作、生活、校园等场景,及金融、教育、娱乐、体育、汽车、科技等领域。在数据集构成上,DOTS-NLP-216包含了对真实场景的对话采集,及高度还原真实场景的模拟对话这两种方式,兼顾分布的代表性、多样性和样本规模。

魔搭社区 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录