five

diarizers-community/ami

收藏
Hugging Face2024-04-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/diarizers-community/ami
下载链接
链接失效反馈
官方服务:
资源简介:
AMI会议语料库包含100小时的会议录音,录音使用多种信号同步到共同的时间线,包括近距离和远场麦克风、个人和房间视角的摄像机、幻灯片投影仪和电子白板的输出。会议期间,参与者还可以使用不同步的笔记录书写内容。会议在三个不同声学特性的房间中录制,主要使用非母语英语者。该数据集已使用diarizers库进行预处理,使其兼容diarizers库以微调pyannote分割模型。

AMI会议语料库包含100小时的会议录音,录音使用多种信号同步到共同的时间线,包括近距离和远场麦克风、个人和房间视角的摄像机、幻灯片投影仪和电子白板的输出。会议期间,参与者还可以使用不同步的笔记录书写内容。会议在三个不同声学特性的房间中录制,主要使用非母语英语者。该数据集已使用diarizers库进行预处理,使其兼容diarizers库以微调pyannote分割模型。
提供机构:
diarizers-community
原始信息汇总

数据集概述

数据集配置

  • ihm

    • 特征
      • audio: 采样率 16000
      • timestamps_start: 序列类型 float64
      • timestamps_end: 序列类型 float64
      • speakers: 序列类型 string
    • 分割
      • train: 字节数 9326329826, 样本数 136
      • validation: 字节数 1113896048, 样本数 18
      • test: 字节数 1044169059, 样本数 16
    • 下载大小: 10267627474
    • 数据集大小: 11484394933
  • sdm

    • 特征
      • audio: 采样率 16000
      • timestamps_start: 序列类型 float64
      • timestamps_end: 序列类型 float64
      • speakers: 序列类型 string
    • 分割
      • train: 字节数 9208897240, 样本数 134
      • validation: 字节数 1113930821, 样本数 18
      • test: 字节数 1044187355, 样本数 16
    • 下载大小: 10679615636
    • 数据集大小: 11367015416

数据文件路径

  • ihm

    • train: ihm/train-*
    • validation: ihm/validation-*
    • test: ihm/test-*
  • sdm

    • train: sdm/train-*
    • validation: sdm/validation-*
    • test: sdm/test-*

许可证

  • cc-by-4.0

语言

  • en

标签

  • speaker-diarization
  • voice-activity-detection
  • speaker-segmentation
搜集汇总
数据集介绍
main_image_url
构建方式
AMI数据集的构建涉及对100小时会议录音的预处理,这些录音包含了多种同步信号,如近讲和远场麦克风、个体和房间视角摄像头、幻灯片投影仪和电子白板输出。录音在三个具有不同声学特性的房间内进行,参与者在会议中还可使用记录所写内容的非同步笔。数据集经过[diarizers](https://github.com/huggingface/diarizers/tree/main/datasets)预处理,使其与`diarizers`库兼容,以便对[pyannote](https://huggingface.co/pyannote/segmentation-3.0)分割模型进行微调。
特点
AMI数据集的特点在于其包含了丰富的会议场景,涵盖了多种语言环境,特别是非母语英语使用者的交流。数据集分为训练集、验证集和测试集,每个集合都包含了音频数据、时间戳、结束时间戳和说话人信息,为语音活动检测、说话人分割和说话人识别等任务提供了详实的数据支持。
使用方法
使用AMI数据集时,用户可以通过`datasets`库加载该数据集,例如使用`load_dataset("diarizers-community/ami", "ihm")`即可加载ihm配置的数据集。加载后,用户将得到包含音频、时间戳、结束时间戳和说话人信息的数据集,可以直接用于训练或评估相关模型。
背景与挑战
背景概述
AMI会议语料库是语音识别与处理领域的重要资源,创建于2005年,由爱丁堡大学等多个机构的研究人员共同开发。该数据集包含100小时的会议录音,采用多种信号同步至公共时间轴,涵盖近距离和远场麦克风、个人和房间视角摄像头、幻灯片投影仪及电子白板输出信号。其参与者主要为非英语母语者,在不同的声学特性的房间中进行录制。AMI数据集在语音识别、说话人分割与追踪等研究领域具有广泛的影响力,为相关算法的优化提供了丰富的实验素材。
当前挑战
AMI数据集在构建和应用过程中面临诸多挑战。首先,多信号同步处理及声学环境的多样性增加了数据预处理和标注的复杂性。其次,数据集包含非母语英语说话人,这为说话人识别和分割带来额外的困难。此外,数据集规模和多样性虽为算法训练提供了优势,但同时也对计算资源提出了较高要求。在研究领域问题解决上,说话人分割与追踪的准确性、实时性以及鲁棒性是当前面临的主要挑战。
常用场景
经典使用场景
在语音信号处理领域,AMI数据集以其全面的会议录音和丰富的标注信息,成为研究者和工程师进行说话人分割与识别任务的重要资源。该数据集支持研究者准确标记音频中的说话人起始和结束时间戳,进而实现高效的说话人跟踪。
衍生相关工作
AMI数据集的广泛应用催生了众多相关研究工作,如基于该数据集的说话人分割模型 fine-tuning、跨语种的说话人识别算法研究等,为语音信号处理领域的发展贡献了丰富的理论成果和技术进展。
数据集最近研究
最新研究方向
在语音识别与处理领域,近期研究者们针对AMI数据集的探索主要聚焦于说话人分割与识别技术。AMI数据集因其包含多种会议环境下的音频记录,对于训练模型以处理现实世界中的复杂音频场景具有极高的价值。当前研究不仅涉及利用该数据集对pyannote等模型进行微调,以提升说话人分割的准确性,还包括基于深度学习技术的说话人识别和语音活动检测算法的优化。这些研究对于推动远程会议系统的智能化、提高会议记录与分析的自动化水平具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作