five

edinburghcstr/ami

收藏
Hugging Face2026-01-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/edinburghcstr/ami
下载链接
链接失效反馈
官方服务:
资源简介:
AMI会议语料库包含100小时的会议录音,使用了多种同步信号,如近距离和远距离麦克风、个人和房间视角的摄像机、幻灯片投影仪和电子白板的输出。会议期间,参与者还使用了未同步的笔记录书写内容。录音主要在三个不同声学特性的房间中进行,参与者多为非母语者。该数据集对应于KALDI的AMI S5配方的数据处理,文本已标准化,音频数据已分块。

The AMI Meeting Corpus contains 100 hours of meeting recordings, paired with multiple synchronized signals including close-talk and distant microphones, cameras with first-person and room-wide perspectives, as well as outputs from slide projectors and electronic whiteboards. During the meetings, participants also utilized unsynchronized pen-based note-taking devices. The recordings were primarily collected in three rooms with distinct acoustic characteristics, and most participants were non-native speakers. This dataset aligns with the data processing workflow of the KALDI AMI S5 recipe, where the textual data has been standardized and the audio data has been segmented.
提供机构:
edinburghcstr
原始信息汇总

数据集概述

数据集名称

  • AMI

语言

  • 英语 (en)

许可证

  • CC-BY-4.0

任务类别

  • 自动语音识别 (automatic-speech-recognition)

数据集描述

  • AMI Meeting Corpus 包含100小时的会议录音,使用多种信号同步到一个共同的时序线上,包括近场和远场麦克风、个人和房间视角摄像机等。会议主要使用英语,参与者多为非母语者。

数据集结构

  • 数据实例:包含会议ID、音频ID、文本、音频、开始时间、结束时间、麦克风ID、说话者ID等特征。
  • 数据分割:训练集、验证集和测试集,分别包含108502、13098和12643个实例。

数据集使用示例

  • 使用load_dataset函数加载数据集,并展示数据集结构和内容。

数据集性能

  • 通过微调Wav2Vec2-Large模型进行测试,结果显示在dev和eval集上的字错误率(WER)分别为25.27和25.21。

数据集来源

  • 数据处理基于KALDI的AMI S5 recipe。

贡献者

搜集汇总
数据集介绍
main_image_url
构建方式
AMI数据集的构建基于100小时的会议录音,这些录音通过多种信号源同步到一个共同的时间线上,包括近距离和远场的麦克风、个人和全景视频摄像头、幻灯片投影仪和电子白板。录音在英语环境中进行,使用了三个具有不同声学特性的房间,参与者多为非母语者。数据集的处理遵循KALDI的AMI S5脚本,文本被规范化,音频数据被分块处理,以简化用户的使用体验。
特点
AMI数据集的显著特点在于其多模态数据的同步性,涵盖了音频、视频和文本等多种信号源,为研究者提供了丰富的上下文信息。此外,数据集包含了不同声学环境下的录音,以及非母语者的语音数据,这为语音识别模型的泛化能力提供了挑战和机会。
使用方法
使用AMI数据集时,用户可以通过Hugging Face的datasets库加载数据,数据集已预先分块,便于直接用于模型训练。数据集包含多个字段,如会议ID、音频ID、文本、音频、开始和结束时间、麦克风ID和说话者ID等,用户可以根据需要选择合适的字段进行处理和分析。
背景与挑战
背景概述
AMI(Automatic Meeting Interpreter)数据集由爱丁堡大学CSTR实验室创建,包含100小时的会议录音,涵盖多种信号同步至同一时间轴,如近距离和远场麦克风、个人和全景摄像机等。该数据集主要用于自动语音识别(ASR)任务,旨在解决会议场景中的语音转录问题。AMI数据集的独特之处在于其多样的声学环境和非母语英语使用者,为研究者提供了丰富的实验数据。该数据集的创建对语音识别领域具有重要影响,尤其是在处理复杂声学环境和多语言背景的语音数据方面。
当前挑战
AMI数据集面临的挑战主要集中在声学环境的复杂性和非母语英语使用者的语音识别上。会议场景中的远场麦克风录音容易受到背景噪音和回声的干扰,增加了语音识别的难度。此外,数据集中包含大量非母语英语使用者的语音,这些语音在发音、语调和语速上存在显著差异,进一步提升了识别的复杂性。在数据构建过程中,如何有效地同步和处理多种信号源,以及确保数据的质量和一致性,也是一大挑战。
常用场景
经典使用场景
AMI数据集的经典使用场景主要集中在自动语音识别(ASR)领域。该数据集包含了100小时的会议录音,涵盖了多种信号源,如近距离和远距离麦克风、个人和全景视频摄像机等。这些丰富的音频和视频数据为研究人员提供了多模态的语音识别训练素材,特别适用于开发和测试多通道语音识别系统。
衍生相关工作
AMI数据集衍生的相关工作包括多篇关于多通道语音识别和远场语音识别的学术论文。例如,《Hybrid acoustic models for distant and multichannel large vocabulary speech recognition》探讨了如何在远场和多通道环境下构建高效的语音识别模型。此外,基于AMI数据集的实验还推动了Wav2Vec2等预训练语音模型的改进和应用。
数据集最近研究
最新研究方向
在自动语音识别(ASR)领域,AMI数据集因其丰富的多模态数据和复杂的会议场景而备受关注。最新研究方向主要集中在利用该数据集提升远场语音识别的准确性,尤其是在多通道和多麦克风环境下的表现。研究者们通过结合深度学习模型,如Wav2Vec2,探索如何有效处理非同步音频信号和多语言背景下的语音识别问题。此外,AMI数据集还被用于研究语音识别中的偏见和局限性,特别是在处理非母语发言者时,如何减少识别误差并提高系统的鲁棒性。这些研究不仅推动了ASR技术的前沿发展,也为实际应用中的语音交互系统提供了重要的理论支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作