legacy-datasets/ami

Name: legacy-datasets/ami
Creator: legacy-datasets
Published: 2024-01-18 11:01:45
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/legacy-datasets/ami

下载链接

链接失效反馈

官方服务：

资源简介：

AMI会议语料库包含100小时的会议录音，涵盖了多种信号类型，如麦克风、摄像机、投影仪和白板的输出。录音主要在三个不同声学特性的房间中进行，参与者多为非母语者。数据集支持自动语音识别和说话人分离任务。数据集的预处理部分提供了如何将长音频文件分割成适合模型处理的短音频段的示例代码。

The AMI Meeting Corpus contains 100 hours of meeting recordings, covering multiple signal modalities including outputs from microphones, cameras, projectors and whiteboards. The recordings were conducted in three rooms with distinct acoustic characteristics, and most participants were non-native speakers. This corpus supports automatic speech recognition (ASR) and speaker diarization tasks. The preprocessing section of the dataset provides sample code demonstrating how to split long audio files into short audio segments suitable for model processing.

提供机构：

legacy-datasets

原始信息汇总

数据集卡片 for AMI Corpus

数据集描述

数据集摘要

AMI Meeting Corpus 包含 100 小时的会议录音。录音使用多种信号同步到一个共同的时间线。这些包括近距离和远场麦克风、个人和房间视角摄像机，以及幻灯片投影仪和电子白板的输出。在会议期间，参与者还拥有不同步的笔，记录他们所写的内容。会议以英语录制，使用三个具有不同声学特性的房间，并且主要由非母语人士参与。

支持的任务和排行榜

automatic-speech-recognition：数据集可用于训练自动语音识别（ASR）模型。模型接收音频文件并被要求将其转录为书面文本。最常见的评估指标是词错误率（WER）。目前该任务没有活跃的排行榜。
speaker-diarization：数据集可用于训练说话人分割（SD）模型。模型接收音频文件并被要求预测哪个说话人在何时说话。

语言

音频为英语。

数据集结构

数据实例

一个典型的数据点包括音频文件的路径（或多文件，在多耳机或多麦克风数据集中），称为 file，以及其转录为单词列表，称为 words。还提供了有关 speakers、word_start_time、word_end_time、segment_start_time 和 segment_end_time 的额外信息。

json { "word_ids": ["ES2004a.D.words1", "ES2004a.D.words2", ...], "word_start_times": [0.3700000047683716, 0.949999988079071, ...], "word_end_times": [0.949999988079071, 1.5299999713897705, ...], "word_speakers": ["A", "A", ...], "segment_ids": ["ES2004a.sync.1", "ES2004a.sync.2", ...], "segment_start_times": [10.944000244140625, 17.618999481201172, ...], "segment_end_times": [17.618999481201172, 18.722000122070312, ...], "segment_speakers": ["A", "B", ...], "words": ["hmm", "hmm", ...], "channels": [0, 0, ...], "file": "/.cache/huggingface/datasets/downloads/af7e748544004557b35eef8b0522d4fb2c71e004b82ba8b7343913a15def465f", "audio": { "path": "/.cache/huggingface/datasets/downloads/af7e748544004557b35eef8b0522d4fb2c71e004b82ba8b7343913a15def465f", "array": [array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), "sampling_rate": 16000 } }

数据字段

word_ids：单词的ID列表
word_start_times：单词开始时间的列表，以秒为单位
word_end_times：单词结束时间的列表，以秒为单位
word_speakers：每个单词的说话人列表
segment_ids：段的ID列表
segment_start_times：段开始时间的列表
segment_end_times：段结束时间的列表
segment_speakers：每个段的说话人列表
words：所有说出的单词列表
channels：用于每个单词的通道列表
file：音频文件的路径
audio：包含下载的音频文件路径、解码的音频数组和采样率的字典

数据分割

数据集包含多个配置，每个配置都有训练/验证/测试分割：

headset-single：单个耳机的近距离音频。此配置仅包括当前说话人的耳机音频。
headset-multi（4通道）：四个独立耳机的近距离音频。此配置包括四个独立耳机的音频。每个注释有4个音频文件0, 1, 2, 3。
microphone-single：单个麦克风的远场音频。此配置仅包括麦克风阵列的第一个麦克风（即1-1）的音频。
microphone-multi（8通道）：麦克风阵列的远场音频。此配置包括第一个麦克风阵列的音频1-1, 1-2, ..., 1-8。

配置	训练	验证	测试
headset-single	136 (80h)	18 (9h)	16 (9h)
headset-multi (4 channels)	136 (320h)	18 (36h)	16 (36h)
microphone-single	136 (80h)	18 (9h)	16 (9h)
microphone-multi (8 channels)	136 (640h)	18 (72h)	16 (72h)