legacy-datasets/ami
收藏数据集卡片 for AMI Corpus
数据集描述
数据集摘要
AMI Meeting Corpus 包含 100 小时的会议录音。录音使用多种信号同步到一个共同的时间线。这些包括近距离和远场麦克风、个人和房间视角摄像机,以及幻灯片投影仪和电子白板的输出。在会议期间,参与者还拥有不同步的笔,记录他们所写的内容。会议以英语录制,使用三个具有不同声学特性的房间,并且主要由非母语人士参与。
支持的任务和排行榜
-
automatic-speech-recognition:数据集可用于训练自动语音识别(ASR)模型。模型接收音频文件并被要求将其转录为书面文本。最常见的评估指标是词错误率(WER)。目前该任务没有活跃的排行榜。 -
speaker-diarization:数据集可用于训练说话人分割(SD)模型。模型接收音频文件并被要求预测哪个说话人在何时说话。
语言
音频为英语。
数据集结构
数据实例
一个典型的数据点包括音频文件的路径(或多文件,在多耳机或多麦克风数据集中),称为 file,以及其转录为单词列表,称为 words。还提供了有关 speakers、word_start_time、word_end_time、segment_start_time 和 segment_end_time 的额外信息。
json { "word_ids": ["ES2004a.D.words1", "ES2004a.D.words2", ...], "word_start_times": [0.3700000047683716, 0.949999988079071, ...], "word_end_times": [0.949999988079071, 1.5299999713897705, ...], "word_speakers": ["A", "A", ...], "segment_ids": ["ES2004a.sync.1", "ES2004a.sync.2", ...], "segment_start_times": [10.944000244140625, 17.618999481201172, ...], "segment_end_times": [17.618999481201172, 18.722000122070312, ...], "segment_speakers": ["A", "B", ...], "words": ["hmm", "hmm", ...], "channels": [0, 0, ...], "file": "/.cache/huggingface/datasets/downloads/af7e748544004557b35eef8b0522d4fb2c71e004b82ba8b7343913a15def465f", "audio": { "path": "/.cache/huggingface/datasets/downloads/af7e748544004557b35eef8b0522d4fb2c71e004b82ba8b7343913a15def465f", "array": [array([-0.00048828, -0.00018311, -0.00137329, ..., 0.00079346, 0.00091553, 0.00085449], dtype=float32), "sampling_rate": 16000 } }
数据字段
word_ids:单词的ID列表word_start_times:单词开始时间的列表,以秒为单位word_end_times:单词结束时间的列表,以秒为单位word_speakers:每个单词的说话人列表segment_ids:段的ID列表segment_start_times:段开始时间的列表segment_end_times:段结束时间的列表segment_speakers:每个段的说话人列表words:所有说出的单词列表channels:用于每个单词的通道列表file:音频文件的路径audio:包含下载的音频文件路径、解码的音频数组和采样率的字典
数据分割
数据集包含多个配置,每个配置都有训练/验证/测试分割:
headset-single:单个耳机的近距离音频。此配置仅包括当前说话人的耳机音频。headset-multi(4通道):四个独立耳机的近距离音频。此配置包括四个独立耳机的音频。每个注释有4个音频文件0, 1, 2, 3。microphone-single:单个麦克风的远场音频。此配置仅包括麦克风阵列的第一个麦克风(即1-1)的音频。microphone-multi(8通道):麦克风阵列的远场音频。此配置包括第一个麦克风阵列的音频1-1, 1-2, ..., 1-8。
| 配置 | 训练 | 验证 | 测试 |
|---|---|---|---|
| headset-single | 136 (80h) | 18 (9h) | 16 (9h) |
| headset-multi (4 channels) | 136 (320h) | 18 (36h) | 16 (36h) |
| microphone-single | 136 (80h) | 18 (9h) | 16 (9h) |
| microphone-multi (8 channels) | 136 (640h) | 18 (72h) | 16 (72h) |
注意,每个样本包含10到60分钟的音频数据,这使得直接转录不切实际。应利用段的开始时间和结束时间将样本分割成更小的可管理大小的样本。
数据集创建
所有关于数据集创建的信息可以在这里找到。
个人和敏感信息
数据集包含在线捐赠语音的人。您同意不尝试确定此数据集中说话人的身份。
附加信息
许可信息
CC BY 4.0




