five

ggfox00000/dia-AvaAvd-test

收藏
Hugging Face2026-04-21 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/ggfox00000/dia-AvaAvd-test
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 task_categories: - voice-activity-detection - automatic-speech-recognition language: - en - multilingual size_categories: - n<1K pretty_name: AVA-AVD (test) — Audio-Visual Speaker Diarization tags: - speaker-diarization - diarization - ava-avd - ava - in-the-wild - audio-visual - rttm - audio annotations_creators: - expert-generated source_datasets: - extended|ava-avd - extended|ava dataset_info: features: - name: audio dtype: audio - name: rttm dtype: string - name: file_id dtype: string splits: - name: test num_examples: 54 --- # AVA-AVD — test split (audio-visual speaker diarization in the wild) Copie du split **`test` d'AVA-AVD** (Xu et al., ACM MM 2022), un corpus de diarisation dans des conditions "in the wild" construit sur AVA Active Speaker. Chaque clip (~5 min) est extrait des vidéos AVA à des offsets précis définis par le repo officiel, puis l'audio est re-synchronisé : les timestamps des RTTMs ont été **recalculés en temps clip-local** (soustrait `min_start` du RTTM d'origine) pour être directement utilisables avec le WAV. ## Contenu - **54** clips audio (provenant de 18 vidéos AVA uniques) - Audio : **WAV** 16 kHz mono (extrait via `ffmpeg`, re-synchro clip-local) - Annotations : **RTTM** standard pyannote, timestamps clip-local - Langue : principalement anglais (multilingue selon vidéos AVA sources) - Licence : **CC-BY-4.0** (hérité d'AVA / AVA-AVD upstream) ## Structure ``` dia-AvaAvd-test/ ├── README.md ├── audio/test/<clip_id>.wav # 54 └── rttm/test/<clip_id>.rttm # 54 ``` Le `clip_id` suit le format `<ava_video_id>_c_NN` (ex: `1j20qq1JyX4_c_01`). Le WAV et le RTTM partagent la même base temporelle (t=0 début du clip). Chaque ligne RTTM : ``` SPEAKER <clip_id> 1 <start_sec> <duration_sec> <NA> <NA> <speaker_id> <NA> <NA> ``` ## Split upstream - `train.list` : 242 clips (non fourni ici — train seulement) - `val.list` : 53 clips (non fourni ici) - **`test.list` : 53 clips ← c'est ce qu'on trouve dans ce repo** Le split `test.list` officiel est listé dans `https://github.com/showlab/AVA-AVD/blob/main/dataset/split/test.list`. ## Utilisation ```python from pathlib import Path from huggingface_hub import snapshot_download from pyannote.audio import Pipeline from pyannote.metrics.diarization import DiarizationErrorRate from pyannote.database.util import load_rttm root = snapshot_download("ggfox00000/dia-AvaAvd-test", repo_type="dataset") pipe = Pipeline.from_pretrained("pyannote/speaker-diarization-3.1") metric = DiarizationErrorRate() audio_dir = Path(root) / "audio/test" rttm_dir = Path(root) / "rttm/test" for wav in sorted(audio_dir.glob("*.wav")): hyp = pipe(str(wav)) ref = next(iter(load_rttm(str(rttm_dir / f"{wav.stem}.rttm")).values())) metric(ref, hyp) print(f"DER: {abs(metric):.3f}") ``` ## Source - AVA-AVD — Xu et al., ACM MM 2022 https://github.com/showlab/AVA-AVD https://arxiv.org/abs/2111.14448 ## Licence **CC-BY-4.0** — hérité de la distribution AVA-AVD upstream et d'AVA. ## Citation ```bibtex @inproceedings{xu2022ava, author = {Xu, Eric Zhongcong and Song, Zeyang and Tsutsui, Satoshi and Feng, Chao and Ye, Mang and Shou, Mike Zheng}, title = {AVA-AVD: Audio-Visual Speaker Diarization in the Wild}, booktitle = {Proceedings of the 30th ACM International Conference on Multimedia}, pages = {3838--3847}, year = {2022}, } ```
提供机构:
ggfox00000
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作