audioshake/jam-alt

Name: audioshake/jam-alt
Creator: audioshake
Published: 2023-11-27 12:46:27
License: 暂无描述

Hugging Face2023-11-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/audioshake/jam-alt

下载链接

链接失效反馈

官方服务：

资源简介：

JamALT是一个基于JamendoLyrics数据集修订而成的自动歌词转录（ALT）基准测试数据集。它包含79首歌曲，覆盖英语、法语、德语和西班牙语四种语言。歌词根据新的注释指南进行了修订，包括拼写、标点和格式规则。音频部分与JamendoLyrics数据集相同，但未进行时间对齐。该数据集主要用于评估自动歌词转录系统的性能。

提供机构：

audioshake

原始信息汇总

JamALT: A Formatting-Aware Lyrics Transcription Benchmark

数据集描述

JamALT是一个修订版的JamendoLyrics数据集（包含80首歌曲，涵盖4种语言），专门用于自动歌词转录（ALT）的基准测试。歌词根据新编制的标注指南进行了修订，该指南包括拼写、标点和格式规则。音频与JamendoLyrics数据集相同，但由于内容问题，移除了20首法语歌曲中的一首，因此只包含79首歌曲。

注意： 该数据集未进行时间对齐，因此不适合用于自动歌词对齐（ALA）评估。如需评估ALA，请直接使用JamendoLyrics数据集。

数据加载

python from datasets import load_dataset dataset = load_dataset("audioshake/jam-alt")["test"]

每个语言（en, fr, de, es）都有定义的子集；例如，使用load_dataset("audioshake/jam-alt", "es")仅加载西班牙语歌曲。默认情况下，数据集包含音频。如需跳过加载音频，使用with_audio=False。控制音频解码，使用dataset.cast_column("audio", datasets.Audio(...))。datasets.Audio()的实用参数包括：

sampling_rate和mono=True控制采样率和通道数。
decode=False跳过解码音频，仅获取MP3文件路径。

基准测试运行

评估实现在我们的alt-eval包中： python from datasets import load_dataset from alt_eval import compute_metrics

dataset = load_dataset("audioshake/jam-alt", revision="v1.0.0")["test"]

transcriptions: list[str]

compute_metrics(dataset["text"], transcriptions, languages=dataset["language"])

例如，以下代码可用于评估Whisper： python dataset = load_dataset("audioshake/jam-alt", revision="v1.0.0")["test"] dataset = dataset.cast_column("audio", datasets.Audio(decode=False)) # 获取原始音频文件，让Whisper解码

model = whisper.load_model("tiny") transcriptions = [ " ".join(s["text"].strip() for s in model.transcribe(a["path"])["segments"]) for a in dataset["audio"] ] compute_metrics(dataset["text"], transcriptions, languages=dataset["language"])

或者，如果你已有转录文本，可以选择跳过加载音频： python dataset = load_dataset("audioshake/jam-alt", revision="v1.0.0", with_audio=False)["test"]

引用

使用该基准时，请引用我们的论文以及原始的JamendoLyrics论文： bibtex @misc{cifka-2023-jam-alt, author = {Ondv{r}ej Cifka and Constantinos Dimitriou and {Cheng-i} Wang and Hendrik Schreiber and Luke Miner and Fabian-Robert St"oter}, title = {{Jam-ALT}: A Formatting-Aware Lyrics Transcription Benchmark}, eprint = {arXiv:2311.13987}, year = 2023 } @inproceedings{durand-2023-contrastive, author={Durand, Simon and Stoller, Daniel and Ewert, Sebastian}, booktitle={2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, title={Contrastive Learning-Based Audio to Lyrics Alignment for Multiple Languages}, year={2023}, pages={1-5}, address={Rhodes Island, Greece}, doi={10.1109/ICASSP49357.2023.10096725} }

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集