audioshake/jam-alt
收藏JamALT: A Formatting-Aware Lyrics Transcription Benchmark
数据集描述
JamALT是一个修订版的JamendoLyrics数据集(包含80首歌曲,涵盖4种语言),专门用于自动歌词转录(ALT)的基准测试。歌词根据新编制的标注指南进行了修订,该指南包括拼写、标点和格式规则。音频与JamendoLyrics数据集相同,但由于内容问题,移除了20首法语歌曲中的一首,因此只包含79首歌曲。
注意: 该数据集未进行时间对齐,因此不适合用于自动歌词对齐(ALA)评估。如需评估ALA,请直接使用JamendoLyrics数据集。
数据加载
python from datasets import load_dataset dataset = load_dataset("audioshake/jam-alt")["test"]
每个语言(en, fr, de, es)都有定义的子集;例如,使用load_dataset("audioshake/jam-alt", "es")仅加载西班牙语歌曲。默认情况下,数据集包含音频。如需跳过加载音频,使用with_audio=False。控制音频解码,使用dataset.cast_column("audio", datasets.Audio(...))。datasets.Audio()的实用参数包括:
sampling_rate和mono=True控制采样率和通道数。decode=False跳过解码音频,仅获取MP3文件路径。
基准测试运行
评估实现在我们的alt-eval包中:
python
from datasets import load_dataset
from alt_eval import compute_metrics
dataset = load_dataset("audioshake/jam-alt", revision="v1.0.0")["test"]
transcriptions: list[str]
compute_metrics(dataset["text"], transcriptions, languages=dataset["language"])
例如,以下代码可用于评估Whisper: python dataset = load_dataset("audioshake/jam-alt", revision="v1.0.0")["test"] dataset = dataset.cast_column("audio", datasets.Audio(decode=False)) # 获取原始音频文件,让Whisper解码
model = whisper.load_model("tiny") transcriptions = [ " ".join(s["text"].strip() for s in model.transcribe(a["path"])["segments"]) for a in dataset["audio"] ] compute_metrics(dataset["text"], transcriptions, languages=dataset["language"])
或者,如果你已有转录文本,可以选择跳过加载音频: python dataset = load_dataset("audioshake/jam-alt", revision="v1.0.0", with_audio=False)["test"]
引用
使用该基准时,请引用我们的论文以及原始的JamendoLyrics论文: bibtex @misc{cifka-2023-jam-alt, author = {Ondv{r}ej Cifka and Constantinos Dimitriou and {Cheng-i} Wang and Hendrik Schreiber and Luke Miner and Fabian-Robert St"oter}, title = {{Jam-ALT}: A Formatting-Aware Lyrics Transcription Benchmark}, eprint = {arXiv:2311.13987}, year = 2023 } @inproceedings{durand-2023-contrastive, author={Durand, Simon and Stoller, Daniel and Ewert, Sebastian}, booktitle={2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)}, title={Contrastive Learning-Based Audio to Lyrics Alignment for Multiple Languages}, year={2023}, pages={1-5}, address={Rhodes Island, Greece}, doi={10.1109/ICASSP49357.2023.10096725} }




