coral
收藏CoRal: Danish Conversational and Read-aloud Dataset
数据集概述
CoRal 是一个全面的自动语音识别(ASR)数据集,旨在捕捉丹麦语在各种方言、口音、性别和年龄组中的多样性。CoRal数据集的主要目标是提供一个强大的资源,用于训练和评估能够理解和转录各种丹麦口语的ASR模型。
关键特性
- 方言和口音多样性:数据集包括来自所有主要丹麦方言以及多种口音的语音样本,确保广泛的地理覆盖和地区语言特征的包含。
- 性别代表性:男性和女性发言人均有很好的代表性,提供平衡的性别多样性。
- 年龄范围:数据集包括来自广泛年龄组的发言人,提供了一个全面的资源,用于年龄无关的ASR模型开发。
- 高质量音频:所有录音都是高质量的,确保数据集可以用于高性能ASR模型的训练和评估。
数据字段
id_recording:录音的唯一标识符。id_sentence:被朗读文本的唯一标识符。id_speaker:每个发言人的唯一标识符。text:录音的转录文本。dialect:方言分类。gender:发言人的性别(男/女/非二元)。age:发言人的年龄(整数)。country_birth:发言人出生国家。location:录音地点的地址。location_roomdim:录音室的尺寸。noise_level:房间中的噪音水平,以dB为单位。noise_type:录音时发言人暴露的噪音类型(无/人类/交通)。注意音频中不包含噪音。validated:录音的手动验证状态(批准、可能、拒绝、"null")。asr_validation_model:用于自动验证录音的模型ID。asr_prediction:ASR输出预测。asr_wer:asr_prediction和text之间的词错误率。asr_cer:asr_prediction和text之间的字符错误率。
使用方法
CoRal数据集非常适合训练需要在丹麦语中跨不同方言和发言人群体泛化的ASR模型。以下是使用Hugging Face的datasets库加载和使用数据集的示例:
python from datasets import load_dataset
加载Coral数据集
coral = load_dataset("alexandrainst/coral", "read_aloud")
示例:访问音频样本及其转录文本
sample = coral[train][0] audio = sample[audio] transcription = sample[text]
print(f"Audio: {audio[array]}") print(f"Text: {transcription}")
示例应用
- ASR模型训练:训练能够处理丹麦语中方言变化的强大ASR模型。
- 方言研究:分析不同丹麦方言的语言特征。
注意:语音合成和生物识别使用CoRal是不允许的。更多信息请参见许可证。
许可证
该数据集根据自定义许可证(改编自OpenRAIL-M)进行许可,允许商业使用,但有一些限制(语音合成和生物识别)。请参见许可证。
引用
我们将在不久后提交一篇研究论文,但在那之前,如果您在研究或开发中使用CoRal数据集,请按以下方式引用:
bibtex @dataset{coral2024, author = {Sif Bernstorff Lehmann, Dan Saattrup Nielsen, Simon Leminen Madsen, Anders Jess Pedersen, Anna Katrine van Zee and Torben Blach}, title = {CoRal: A Diverse Danish ASR Dataset Covering Dialects, Accents, Genders, and Age Groups}, year = {2024}, url = {https://hf.co/datasets/alexandrainst/coral}, }




