coral

Hugging Face2024-08-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/alexandrainst/coral

下载链接

链接失效反馈

官方服务：

资源简介：

CoRal是一个全面的自动语音识别（ASR）数据集，旨在捕捉丹麦语在各种方言、口音、性别和年龄组中的多样性。CoRal数据集的主要目标是提供一个强大的资源，用于训练和评估能够理解和转录所有变体的丹麦口语的ASR模型。

CoRal is a comprehensive automatic speech recognition (ASR) dataset designed to capture the diversity of Danish across various dialects, accents, genders and age groups. The primary goal of the CoRal dataset is to provide a robust resource for training and evaluating ASR models that can comprehend and transcribe all variants of spoken Danish.

创建时间：

2024-08-27

原始信息汇总

CoRal: Danish Conversational and Read-aloud Dataset

数据集概述

CoRal 是一个全面的自动语音识别（ASR）数据集，旨在捕捉丹麦语在各种方言、口音、性别和年龄组中的多样性。CoRal数据集的主要目标是提供一个强大的资源，用于训练和评估能够理解和转录各种丹麦口语的ASR模型。

关键特性

方言和口音多样性：数据集包括来自所有主要丹麦方言以及多种口音的语音样本，确保广泛的地理覆盖和地区语言特征的包含。
性别代表性：男性和女性发言人均有很好的代表性，提供平衡的性别多样性。
年龄范围：数据集包括来自广泛年龄组的发言人，提供了一个全面的资源，用于年龄无关的ASR模型开发。
高质量音频：所有录音都是高质量的，确保数据集可以用于高性能ASR模型的训练和评估。

数据字段

id_recording：录音的唯一标识符。
id_sentence：被朗读文本的唯一标识符。
id_speaker：每个发言人的唯一标识符。
text：录音的转录文本。
dialect：方言分类。
gender：发言人的性别（男/女/非二元）。
age：发言人的年龄（整数）。
country_birth：发言人出生国家。
location：录音地点的地址。
location_roomdim：录音室的尺寸。
noise_level：房间中的噪音水平，以dB为单位。
noise_type：录音时发言人暴露的噪音类型（无/人类/交通）。注意音频中不包含噪音。
validated：录音的手动验证状态（批准、可能、拒绝、"null"）。
asr_validation_model：用于自动验证录音的模型ID。
asr_prediction：ASR输出预测。
asr_wer：asr_prediction和text之间的词错误率。
asr_cer：asr_prediction和text之间的字符错误率。

使用方法

CoRal数据集非常适合训练需要在丹麦语中跨不同方言和发言人群体泛化的ASR模型。以下是使用Hugging Face的datasets库加载和使用数据集的示例：

python from datasets import load_dataset

加载Coral数据集

coral = load_dataset("alexandrainst/coral", "read_aloud")

示例：访问音频样本及其转录文本

sample = coral[train][0] audio = sample[audio] transcription = sample[text]

print(f"Audio: {audio[array]}") print(f"Text: {transcription}")

示例应用

ASR模型训练：训练能够处理丹麦语中方言变化的强大ASR模型。
方言研究：分析不同丹麦方言的语言特征。

注意：语音合成和生物识别使用CoRal是不允许的。更多信息请参见许可证。

许可证

该数据集根据自定义许可证（改编自OpenRAIL-M）进行许可，允许商业使用，但有一些限制（语音合成和生物识别）。请参见许可证。

引用

我们将在不久后提交一篇研究论文，但在那之前，如果您在研究或开发中使用CoRal数据集，请按以下方式引用：

bibtex @dataset{coral2024, author = {Sif Bernstorff Lehmann, Dan Saattrup Nielsen, Simon Leminen Madsen, Anders Jess Pedersen, Anna Katrine van Zee and Torben Blach}, title = {CoRal: A Diverse Danish ASR Dataset Covering Dialects, Accents, Genders, and Age Groups}, year = {2024}, url = {https://hf.co/datasets/alexandrainst/coral}, }

搜集汇总

数据集介绍

构建方式

CoRal数据集的构建旨在捕捉丹麦语的多样性，涵盖了不同方言、口音、性别和年龄组的语音样本。数据收集过程包括从丹麦各地招募志愿者，要求他们在特定环境下朗读文本，并记录其语音。每个录音均附有详细的元数据，如说话者的年龄、性别、方言、出生国家等，以确保数据的多样性和代表性。此外，数据集还通过自动语音识别模型对录音进行验证，确保转录的准确性。

特点

CoRal数据集的特点在于其广泛的方言和口音覆盖，涵盖了丹麦所有主要方言及多种非母语口音。数据集中的语音样本来自不同性别和年龄段的说话者，确保了性别和年龄的平衡性。所有录音均为高质量音频，适合用于训练和评估高性能的自动语音识别模型。此外，数据集还提供了丰富的元数据，如录音环境、噪声水平和类型等，为研究提供了多维度的支持。

使用方法

CoRal数据集适用于训练和评估能够处理丹麦语方言和多样化说话者特征的自动语音识别模型。用户可以通过Hugging Face的`datasets`库轻松加载数据集，并访问音频样本及其对应的文本转录。例如，使用`load_dataset`函数加载数据集后，用户可以直接访问训练集中的音频和文本数据，进行模型训练或分析。数据集的高质量和多样性使其成为研究丹麦语语音识别和方言分析的理想资源。

背景与挑战

背景概述

CoRal数据集是一个专注于丹麦语自动语音识别（ASR）的综合性数据集，旨在捕捉丹麦语在不同方言、口音、性别和年龄群体中的多样性。该数据集由丹麦创新基金资助，主要合作伙伴包括Alexandra Institute、哥本哈根大学等机构。CoRal的核心研究问题在于如何通过广泛的语音样本训练和评估ASR模型，使其能够准确理解和转录丹麦语的各种变体。该数据集不仅涵盖了丹麦主要方言，还确保了性别和年龄的广泛代表性，为丹麦语ASR模型的开发提供了重要的资源支持。

当前挑战

CoRal数据集在构建和应用过程中面临多重挑战。首先，丹麦语的方言和口音多样性使得ASR模型的训练和评估变得复杂，模型需要具备强大的泛化能力以应对不同地区的语音特征。其次，数据集的构建过程中，确保高质量音频的采集和标注是一项艰巨任务，尤其是在处理不同噪声环境和录音条件时。此外，数据集的性别和年龄平衡性要求也增加了数据收集的难度。最后，尽管数据集已包含大量语音样本，但如何进一步扩展以覆盖更多边缘方言和口音，仍是一个亟待解决的问题。

常用场景

经典使用场景

CoRal数据集在自动语音识别（ASR）领域具有广泛的应用，尤其是在丹麦语的语音识别任务中。该数据集涵盖了丹麦语的各种方言、口音、性别和年龄组，为训练和评估ASR模型提供了丰富的语音样本。研究人员可以利用该数据集开发能够处理丹麦语多样性的ASR系统，确保模型在不同方言和口音下的鲁棒性。

解决学术问题

CoRal数据集解决了ASR领域中的多个关键问题，尤其是在处理多方言和多口音语音识别时的挑战。通过提供涵盖广泛方言和口音的语音数据，该数据集帮助研究人员开发出更具普适性的ASR模型，减少了对特定方言或口音的偏见。此外，数据集中的年龄和性别多样性也为研究语音识别在不同人群中的表现提供了重要参考。

衍生相关工作

CoRal数据集已经催生了一系列相关研究，特别是在丹麦语ASR模型的优化和方言识别领域。许多研究基于该数据集开发了新的ASR算法，并验证了其在多方言环境下的有效性。此外，该数据集还被用于研究语音识别中的性别和年龄差异，推动了语音识别技术在多样化人群中的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集