composite_corpus_eu_v2.1
收藏Hugging Face2024-11-20 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/HiTZ/composite_corpus_eu_v2.1
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于巴斯克语的复合数据集,版本为2.1。它由公共可用数据组成,主要用于自动语音识别任务。数据集包括训练、测试和开发三个主要部分,每个部分都有多个子集。训练集由Common Voice、巴斯克议会数据和OpenSLR数据组成,测试集和开发集也分别来自这些来源。数据集的特征包括音频、句子和持续时间。
提供机构:
HiTZ zentroa
创建时间:
2024-11-20
原始信息汇总
Composite dataset for Basque v2.1
基本信息
- 语言: 巴斯克语 (eu)
- 许可证: CC BY 4.0
- 数据量: 100K < n < 1M
- 任务类别: 自动语音识别 (automatic-speech-recognition)
- 标签: asr, stt, dataset
配置
- 配置名称: default
- 数据文件:
- train: data/train-*
- test_cv: data/test_cv-*
- test_parl: data/test_parl-*
- test_oslr: data/test_oslr-*
- dev: data/dev-*
- dev_cv: data/dev_cv-*
- dev_parl: data/dev_parl-*
- dev_oslr: data/dev_oslr-*
- 数据文件:
数据集信息
-
特征:
- audio: 音频
- sentence: 字符串
- duration: 浮点数 (float64)
-
分割:
- train:
- 字节数: 77939859505
- 样本数: 387426
- dev:
- 字节数: 350063742
- 样本数: 1691
- dev_cv:
- 字节数: 117244633
- 样本数: 620
- dev_parl:
- 字节数: 116145832
- 样本数: 550
- dev_oslr:
- 字节数: 116673276
- 样本数: 521
- test_cv:
- 字节数: 2789895701
- 样本数: 14312
- test_parl:
- 字节数: 328152751
- 样本数: 1521
- test_oslr:
- 字节数: 118968255
- 样本数: 526
- train:
数据来源
训练分割
- mozilla-foundation/common_voice_18_0/eu: "validated" 分割,移除 "test_cv" 和 "dev_cv" 分割的句子。
- gttsehu/basque_parliament_1/eu: "train_clean" 分割,移除部分重复句子。
- openslr: 从 SLR76 (巴斯克录音) 子集制作的训练分割,清理了缩写、数字和重复句子。
测试分割
- mozilla-foundation/common_voice_18_0/eu: 官方 "test" 分割。
- gttsehu/basque_parliament_1/eu: 官方 "test" 分割。
- openslr: 从 SLR76 (巴斯克录音) 子集制作的测试分割,清理了缩写、数字和重复句子。
开发分割
- mozilla-foundation/common_voice_18_0/eu: 从官方 "dev" 分割制作的小型开发分割。
- gttsehu/basque_parliament_1/eu: 从官方 "dev" 分割制作的小型开发分割。
- openslr: 从 SLR76 (巴斯克录音) 子集制作的开发分割,清理了缩写、数字和重复句子。
搜集汇总
数据集介绍

构建方式
composite_corpus_eu_v2.1数据集通过整合多个公开可用的巴斯克语语音数据源构建而成。训练集部分结合了Mozilla Foundation的Common Voice 18.0、巴斯克议会的basque_parliament_1以及OpenSLR的SLR76子集,经过筛选去除了重复的句子和特定格式的内容。测试集和开发集则分别从这些数据源的官方测试集和开发集中提取,并进行了独立划分,以确保评估的准确性和多样性。
特点
该数据集涵盖了丰富的巴斯克语语音数据,总时长超过700小时,包含近40万条句子。其特点在于数据来源的多样性,涵盖了日常对话、议会演讲以及公开录音等多种场景。数据集还提供了详细的划分,包括训练集、测试集和开发集,且每个测试集和开发集都经过独立处理,避免了数据重复,确保了评估的公正性。
使用方法
composite_corpus_eu_v2.1数据集主要用于自动语音识别(ASR)任务的研究和开发。用户可以通过HuggingFace平台直接访问数据集的各个划分,包括训练集、测试集和开发集。建议在评估模型时,分别使用独立的测试集(如test_cv、test_parl和test_oslr)以获得更全面的性能分析。开发集则可用于模型调优和验证,确保模型在不同场景下的泛化能力。
背景与挑战
背景概述
Composite Corpus EU v2.1 数据集是一个专注于巴斯克语自动语音识别(ASR)任务的数据集,由多个公开可用的数据源整合而成。该数据集由西班牙数字化转型部和欧盟的NextGenerationEU计划资助,旨在推动巴斯克语在语音识别领域的研究与应用。数据集的主要组成部分包括Mozilla Foundation的Common Voice 18.0、巴斯克议会语料库以及OpenSLR的巴斯克录音子集。通过整合这些资源,数据集提供了超过675小时的训练数据和28小时的测试数据,涵盖了多样化的语音场景和语境。该数据集的发布为巴斯克语语音识别模型的开发与评估提供了重要的基础资源,推动了低资源语言在语音技术领域的发展。
当前挑战
Composite Corpus EU v2.1 数据集在构建和应用过程中面临多重挑战。在领域问题方面,巴斯克语作为一种低资源语言,其语音数据的稀缺性和多样性不足限制了模型的泛化能力。尽管数据集整合了多个来源,但不同数据源的录音质量、说话人背景和语境差异较大,可能导致模型训练的不一致性。在构建过程中,数据清洗和去重是主要的技术难点,尤其是处理重复文本和标准化录音格式。此外,数据集的测试集被划分为多个子集,每个子集代表不同的语音场景,这要求模型在不同场景下均能保持稳定的性能,增加了评估的复杂性。这些挑战不仅影响了数据集的构建效率,也对后续模型的开发提出了更高的要求。
常用场景
经典使用场景
在自动语音识别(ASR)领域,composite_corpus_eu_v2.1数据集被广泛用于训练和评估针对巴斯克语的语音识别模型。该数据集结合了多个公开可用的语音数据源,包括Common Voice、巴斯克议会录音和OpenSLR,提供了丰富的语音样本和文本标注,使得研究人员能够构建高精度的语音识别系统。
实际应用
在实际应用中,composite_corpus_eu_v2.1数据集被用于开发巴斯克语的语音助手、语音转录工具和语言学习应用。这些应用在巴斯克地区的教育、政府和商业领域具有重要价值,能够促进巴斯克语的数字化保存和推广,同时提升语言技术的普及率。
衍生相关工作
基于composite_corpus_eu_v2.1数据集,研究人员开发了多种先进的巴斯克语语音识别模型。例如,一些研究利用该数据集训练了端到端的深度学习模型,显著提升了识别性能。此外,该数据集还催生了针对巴斯克语的多模态语言处理研究,推动了语音与文本联合建模技术的发展。
以上内容由遇见数据集搜集并总结生成



