cmul2arctic-l1cls

Hugging Face2026-01-26 更新2026-01-27 收录

音频分类

母语识别

数据链接：

https://huggingface.co/datasets/changelinglab/cmul2arctic-l1cls 数据链接链接失效反馈

官方服务：

资源简介：

CMU + L2-ARCTIC 联合数据集是一个用于L1（母语）分类研究的音频数据集，结合了CMU Arctic（母语为英语的说话者）和L2-ARCTIC（非母语为英语的说话者）的数据。该数据集旨在支持学术可重复性研究。数据集包含31,395个样本，分为训练集（15,714个样本）、验证集（7,919个样本）和测试集（7,762个样本）。每个样本包含音频数据（采样率为16kHz）、语料库来源（cmu或l2arctic）、L1语言标签（en、ko、zh、ar、hi、es、vi）、说话者ID和话语ID。数据集适用于音频分类、口音识别和母语识别等任务。请注意，数据集包含两个不同许可证的数据源：CMU Arctic允许商业使用，而L2-ARCTIC仅限非商业用途，因此组合使用时需遵守CC BY-NC 4.0许可证。

创建时间：

2026-01-13

原始信息汇总

CMU + L2-ARCTIC Combined Dataset for L1 Classification 数据集概述

数据集基本信息

数据集名称: CMU + L2-ARCTIC Combined Dataset for L1 Classification
发布地址: https://huggingface.co/datasets/changelinglab/cmul2arctic-l1cls
许可协议: cc-by-nc-4.0
相关论文: arXiv:2601.14046
任务类别: 音频分类
支持语言: 英语、阿拉伯语、西班牙语、印地语、韩语、越南语、中文
标签: 语音、口音、L1分类、母语识别
数据规模: 10K<n<100K

数据集构成与来源

本数据集由两个子数据集合并而成，用于L1（母语）分类研究。

子集	来源	说话者	L1标签	许可协议
`cmu/`	CMU Arctic	4名英语母语者	`en`	CMU Arctic许可协议
`l2arctic/`	L2-ARCTIC	24名非英语母语者	`ar`, `es`, `hi`, `ko`, `vi`, `zh`	CC BY-NC 4.0

数据划分与统计

数据集包含训练集、验证集和测试集。

划分	CMU样本数	L2-ARCTIC样本数	总样本数
训练集	2,264	13,450	15,714
验证集	1,132	6,787	7,919
测试集	1,132	6,630	7,762
总计	4,528	26,867	31,395

存储信息:

下载大小: 9049582965字节
数据集大小: 9049582965字节
训练集大小: 4541009465字节，15714个样本
验证集大小: 2397896973字节，7919个样本
测试集大小: 2110676527字节，7762个样本

数据模式

数据以Parquet格式存储，包含以下特征：

列名	类型	描述
`audio`	结构体	包含`path`（字符串）和`bytes`（二进制）的音频数据，采样率为16000Hz
`corpus`	字符串	数据来源，取值为`cmu`或`l2arctic`
`l1_label`	字符串	L1语言代码，取值为`en`, `ko`, `zh`, `ar`, `hi`, `es`, `vi`
`speaker_id`	字符串	说话者标识符
`utt_id`	字符串	话语标识符

许可协议说明

数据集包含两个来源不同的数据，许可协议不同。

文件夹	来源	许可协议	商业用途
`cmu/`	CMU Arctic	CMU Arctic许可协议	允许
`l2arctic/`	L2-ARCTIC	CC BY-NC 4.0	仅限非商业用途

合并使用需遵守CC BY-NC 4.0协议，仅限非商业用途。

使用方式

可通过HuggingFace datasets库加载数据集。

python from datasets import load_dataset, Audio train_ds = load_dataset("y00njaekim/cmul2arctic-l1cls", split="train")

引用与致谢

CMU Arctic:

网站: http://www.festvox.org/cmu_arctic/index.html
技术报告: http://www.festvox.org/cmu_arctic/cmu_arctic_report.pdf

L2-ARCTIC: 使用L2-ARCTIC数据需引用以下论文： bibtex @inproceedings{zhao2018l2arctic, author={Guanlong {Zhao} and Sinem {Sonsaat} and Alif {Silpachai} and Ivana {Lucic} and Evgeny {Chukharev-Hudilainen} and John {Levis} and Ricardo {Gutierrez-Osuna}}, title={L2-ARCTIC: A Non-native English Speech Corpus}, year=2018, booktitle={Proc. Interspeech}, pages={2783–2787}, doi={10.21437/Interspeech.2018-1110}, url={http://dx.doi.org/10.21437/Interspeech.2018-1110} }

原始来源: https://psi.engr.tamu.edu/l2-arctic-corpus/

相关工具:

基准测试工具包: https://github.com/changelinglab/prism

致谢: 本数据集的重新分发旨在促进学术可重复性。原始数据收集的所有荣誉归属于卡内基梅隆大学和德克萨斯农工大学的相应研究团队。

搜集汇总

数据集介绍

构建方式

在语音识别与口音分析领域，cmul2arctic-l1cls数据集通过整合两个权威语音资源构建而成。该数据集融合了CMU Arctic语料库中四位母语为英语者的发音样本，以及L2-ARCTIC语料库中二十四位非母语英语者的语音数据，覆盖阿拉伯语、西班牙语、印地语、韩语、越南语和中文等多种母语背景。构建过程中，原始音频数据经过统一采样率处理，并嵌入Parquet格式文件中，以支持高效的数据加载与管理。数据集按训练集、验证集和测试集进行划分，确保了模型训练与评估的结构化需求。

特点

该数据集的核心特点在于其广泛的语言多样性与精细的标注体系。它不仅涵盖了七种不同的母语类别，还提供了每位说话者的唯一标识符及话语编号，便于进行说话者层面的分析。数据集中包含的音频样本均以16kHz采样率保存，保证了语音信号的保真度。此外，数据集明确区分了来自不同源语料库的样本，并附带了相应的许可信息，为学术研究提供了清晰的合规指引。这种多维度标注与结构化设计，使其成为母语识别与口音分类研究的理想资源。

使用方法

利用HuggingFace的datasets库，研究者可以便捷地加载cmul2arctic-l1cls数据集进行实验。通过调用load_dataset函数并指定数据集名称，即可访问训练集、验证集和测试集。数据集中每个样本均包含音频数据、语料库来源、母语标签、说话者标识和话语编号等字段，支持直接用于音频分类任务的模型训练。用户可通过解码音频字节或访问音频路径来获取原始语音信号，进而应用于母语识别、口音分析或跨语言语音建模等研究场景。

背景与挑战

背景概述

在语音技术领域，母语识别（L1分类）是语音处理与语言学习交叉方向的关键研究课题，旨在通过分析非母语人士的英语发音特征，自动识别其第一语言背景。cmul2arctic-l1cls数据集由研究团队于2026年整合发布，融合了CMU Arctic与L2-ARCTIC两大经典语音语料库，涵盖了英语、阿拉伯语、西班牙语、印地语、韩语、越南语及中文共七种母语背景的发音样本。该数据集旨在为语音模型在音素实现与口音分析方面提供标准化评估基准，推动跨语言语音识别、发音评估及教育技术等应用的发展。

当前挑战

该数据集致力于解决母语识别任务中的核心挑战，即如何从非母语英语语音中准确提取跨语言的声学与韵律特征，以区分不同母语背景带来的发音变异。构建过程中的挑战包括数据源的异构性整合，CMU Arctic与L2-ARCTIC在录音环境、说话者数量及语音内容设计上存在差异，需通过统一格式与分割策略确保数据一致性。此外，数据许可的复杂性也构成挑战，两部分数据分别遵循商业可用与非商业许可，限制了数据集在商业场景下的直接应用。

常用场景

经典使用场景

在语音识别与口音分析领域，cmul2arctic-l1cls数据集为母语识别研究提供了关键资源。该数据集整合了CMU Arctic的母语英语语音与L2-ARCTIC的非母语英语语音，覆盖七种语言背景，经典使用场景集中于训练和评估基于深度学习的母语分类模型。研究者利用其丰富的语音样本，构建端到端的神经网络架构，如卷积神经网络或Transformer，以自动识别说话者的母语背景，从而推动语音技术在多语言环境下的适应性研究。

实际应用

在实际应用中，cmul2arctic-l1cls数据集被广泛用于开发智能语音助手和语言学习工具，以增强系统对非母语用户的适应能力。例如，在教育技术领域，基于该数据集的模型可辅助语言教师分析学习者的口音特点，提供个性化反馈；在安全领域，它支持语音生物识别系统，通过母语特征进行身份验证。这些应用不仅提升了人机交互的自然度，还推动了跨文化通信技术的实用化进程。

衍生相关工作

该数据集衍生了一系列经典研究工作，包括基于PRiSM基准的语音模型评估框架，该框架利用cmul2arctic-l1cls数据评测电话实现性能。此外，许多学术论文借鉴其多语言语音结构，开发了先进的母语分类算法，如融合声学与韵律特征的混合模型，以及针对低资源语言的迁移学习策略。这些工作不仅扩展了数据集的学术影响力，还为语音识别和口音适应领域提供了新的方法论基础。

以上内容由遇见数据集搜集并总结生成