cmul2arctic-l1cls
收藏CMU + L2-ARCTIC Combined Dataset for L1 Classification 数据集概述
数据集基本信息
- 数据集名称: CMU + L2-ARCTIC Combined Dataset for L1 Classification
- 发布地址: https://huggingface.co/datasets/changelinglab/cmul2arctic-l1cls
- 许可协议: cc-by-nc-4.0
- 相关论文: arXiv:2601.14046
- 任务类别: 音频分类
- 支持语言: 英语、阿拉伯语、西班牙语、印地语、韩语、越南语、中文
- 标签: 语音、口音、L1分类、母语识别
- 数据规模: 10K<n<100K
数据集构成与来源
本数据集由两个子数据集合并而成,用于L1(母语)分类研究。
| 子集 | 来源 | 说话者 | L1标签 | 许可协议 |
|---|---|---|---|---|
cmu/ |
CMU Arctic | 4名英语母语者 | en |
CMU Arctic许可协议 |
l2arctic/ |
L2-ARCTIC | 24名非英语母语者 | ar, es, hi, ko, vi, zh |
CC BY-NC 4.0 |
数据划分与统计
数据集包含训练集、验证集和测试集。
| 划分 | CMU样本数 | L2-ARCTIC样本数 | 总样本数 |
|---|---|---|---|
| 训练集 | 2,264 | 13,450 | 15,714 |
| 验证集 | 1,132 | 6,787 | 7,919 |
| 测试集 | 1,132 | 6,630 | 7,762 |
| 总计 | 4,528 | 26,867 | 31,395 |
存储信息:
- 下载大小: 9049582965字节
- 数据集大小: 9049582965字节
- 训练集大小: 4541009465字节,15714个样本
- 验证集大小: 2397896973字节,7919个样本
- 测试集大小: 2110676527字节,7762个样本
数据模式
数据以Parquet格式存储,包含以下特征:
| 列名 | 类型 | 描述 |
|---|---|---|
audio |
结构体 | 包含path(字符串)和bytes(二进制)的音频数据,采样率为16000Hz |
corpus |
字符串 | 数据来源,取值为cmu或l2arctic |
l1_label |
字符串 | L1语言代码,取值为en, ko, zh, ar, hi, es, vi |
speaker_id |
字符串 | 说话者标识符 |
utt_id |
字符串 | 话语标识符 |
许可协议说明
数据集包含两个来源不同的数据,许可协议不同。
| 文件夹 | 来源 | 许可协议 | 商业用途 |
|---|---|---|---|
cmu/ |
CMU Arctic | CMU Arctic许可协议 | 允许 |
l2arctic/ |
L2-ARCTIC | CC BY-NC 4.0 | 仅限非商业用途 |
合并使用需遵守CC BY-NC 4.0协议,仅限非商业用途。
使用方式
可通过HuggingFace datasets库加载数据集。
python from datasets import load_dataset, Audio train_ds = load_dataset("y00njaekim/cmul2arctic-l1cls", split="train")
引用与致谢
CMU Arctic:
- 网站: http://www.festvox.org/cmu_arctic/index.html
- 技术报告: http://www.festvox.org/cmu_arctic/cmu_arctic_report.pdf
L2-ARCTIC: 使用L2-ARCTIC数据需引用以下论文: bibtex @inproceedings{zhao2018l2arctic, author={Guanlong {Zhao} and Sinem {Sonsaat} and Alif {Silpachai} and Ivana {Lucic} and Evgeny {Chukharev-Hudilainen} and John {Levis} and Ricardo {Gutierrez-Osuna}}, title={L2-ARCTIC: A Non-native English Speech Corpus}, year=2018, booktitle={Proc. Interspeech}, pages={2783–2787}, doi={10.21437/Interspeech.2018-1110}, url={http://dx.doi.org/10.21437/Interspeech.2018-1110} }
- 原始来源: https://psi.engr.tamu.edu/l2-arctic-corpus/
相关工具:
- 基准测试工具包: https://github.com/changelinglab/prism
致谢: 本数据集的重新分发旨在促进学术可重复性。原始数据收集的所有荣誉归属于卡内基梅隆大学和德克萨斯农工大学的相应研究团队。




