l2-arctic-cleaned

Hugging Face2025-09-04 更新2025-09-05 收录

下载链接：

https://huggingface.co/datasets/vuihocrnd/l2-arctic-cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

L2 Arctic Cleaned数据集是L2 Arctic数据集的清理版本，包含英语L2的语音录音，分为训练集和测试集，每个集合都包含对应的音频文件和元数据CSV文件。训练集和测试集的CSV文件分别包含标签、标准形式、转录文本和错误信息，以及文件名和标签的元数据信息。测试集特别包括两位越南语使用者的录音数据。

The L2 Arctic Cleaned dataset is a cleaned variant of the original L2 Arctic dataset, which contains English L2 speech recordings and is split into training and test sets. Each subset includes corresponding audio files and metadata CSV files. The CSV files for the training and test sets respectively contain labels, canonical forms, transcribed texts, error information, as well as metadata including filenames and label-related information. The test set specifically includes speech recordings from two Vietnamese speakers.

创建时间：

2025-08-29

原始信息汇总

L2 Arctic Cleaned 数据集概述

数据集基本信息

名称：L2 Arctic Cleaned
语言：英语
许可证：MIT
任务类别：音频分类
数据规模：1K<n<10K

数据集描述

L2 Arctic数据集的清理版本，包含英语作为第二语言（L2）的语音录音，划分为训练集和测试集，并附带对齐的元数据CSV文件。测试数据包含两名越南人（HQTV-男性和PNV-女性）的录音数据。

数据集结构

训练集

音频文件：train/audio/目录下的.wav文件
训练数据CSV：train/trainset.csv，包含列：Label, Canonical, Transcript, Error
元数据CSV：train/metadata.csv，包含列：file_name, Label

测试集

音频文件：test/audio/目录下的.wav文件
训练数据CSV：test/trainset.csv，包含列：Label, Canonical, Transcript, Error
元数据CSV：test/metadata.csv，包含列：file_name, Label

搜集汇总

数据集介绍

构建方式

在第二语言习得研究领域，L2 Arctic Cleaned数据集基于原始L2 Arctic语料库进行深度清洗构建。该过程通过专业语音对齐技术，将非英语母语者的发音样本转换为标准化波形文件，并生成包含音素标签、标准发音、转写文本及错误标注的结构化元数据，最终划分为训练集与测试集以确保数据质量。

使用方法

研究者可通过加载标准化CSV元数据与对应音频文件开展实验。训练集适用于构建发音错误检测模型或语音识别系统，测试集专用于评估模型在特定L2口音上的泛化能力。音频文件与标注数据的精确对齐支持端到端的语音处理流程，适用于声学模型训练与发音质量评估任务。

背景与挑战

背景概述

L2 Arctic数据集由华盛顿大学等研究机构于2017年推出，专注于非母语英语语音识别研究。该数据集收录了24名非英语母语者的语音样本，覆盖6种不同母语背景，旨在推动第二语言语音处理技术的发展。其构建为口音识别、发音错误检测及跨语言语音模型优化提供了重要数据基础，对语音技术在教育领域的应用具有显著影响力。

当前挑战

该数据集核心挑战在于解决非母语语音识别中的口音变异和发音错误问题，传统模型对非标准发音的泛化能力不足。构建过程中需克服多语言语音对齐的技术难题，包括音素级别标注的复杂性、背景噪声干扰，以及不同母语者发音习惯差异带来的数据一致性挑战。

常用场景

经典使用场景

在第二语言习得研究中，L2 Arctic Cleaned数据集被广泛用于分析非母语英语学习者的发音特征。该数据集通过提供经过清洗的语音样本及标注信息，支持研究者系统考察越南语母语者在英语发音中的典型错误模式，如音位替换和韵律偏差，为语音学对比分析提供可靠数据基础。

解决学术问题

该数据集有效解决了第二语言语音识别中的标注一致性问题，通过提供标准化错误标注的语音样本，支持学术界构建更精准的发音评估模型。其重要意义在于为跨语言语音迁移研究提供结构化数据，推动发音错误自动检测、口音识别等方向的方法创新，显著提升语音处理技术的泛化能力。

实际应用

该数据集在实际应用中主要服务于智能语言教学系统，通过分析学习者的发音错误模式，开发个性化的发音矫正工具。教育科技公司可基于该数据构建越南英语学习者的专用评估模块，实时提供发音准确度反馈，有效辅助语言培训机构的数字化教学转型。

数据集最近研究