CORAAL

github2026-02-17 更新2026-03-01 收录

下载链接：

https://github.com/ebezzam/prepare_coraal

下载链接

链接失效反馈

官方服务：

资源简介：

CORAAL数据集包含8个组件（ATL、DCA、DCB、DTA、LES、PRV、ROC、VLD），每个组件作为单独的配置/子集。数据集包含音频文件（WAV格式，保留原始采样率）和清理后的文本转录（去除停顿、声音标签等），以及丰富的元数据列（如性别、年龄、教育背景等）。总数据集大小约为160小时的音频。

The CORAAL dataset comprises 8 components (ATL, DCA, DCB, DTA, LES, PRV, ROC, VLD), with each serving as an independent configuration or subset. It includes audio files in WAV format with original sampling rates preserved, cleaned text transcripts with pauses, sound tags, and other irrelevant content removed, as well as a rich set of metadata columns such as gender, age, educational background, and others. The total size of the dataset is approximately 160 hours of audio.

创建时间：

2026-02-17

原始信息汇总

CORAAL 数据集概述

数据集来源

原始数据文件获取地址：https://lingtools.uoregon.edu/coraal/
数据集发布仓库地址：https://github.com/ebezzam/prepare_coraal

数据集内容与规模

数据集包含来自8个不同CORAAL组件（ATL, DCA, DCB, DTA, LES, PRV, ROC, VLD）的音频及对应文本数据。
音频总时长约为160小时。
每个组件作为一个独立的配置/子集。

数据结构与组织

每个组件对应一个独立的配置（config/subset）。
每个配置仅包含一个“test”分割，其中包含了该组件的所有样本。

数据样本字段

每个数据样本包含以下字段：

audio: 音频文件（WAV格式，保持原始采样率）。
text: 处理后的转录文本（已移除停顿、声音标签如[<laugh>]、描述符如(breathy)以及编辑标记）。
file_id: 不含扩展名的完整文件名（例如：“ATL_se0_ag1_f_01_1”）。
Metadata columns: 来自对应组件元数据文件的所有列（各组件不同）。

常见元数据列

常见的元数据列包括：

Gender, Age, Age.Group, Year.of.Birth, Year.of.Interview
Education, Edu.Group, Occupation
CORAAL.Spkr, Primary.Spkr, Guardian birthplaces 等。

注意：每个组件基于其自身的元数据文件拥有独立的元数据模式，因此不同组件间可用的列可能不同。

数据加载方式

可通过Hugging Face datasets库加载特定组件的数据，示例代码如下： python from datasets import load_dataset dataset = load_dataset("your-username/coraal", "ATL") test_data = dataset["test"]

搜集汇总

数据集介绍

构建方式

在方言语音研究领域，CORAAL数据集通过系统化采集美国不同地区的非裔美国人英语口语样本构建而成。其构建过程涉及从八个独立地理区域（如亚特兰大、华盛顿特区等）收集自然对话录音，并对音频进行专业转录与标注。原始语音数据保留了完整的采样率与格式，同时辅以详尽的元数据，包括说话者的社会语言学特征，如年龄、性别、教育背景及出生地等信息，从而形成一个结构化的多维度语音语料库。

使用方法

使用CORAAL数据集时，研究者可通过Hugging Face平台便捷加载特定区域组件。首先安装必要依赖并完成身份验证，随后利用`load_dataset`函数指定目标配置（如“ATL”）即可访问对应的测试分割。数据集中每条样本均包含原始音频文件、清理后的文本转录及完整的元数据列，支持直接用于语音识别、方言分析或社会语言学研究。用户可根据需要提取性别、年龄组、教育背景等变量，进行跨区域或跨社会群体的对比分析，从而深入探索语言使用的多样性模式。

背景与挑战

背景概述

CORAAL（Corpus of Regional African American Language）数据集是方言学与社会语言学领域的重要资源，由俄勒冈大学等研究机构于21世纪初创建，旨在系统记录和分析非裔美国人英语（AAVE）的区域变体。该数据集聚焦于语言变异与社会因素（如年龄、性别、教育背景）的关联性，通过采集多地区真实对话音频及转写文本，为语言变化、音系模式及社会身份构建提供了实证基础。其跨学科影响力延伸至计算语言学、语音识别及文化研究，推动了方言建模与偏见缓解技术的进展。

当前挑战

CORAAL数据集致力于解决非裔美国人英语变体自动识别与建模的挑战，其核心问题在于方言语音的声学多样性及社会语境敏感性，传统语音模型常因训练数据缺乏代表性而表现不佳。在构建过程中，研究人员面临实地录音的伦理与质量控制难题，包括参与者隐私保护、方言真实性维护，以及跨地区元数据标准化。此外，音频转写需处理大量副语言特征（如笑声、呼吸声），文本清洗与对齐的复杂性进一步增加了数据一致性的保障难度。

常用场景

解决学术问题

该数据集有效解决了社会语言学中关于语言变异系统性研究的难题，为检验拉波夫式变异理论提供了实证基础。通过提供大规模、标注丰富的真实口语语料，它使得学者能够精确分析语音、语法及词汇层面的变异现象，进而深化对语言接触、身份建构与社区语言规范形成机制的理解，推动了定量社会语言学方法论的发展。

实际应用

在实际应用层面，CORAAL数据集为语音识别技术的方言适应性优化提供了关键训练数据。工程团队可利用其多样化的口音与说话风格样本，开发更具包容性的自动语音识别系统，提升其在教育、客服及司法语言学等场景下的性能。同时，该资源也辅助语言教学者设计更贴合现实的语言材料。

数据集最近研究