five

zsayers/CORAAL

收藏
Hugging Face2023-09-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zsayers/CORAAL
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自区域非洲裔美国人语言语料库(CORAAL)的音频文件、文本文件和音频片段。CORAAL是俄勒冈大学语言学研究者发起的在线非洲裔美国人语言资源(ORAAL)项目的一个子集。原始CORAAL数据集包含超过220个社会语言学访谈,涉及1888年至2005年出生的非洲裔美国人语言(AAL)使用者。每个访谈都包括配套的音频文件和人工转录的文本。该数据集的主要目的是帮助开发者训练或微调他们的自动语音识别(ASR)模型,特别是针对AAL的识别,以提高日常ASR技术的包容性。

该数据集包含来自区域非洲裔美国人语言语料库(CORAAL)的音频文件、文本文件和音频片段。CORAAL是俄勒冈大学语言学研究者发起的在线非洲裔美国人语言资源(ORAAL)项目的一个子集。原始CORAAL数据集包含超过220个社会语言学访谈,涉及1888年至2005年出生的非洲裔美国人语言(AAL)使用者。每个访谈都包括配套的音频文件和人工转录的文本。该数据集的主要目的是帮助开发者训练或微调他们的自动语音识别(ASR)模型,特别是针对AAL的识别,以提高日常ASR技术的包容性。
提供机构:
zsayers
原始信息汇总

CORAAL 数据集概述

数据集描述

数据集摘要

该数据集包含来自 Corpus of Regional African American Language (CORAAL) 的音频文件、文本文件和音频片段。CORAAL 是 Online Resources for African American Language (ORAAL) 项目的一个子集,由俄勒冈大学的一组语言学研究人员发起。

原始 CORAAL 数据集包含超过 220 个社会语言学访谈,涉及出生于 1888 年至 2005 年之间的非洲裔美国语言 (AAL) 说话者。每个访谈都包含伴随的音频文件和人工转录的转录文本。

尽管许多大型语言模型在自动语音识别方面表现出色,但它们在处理包含它们未训练过的语言变体的语音时往往表现不佳。自 2018 年 1 月 CORAAL 作为第一个公开的 AAL 数据语料库发布以来,最近的自动语音识别模型很可能在 AAL 转录方面遇到困难。

该数据集的主要目的是帮助开发者专门针对 AAL 训练或微调他们的自动语音识别 (ASR) 模型,AAL 是一种由北美超过 3000 万劳动阶层非洲裔美国人使用的语言(Wolfram)。这一努力最终旨在提高日常 ASR 技术的包容性。

支持的任务和排行榜

[更多信息需补充]

语言

[更多信息需补充]

数据集结构

数据实例

[更多信息需补充]

数据字段

[更多信息需补充]

数据分割

[更多信息需补充]

数据集创建

策划理由

[更多信息需补充]

源数据

初始数据收集和规范化

[更多信息需补充]

源语言生产者是谁?

[更多信息需补充]

注释

注释过程

[更多信息需补充]

注释者是谁?

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的注意事项

数据集的社会影响

[更多信息需补充]

讨论偏见

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

[更多信息需补充]

许可信息

CC BY-NC-SA 4.0

引用信息

[更多信息需补充]

贡献

Kendall, Tyler 和 Charlie Farrington。2023。The Corpus of Regional African American Language。2023.06 版。Eugene, OR: The Online Resources for African American Language Project。[https://doi.org/10.7264/1ad5-6t35]。

Walt Wolfram。2020。Urban African American Vernacular English。 In: Kortmann, Bernd & Lunkenheimer, Kerstin & Ehret, Katharina (eds.) The Electronic World Atlas of Varieties of English。 None: None。 (Available online at http://ewave-atlas.org/languages/15, Accessed on 2023-09-26.)

搜集汇总
数据集介绍
main_image_url
构建方式
在方言学与计算语言学交叉领域,CORAAL数据集的构建体现了对语言多样性的系统性记录。该数据集源自俄勒冈大学语言学团队主导的“区域非裔美国人语言语料库”项目,通过采集超过220段社会语言学访谈音频而成,访谈对象涵盖1888年至2005年间出生的非裔美国人语言使用者。所有音频均辅以人工转录的文本,确保了语言数据的真实性与标注准确性,为研究语言变体提供了结构化资源。
特点
该数据集的核心特点在于其专注于非裔美国人语言这一广泛使用的语言变体,收录了跨越百余年出生代际的说话者样本,从而蕴含丰富的历时与共时语言特征。数据形式包含原始音频、分段音频及对应转录文本,支持语音识别模型对特定方言的适应性训练。作为首个公开的非裔美国人语言语料库,它填补了主流语音技术对少数语言变体数据覆盖的空白,具有重要的学术与应用价值。
使用方法
在语音技术研发中,该数据集主要用于训练或微调自动语音识别模型,以提升其对非裔美国人语言的转录性能。使用者可依据音频与文本的对齐信息,构建监督学习任务,或通过分析语音变异模式开展语言学研究。数据遵循CC BY-NC-SA 4.0许可,允许非商业性共享与改编,但需注意其社会语言学背景,确保使用过程中符合伦理规范,促进技术包容性发展。
背景与挑战
背景概述
在计算语言学与语音识别领域,方言与语言变体的自动处理长期面临数据稀缺的困境。CORAAL数据集由俄勒冈大学语言学研究者于2018年1月率先构建,作为首个公开的非裔美国人英语语料库,其核心研究聚焦于捕捉非裔美国人语言在语音与语法层面的系统性变异。该数据集收录了跨越百余年出生代际的说话者访谈,不仅为语言变异研究提供了历时性视角,更推动了语音技术向更具包容性的方向发展,对消弭数字鸿沟具有深远影响。
当前挑战
该数据集致力于解决非裔美国人英语的自动语音识别难题,其挑战在于主流模型对未训练过的语言变体泛化能力薄弱,导致转录准确率显著下降。在构建过程中,研究者需克服方言数据标注的专业性要求高、语音信号因地域与社会因素呈现高度异质性,以及历时语料采集与标准化处理的复杂性等多重障碍。
常用场景
经典使用场景
在语音识别技术领域,CORAAL数据集为研究非裔美国人语言(AAL)的语音特征提供了关键资源。该数据集收录了跨越一个多世纪的访谈录音及转录文本,覆盖了从1888年至2005年出生的说话者,使得研究者能够深入分析AAL的历时演变与地域变体。通过这一数据集,学者们得以构建和优化针对AAL的自动语音识别模型,弥补了主流模型在方言变体处理上的不足,为语言技术包容性研究奠定了实证基础。
解决学术问题
CORAAL数据集有效解决了语言学与计算语言学中的若干核心问题。在学术层面,它助力于揭示AAL的音系、语法及词汇特征,促进了社会语言学对语言变异与变化的深入探讨。同时,该数据集为克服自动语音识别系统在方言数据上的性能瓶颈提供了训练素材,推动了跨方言语音识别技术的发展,从而在技术层面减少了语言偏见,提升了语音交互系统的公平性与可及性。
衍生相关工作
围绕CORAAL数据集,已衍生出一系列重要的学术与工程成果。在语言学领域,研究者利用其进行了AAL的语料库语言学分析,发表了多篇关于语言接触与演变的论文。在技术层面,该数据集催生了针对方言语音识别的模型微调方法,如基于Transformer的ASR系统优化研究,以及跨语言迁移学习框架的开发,这些工作显著提升了语音技术对少数语言变体的支持能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作