zsayers/CORAAL
收藏CORAAL 数据集概述
数据集描述
数据集摘要
该数据集包含来自 Corpus of Regional African American Language (CORAAL) 的音频文件、文本文件和音频片段。CORAAL 是 Online Resources for African American Language (ORAAL) 项目的一个子集,由俄勒冈大学的一组语言学研究人员发起。
原始 CORAAL 数据集包含超过 220 个社会语言学访谈,涉及出生于 1888 年至 2005 年之间的非洲裔美国语言 (AAL) 说话者。每个访谈都包含伴随的音频文件和人工转录的转录文本。
尽管许多大型语言模型在自动语音识别方面表现出色,但它们在处理包含它们未训练过的语言变体的语音时往往表现不佳。自 2018 年 1 月 CORAAL 作为第一个公开的 AAL 数据语料库发布以来,最近的自动语音识别模型很可能在 AAL 转录方面遇到困难。
该数据集的主要目的是帮助开发者专门针对 AAL 训练或微调他们的自动语音识别 (ASR) 模型,AAL 是一种由北美超过 3000 万劳动阶层非洲裔美国人使用的语言(Wolfram)。这一努力最终旨在提高日常 ASR 技术的包容性。
支持的任务和排行榜
[更多信息需补充]
语言
[更多信息需补充]
数据集结构
数据实例
[更多信息需补充]
数据字段
[更多信息需补充]
数据分割
[更多信息需补充]
数据集创建
策划理由
[更多信息需补充]
源数据
初始数据收集和规范化
[更多信息需补充]
源语言生产者是谁?
[更多信息需补充]
注释
注释过程
[更多信息需补充]
注释者是谁?
[更多信息需补充]
个人和敏感信息
[更多信息需补充]
使用数据的注意事项
数据集的社会影响
[更多信息需补充]
讨论偏见
[更多信息需补充]
其他已知限制
[更多信息需补充]
附加信息
数据集策展人
[更多信息需补充]
许可信息
引用信息
[更多信息需补充]
贡献
Kendall, Tyler 和 Charlie Farrington。2023。The Corpus of Regional African American Language。2023.06 版。Eugene, OR: The Online Resources for African American Language Project。[https://doi.org/10.7264/1ad5-6t35]。
Walt Wolfram。2020。Urban African American Vernacular English。 In: Kortmann, Bernd & Lunkenheimer, Kerstin & Ehret, Katharina (eds.) The Electronic World Atlas of Varieties of English。 None: None。 (Available online at http://ewave-atlas.org/languages/15, Accessed on 2023-09-26.)




