five

Chijioke-Mgbahurike/spot_data_aave_men

收藏
Hugging Face2024-05-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Chijioke-Mgbahurike/spot_data_aave_men
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含音频文件及其转录文本,以及相关的注释者ID、文件名、说话者数量、方言和口音信息、性别信息等特征。数据集分为训练集,包含198个样本,总大小为544161474.2449704字节。

该数据集包含音频文件及其转录文本,以及相关的注释者ID、文件名、说话者数量、方言和口音信息、性别信息等特征。数据集分为训练集,包含198个样本,总大小为544161474.2449704字节。
提供机构:
Chijioke-Mgbahurike
原始信息汇总

数据集概述

数据集特征

  • audio: 音频数据,采样率为16000。
  • Unnamed: 0: 整数类型。
  • transcription: 文本类型。
  • annotator_id: 浮点数类型。
  • filename: 文本类型。
  • num_speakers: 浮点数类型。
  • aave: 浮点数类型。
  • aave_speaker_count: 浮点数类型。
  • chicano_english: 浮点数类型。
  • ce_speaker_count: 浮点数类型。
  • spanglish: 浮点数类型。
  • spanglish_speaker_count: 浮点数类型。
  • sae: 浮点数类型。
  • sae_speaker_count: 浮点数类型。
  • codeswitching: 浮点数类型。
  • other_dialect_accent: 浮点数类型。
  • women: 浮点数类型。
  • women_speaker_count: 浮点数类型。
  • men: 浮点数类型。
  • men_speaker_count: 浮点数类型。
  • demographic_info_correct: 浮点数类型。
  • demographic_group: 文本类型。
  • input_values: 序列类型,数据类型为float32。
  • input_length: 浮点数类型。
  • labels: 序列类型,数据类型为int64。

数据集分割

  • train: 训练集,包含198个样本,数据大小为544161474.2449704字节。

数据集大小

  • 下载大小: 556722609字节。
  • 数据集大小: 544161474.2449704字节。

配置

  • config_name: default
  • data_files:
    • split: train
    • path: data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在语音识别与方言研究领域,数据集的构建需兼顾音频质量与方言标注的精确性。该数据集通过采集真实对话音频,以16kHz采样率记录语音信号,并辅以详尽的元数据标注。构建过程中,不仅收录了音频转录文本,还系统标注了说话者的方言特征,如非裔美国人口语英语、奇卡诺英语及西班牙语混合语等,同时统计了各类方言说话者数量,确保了数据的多样性与代表性。
特点
该数据集的核心特点在于其多维度方言标注与人口统计信息的融合。音频数据伴随精细的方言标识,涵盖非裔美国人口语英语、标准美国英语等多种变体,并记录了性别分布与说话者数量。特征字段如方言比例、说话者计数及人口统计群组信息,为研究方言变异、语音识别模型鲁棒性提供了丰富维度,支持跨方言与跨性别的对比分析。
使用方法
在语音技术研究中,该数据集适用于训练与评估方言敏感的自动语音识别系统。用户可加载音频特征与转录标签,利用输入序列与长度字段进行模型训练,重点关注方言与性别变量对识别性能的影响。通过整合人口统计与方言标注,研究者可探索多方言环境下的语音处理,或开发包容性语音技术,促进公平性评估。
背景与挑战
背景概述
在语音识别与方言研究领域,针对非裔美国人白话英语等特定语言变体的数据资源长期匮乏,制约了相关语音技术的公平性与包容性发展。Chijioke-Mgbahurike/spot_data_aave_men数据集由研究人员Chijioke Mgbahurike构建,旨在系统收录包含AAVE等多元方言特征的语音样本,并标注说话人性别、方言使用等社会语言学信息。该数据集的核心研究问题聚焦于如何为少数群体语言变体构建高质量的标注语料,以支持更精准、更具代表性的语音识别模型训练,对推动计算语言学中的公平性与多样性研究具有重要价值。
当前挑战
该数据集致力于解决方言与多语言混合场景下的语音识别挑战,尤其在非裔美国人白话英语等特定社会语言学变体的自动转写与分类任务中,模型需克服语音变异大、与主流英语差异显著等难题。在构建过程中,挑战主要体现在数据采集与标注环节:如何确保方言样本的真实性与代表性,如何设计精细的方言与社会人口属性标注体系,以及如何处理多说话人场景下的语音重叠与代码转换现象,这些都对数据集的构建质量与后续应用提出了严格要求。
常用场景
经典使用场景
在语音识别与方言研究领域,Chijioke-Mgbahurike/spot_data_aave_men数据集为探索非裔美国人白话英语(AAVE)及男性说话者语音特征提供了关键资源。该数据集收录了多说话人对话音频及详细标注,包括方言变体、性别分布及代码转换信息,常被用于训练和评估方言敏感的自动语音识别模型。研究者通过分析音频与转录文本的对应关系,能够深入理解AAVE在连续语音中的声学与语言模式,为方言语音识别技术的优化奠定基础。
实际应用
在实际应用中,该数据集能够助力开发更智能、更具包容性的语音交互系统。例如,在虚拟助手、客服语音分析及教育技术工具中,集成基于本数据训练的模型可提升对AAVE使用者的语音理解能力,改善用户体验。此外,在内容审核与媒体分析领域,该数据有助于识别和理解多方言环境中的语音内容,支持跨文化沟通与信息可及性项目,推动技术在社会服务中的公平部署。
衍生相关工作
围绕该数据集,已衍生出一系列关注方言语音处理的经典研究工作。例如,基于其多方言标注特性,研究者开发了方言分类与代码转换检测模型,探索了跨方言语音识别的迁移学习策略。同时,结合性别标注信息,相关研究深入分析了语音技术中的性别偏见问题,提出了去偏见的模型训练方法。这些工作不仅拓展了语音技术的应用边界,也为社会语言学中的实证研究提供了计算支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作