Chijioke-Mgbahurike/spot_data_sae_women
收藏Hugging Face2024-05-07 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Chijioke-Mgbahurike/spot_data_sae_women
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: 'Unnamed: 0'
dtype: int64
- name: transcription
dtype: string
- name: annotator_id
dtype: float64
- name: filename
dtype: string
- name: num_speakers
dtype: float64
- name: aave
dtype: float64
- name: aave_speaker_count
dtype: float64
- name: chicano_english
dtype: float64
- name: ce_speaker_count
dtype: float64
- name: spanglish
dtype: float64
- name: spanglish_speaker_count
dtype: float64
- name: sae
dtype: float64
- name: sae_speaker_count
dtype: float64
- name: codeswitching
dtype: float64
- name: other_dialect_accent
dtype: float64
- name: women
dtype: float64
- name: women_speaker_count
dtype: float64
- name: men
dtype: float64
- name: men_speaker_count
dtype: float64
- name: demographic_info_correct
dtype: float64
- name: demographic_group
dtype: string
- name: input_values
sequence: float32
- name: input_length
dtype: float64
- name: labels
sequence: int64
splits:
- name: train
num_bytes: 1951286094.514793
num_examples: 710
download_size: 2136809113
dataset_size: 1951286094.514793
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
dataset_info:
features:
- name: 音频(audio)
dtype:
audio:
sampling_rate: 16000 赫兹
- name: 未命名列0(Unnamed: 0)
dtype: 64位整型(int64)
- name: 转录文本(transcription)
dtype: 字符串
- name: 标注者ID(annotator_id)
dtype: 64位浮点型
- name: 文件名(filename)
dtype: 字符串
- name: 说话者数量(num_speakers)
dtype: 64位浮点型
- name: 非洲裔美国英语(AAVE)
dtype: 64位浮点型
- name: AAVE说话者数量(aave_speaker_count)
dtype: 64位浮点型
- name: 奇卡诺英语(Chicano English)
dtype: 64位浮点型
- name: 奇卡诺英语说话者数量(ce_speaker_count)
dtype: 64位浮点型
- name: 西班牙式英语(Spanglish)
dtype: 64位浮点型
- name: 西班牙式英语说话者数量(spanglish_speaker_count)
dtype: 64位浮点型
- name: 标准美国英语(SAE)
dtype: 64位浮点型
- name: 标准美国英语说话者数量(sae_speaker_count)
dtype: 64位浮点型
- name: 语码转换(codeswitching)
dtype: 64位浮点型
- name: 其他方言口音(other_dialect_accent)
dtype: 64位浮点型
- name: 女性占比(women)
dtype: 64位浮点型
- name: 女性说话者数量(women_speaker_count)
dtype: 64位浮点型
- name: 男性占比(men)
dtype: 64位浮点型
- name: 男性说话者数量(men_speaker_count)
dtype: 64位浮点型
- name: 人口统计信息正确性(demographic_info_correct)
dtype: 64位浮点型
- name: 人口统计群体(demographic_group)
dtype: 字符串
- name: 输入特征值(input_values)
dtype: 单精度浮点型(float32)序列
- name: 输入长度(input_length)
dtype: 64位浮点型
- name: 标签(labels)
dtype: 64位整型序列
splits:
- name: 训练集(train)
num_bytes: 1951286094.514793
num_examples: 710
download_size: 2136809113
dataset_size: 1951286094.514793
configs:
- config_name: 默认配置(default)
data_files:
- split: 训练集(train)
path: data/train-*
提供机构:
Chijioke-Mgbahurike
原始信息汇总
数据集概述
数据集特征
- audio: 音频数据,采样率为16000。
- Unnamed: 0: 整数类型数据。
- transcription: 字符串类型数据。
- annotator_id: 浮点数类型数据。
- filename: 字符串类型数据。
- num_speakers: 浮点数类型数据。
- aave: 浮点数类型数据。
- aave_speaker_count: 浮点数类型数据。
- chicano_english: 浮点数类型数据。
- ce_speaker_count: 浮点数类型数据。
- spanglish: 浮点数类型数据。
- spanglish_speaker_count: 浮点数类型数据。
- sae: 浮点数类型数据。
- sae_speaker_count: 浮点数类型数据。
- codeswitching: 浮点数类型数据。
- other_dialect_accent: 浮点数类型数据。
- women: 浮点数类型数据。
- women_speaker_count: 浮点数类型数据。
- men: 浮点数类型数据。
- men_speaker_count: 浮点数类型数据。
- demographic_info_correct: 浮点数类型数据。
- demographic_group: 字符串类型数据。
- input_values: 序列数据,类型为float32。
- input_length: 浮点数类型数据。
- labels: 序列数据,类型为int64。
数据集分割
- train: 训练集,包含710个样本,数据大小为1951286094.514793字节。
数据集大小
- 下载大小: 2136809113字节
- 数据集大小: 1951286094.514793字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- split: train
- data_files:
搜集汇总
数据集介绍

构建方式
在语音语言资源建设领域,针对特定社会语言群体的数据集构建尤为关键。该数据集以非洲裔美国女性语音为焦点,从SPOT语料库中精心筛选并整合而成。构建过程中,首先对原始音频进行16kHz采样率的标准化处理,确保声学特征的一致性。随后,由专业标注员对每条语音进行转录,并系统记录说话人数量、性别分布及方言特征(如非洲裔美国英语、奇卡诺英语、西班牙英语、标准美国英语及语码转换现象)。每段音频均被赋予人口统计学标签,涵盖性别比例与方言归属,同时标注了标注员对人口学信息准确性的判断。最终,数据经过声学特征提取,生成包含input_values、input_length及labels的结构化表示,形成710条训练样本的完整数据集。
特点
该数据集最显著的特点在于其精细的多维度标签体系,为交叉性社会语言学研究提供了独特资源。每条样本不仅包含标准的音频与文本转录,更配备了详尽的方言标注(如AAVE、Chicano English、Spanglish、SAE及语码转换),每种方言均独立记录其说话人数量,从而支持细粒度的方言识别与混合分析。性别维度同样被深度解析,分别统计男性和女性说话人数量,并明确标注是否以女性为主导,契合数据集名称中“women”的核心定位。此外,demographic_info_correct字段反映了标注员对人口学信息可靠性的评估,增强了数据的可信度。音频特征已预处理为固定长度的input_values序列,便于直接输入深度学习模型,降低了用户预处理门槛。
使用方法
本数据集适用于语音识别、方言识别、性别语音分析及社会语言学建模等任务。用户可通过HuggingFace Datasets库直接加载,指定配置为default并调用train split即可获取结构化数据。每条样本的audio字段为16kHz单声道音频,可直接用于波形分析或特征提取;transcription字段提供文本标注,支持语音-文本对齐任务。方言与性别标签以浮点数形式存储,便于进行多标签分类或回归分析。对于需要原始音频长度的场景,input_length字段提供了精确的帧数信息。labels字段为预处理后的整数序列,适用于端到端模型的直接训练。建议研究者结合demographic_info_correct字段过滤不可靠样本,以提升模型在特定群体上的表现鲁棒性。
背景与挑战
背景概述
在语音识别与方言学交叉研究领域,非标准英语变体的系统性数据缺失长期制约着技术公平性与学术深度。Chijioke-Mgbahurike/spot_data_sae_women数据集由研究者Chijioke-Mgbahurike于近期创建,核心聚焦于美国女性说话者所使用的主流英语(SAE)及其与非裔美国人英语(AAVE)、奇卡诺英语、西班牙语混合语等变体的共存现象。该数据集包含710条经过精细标注的音频样本,每条样本均标注了说话者人数、方言类型、性别分布及人口学信息,旨在探究女性群体在多方言环境中的语音特征与语言身份。其发布为语音技术中性别与方言交叉不平等问题的量化研究提供了稀缺资源,并对推动包容性语音识别系统的开发具有重要学术价值。
当前挑战
该数据集面临的核心挑战之一在于领域问题层面:现有语音系统往往基于标准化英语训练,对AAVE、Spanglish等非主流变体的识别准确率显著偏低,而女性说话者的语言特征(如音高、语速)在方言混合场景中更易被模型忽略,导致系统性偏差。此外,构建过程中亦存在多重困难:一是从原始音频中精准区分不同方言的说话者身份及其性别归属,需依赖高成本的人工标注与专家审核;二是样本规模仅710条,远不足以覆盖美国地域方言的完整谱系,可能引入采样偏差;三是方言标注的主观性(如判断“其他口音”类别)易导致标签噪声,影响模型训练的鲁棒性。
常用场景
经典使用场景
在语音与语言技术领域,Chijioke-Mgbahurike/spot_data_sae_women数据集以其精细标注的方言特征与说话人人口统计信息,成为研究非标准英语变体(如非裔美国人英语、奇卡诺英语、西班牙英语混合语)与标准美式英语之间声学与语言差异的经典资源。研究者常利用该数据集训练和评估多方言语音识别系统,尤其关注女性说话人的语音模式,从而探究性别与方言在语音信号中的交织影响。
衍生相关工作
基于该数据集,衍生出一系列重要工作,包括方言自适应语音识别模型、性别去偏的声学特征提取方法,以及跨方言语音转换系统。部分研究利用其细粒度的方言和说话人计数信息,构建了方言识别与说话人验证的联合学习框架,推动了多任务语音分析的发展。此外,该数据还启发了针对低资源方言的数据增强策略,为后续研究提供了方法论参考。
数据集最近研究
最新研究方向
在当前语音识别与方言多样性交叉的前沿领域中,Chijioke-Mgbahurike/spot_data_sae_women数据集聚焦于非裔美国人英语(AAVE)、奇卡诺英语、西班牙语混合语以及标准美国英语(SAE)等多元语体在女性群体中的声学与转写特征。该数据集通过精细标注说话人数量、方言类型及代码转换现象,为探究性别与方言变体在语音技术中的表征差异提供了稀缺资源。近期研究热点集中于利用此类细粒度标注数据训练更包容的自动语音识别模型,以缓解主流系统对非标准方言的偏见,尤其在女性语音的方言多样性建模方面,该数据集成为推动公平性语音技术发展的关键基石,其意义在于揭示并弥合语言多样性在智能语音交互中的代表性鸿沟。
以上内容由遇见数据集搜集并总结生成



