Chijioke-Mgbahurike/spot_data_sae_women

Name: Chijioke-Mgbahurike/spot_data_sae_women
Creator: Chijioke-Mgbahurike
Published: 2024-05-07 20:07:52
License: 暂无描述

Hugging Face2024-05-07 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Chijioke-Mgbahurike/spot_data_sae_women

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: audio dtype: audio: sampling_rate: 16000 - name: 'Unnamed: 0' dtype: int64 - name: transcription dtype: string - name: annotator_id dtype: float64 - name: filename dtype: string - name: num_speakers dtype: float64 - name: aave dtype: float64 - name: aave_speaker_count dtype: float64 - name: chicano_english dtype: float64 - name: ce_speaker_count dtype: float64 - name: spanglish dtype: float64 - name: spanglish_speaker_count dtype: float64 - name: sae dtype: float64 - name: sae_speaker_count dtype: float64 - name: codeswitching dtype: float64 - name: other_dialect_accent dtype: float64 - name: women dtype: float64 - name: women_speaker_count dtype: float64 - name: men dtype: float64 - name: men_speaker_count dtype: float64 - name: demographic_info_correct dtype: float64 - name: demographic_group dtype: string - name: input_values sequence: float32 - name: input_length dtype: float64 - name: labels sequence: int64 splits: - name: train num_bytes: 1951286094.514793 num_examples: 710 download_size: 2136809113 dataset_size: 1951286094.514793 configs: - config_name: default data_files: - split: train path: data/train-* ---

dataset_info: features: - name: 音频（audio） dtype: audio: sampling_rate: 16000 赫兹 - name: 未命名列0（Unnamed: 0） dtype: 64位整型（int64） - name: 转录文本（transcription） dtype: 字符串 - name: 标注者ID（annotator_id） dtype: 64位浮点型 - name: 文件名（filename） dtype: 字符串 - name: 说话者数量（num_speakers） dtype: 64位浮点型 - name: 非洲裔美国英语（AAVE） dtype: 64位浮点型 - name: AAVE说话者数量（aave_speaker_count） dtype: 64位浮点型 - name: 奇卡诺英语（Chicano English） dtype: 64位浮点型 - name: 奇卡诺英语说话者数量（ce_speaker_count） dtype: 64位浮点型 - name: 西班牙式英语（Spanglish） dtype: 64位浮点型 - name: 西班牙式英语说话者数量（spanglish_speaker_count） dtype: 64位浮点型 - name: 标准美国英语（SAE） dtype: 64位浮点型 - name: 标准美国英语说话者数量（sae_speaker_count） dtype: 64位浮点型 - name: 语码转换（codeswitching） dtype: 64位浮点型 - name: 其他方言口音（other_dialect_accent） dtype: 64位浮点型 - name: 女性占比（women） dtype: 64位浮点型 - name: 女性说话者数量（women_speaker_count） dtype: 64位浮点型 - name: 男性占比（men） dtype: 64位浮点型 - name: 男性说话者数量（men_speaker_count） dtype: 64位浮点型 - name: 人口统计信息正确性（demographic_info_correct） dtype: 64位浮点型 - name: 人口统计群体（demographic_group） dtype: 字符串 - name: 输入特征值（input_values） dtype: 单精度浮点型（float32）序列 - name: 输入长度（input_length） dtype: 64位浮点型 - name: 标签（labels） dtype: 64位整型序列 splits: - name: 训练集（train） num_bytes: 1951286094.514793 num_examples: 710 download_size: 2136809113 dataset_size: 1951286094.514793 configs: - config_name: 默认配置（default） data_files: - split: 训练集（train） path: data/train-*

提供机构：

Chijioke-Mgbahurike

原始信息汇总

数据集概述

数据集特征

audio: 音频数据，采样率为16000。
Unnamed: 0: 整数类型数据。
transcription: 字符串类型数据。
annotator_id: 浮点数类型数据。
filename: 字符串类型数据。
num_speakers: 浮点数类型数据。
aave: 浮点数类型数据。
aave_speaker_count: 浮点数类型数据。
chicano_english: 浮点数类型数据。
ce_speaker_count: 浮点数类型数据。
spanglish: 浮点数类型数据。
spanglish_speaker_count: 浮点数类型数据。
sae: 浮点数类型数据。
sae_speaker_count: 浮点数类型数据。
codeswitching: 浮点数类型数据。
other_dialect_accent: 浮点数类型数据。
women: 浮点数类型数据。
women_speaker_count: 浮点数类型数据。
men: 浮点数类型数据。
men_speaker_count: 浮点数类型数据。
demographic_info_correct: 浮点数类型数据。
demographic_group: 字符串类型数据。
input_values: 序列数据，类型为float32。
input_length: 浮点数类型数据。
labels: 序列数据，类型为int64。

数据集分割

train: 训练集，包含710个样本，数据大小为1951286094.514793字节。

数据集大小

下载大小: 2136809113字节
数据集大小: 1951286094.514793字节

配置

config_name: default
- data_files:
  - split: train
    - path: data/train-*

搜集汇总

数据集介绍

构建方式

在语音语言资源建设领域，针对特定社会语言群体的数据集构建尤为关键。该数据集以非洲裔美国女性语音为焦点，从SPOT语料库中精心筛选并整合而成。构建过程中，首先对原始音频进行16kHz采样率的标准化处理，确保声学特征的一致性。随后，由专业标注员对每条语音进行转录，并系统记录说话人数量、性别分布及方言特征（如非洲裔美国英语、奇卡诺英语、西班牙英语、标准美国英语及语码转换现象）。每段音频均被赋予人口统计学标签，涵盖性别比例与方言归属，同时标注了标注员对人口学信息准确性的判断。最终，数据经过声学特征提取，生成包含input_values、input_length及labels的结构化表示，形成710条训练样本的完整数据集。

特点

该数据集最显著的特点在于其精细的多维度标签体系，为交叉性社会语言学研究提供了独特资源。每条样本不仅包含标准的音频与文本转录，更配备了详尽的方言标注（如AAVE、Chicano English、Spanglish、SAE及语码转换），每种方言均独立记录其说话人数量，从而支持细粒度的方言识别与混合分析。性别维度同样被深度解析，分别统计男性和女性说话人数量，并明确标注是否以女性为主导，契合数据集名称中“women”的核心定位。此外，demographic_info_correct字段反映了标注员对人口学信息可靠性的评估，增强了数据的可信度。音频特征已预处理为固定长度的input_values序列，便于直接输入深度学习模型，降低了用户预处理门槛。

使用方法

本数据集适用于语音识别、方言识别、性别语音分析及社会语言学建模等任务。用户可通过HuggingFace Datasets库直接加载，指定配置为default并调用train split即可获取结构化数据。每条样本的audio字段为16kHz单声道音频，可直接用于波形分析或特征提取；transcription字段提供文本标注，支持语音-文本对齐任务。方言与性别标签以浮点数形式存储，便于进行多标签分类或回归分析。对于需要原始音频长度的场景，input_length字段提供了精确的帧数信息。labels字段为预处理后的整数序列，适用于端到端模型的直接训练。建议研究者结合demographic_info_correct字段过滤不可靠样本，以提升模型在特定群体上的表现鲁棒性。

背景与挑战

背景概述

在语音识别与方言学交叉研究领域，非标准英语变体的系统性数据缺失长期制约着技术公平性与学术深度。Chijioke-Mgbahurike/spot_data_sae_women数据集由研究者Chijioke-Mgbahurike于近期创建，核心聚焦于美国女性说话者所使用的主流英语（SAE）及其与非裔美国人英语（AAVE）、奇卡诺英语、西班牙语混合语等变体的共存现象。该数据集包含710条经过精细标注的音频样本，每条样本均标注了说话者人数、方言类型、性别分布及人口学信息，旨在探究女性群体在多方言环境中的语音特征与语言身份。其发布为语音技术中性别与方言交叉不平等问题的量化研究提供了稀缺资源，并对推动包容性语音识别系统的开发具有重要学术价值。

当前挑战

该数据集面临的核心挑战之一在于领域问题层面：现有语音系统往往基于标准化英语训练，对AAVE、Spanglish等非主流变体的识别准确率显著偏低，而女性说话者的语言特征（如音高、语速）在方言混合场景中更易被模型忽略，导致系统性偏差。此外，构建过程中亦存在多重困难：一是从原始音频中精准区分不同方言的说话者身份及其性别归属，需依赖高成本的人工标注与专家审核；二是样本规模仅710条，远不足以覆盖美国地域方言的完整谱系，可能引入采样偏差；三是方言标注的主观性（如判断“其他口音”类别）易导致标签噪声，影响模型训练的鲁棒性。

常用场景

经典使用场景

在语音与语言技术领域，Chijioke-Mgbahurike/spot_data_sae_women数据集以其精细标注的方言特征与说话人人口统计信息，成为研究非标准英语变体（如非裔美国人英语、奇卡诺英语、西班牙英语混合语）与标准美式英语之间声学与语言差异的经典资源。研究者常利用该数据集训练和评估多方言语音识别系统，尤其关注女性说话人的语音模式，从而探究性别与方言在语音信号中的交织影响。

衍生相关工作

基于该数据集，衍生出一系列重要工作，包括方言自适应语音识别模型、性别去偏的声学特征提取方法，以及跨方言语音转换系统。部分研究利用其细粒度的方言和说话人计数信息，构建了方言识别与说话人验证的联合学习框架，推动了多任务语音分析的发展。此外，该数据还启发了针对低资源方言的数据增强策略，为后续研究提供了方法论参考。

数据集最近研究