Chijioke-Mgbahurike/spot_data_spanglish

Name: Chijioke-Mgbahurike/spot_data_spanglish
Creator: Chijioke-Mgbahurike
Published: 2024-05-07 20:08:26
License: 暂无描述

Hugging Face2024-05-07 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Chijioke-Mgbahurike/spot_data_spanglish

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如音频、转录、注释者ID、文件名、说话者数量等。此外，还包含了一些方言和性别相关的特征，如AAVE（非裔美国人英语）、Chicano英语、Spanglish、SAE（标准美国英语）等。数据集的分割信息显示，训练集包含394个样本，总大小为1082826367.9420118字节。

提供机构：

Chijioke-Mgbahurike

原始信息汇总

数据集概述

数据集特征

audio: 音频数据，采样率为16000。
Unnamed: 0: 整数类型数据。
transcription: 字符串类型数据。
annotator_id: 浮点数类型数据。
filename: 字符串类型数据。
num_speakers: 浮点数类型数据。
aave: 浮点数类型数据。
aave_speaker_count: 浮点数类型数据。
chicano_english: 浮点数类型数据。
ce_speaker_count: 浮点数类型数据。
spanglish: 浮点数类型数据。
spanglish_speaker_count: 浮点数类型数据。
sae: 浮点数类型数据。
sae_speaker_count: 浮点数类型数据。
codeswitching: 浮点数类型数据。
other_dialect_accent: 浮点数类型数据。
women: 浮点数类型数据。
women_speaker_count: 浮点数类型数据。
men: 浮点数类型数据。
men_speaker_count: 浮点数类型数据。
demographic_info_correct: 浮点数类型数据。
demographic_group: 字符串类型数据。
input_values: 序列数据，类型为float32。
input_length: 浮点数类型数据。
labels: 序列数据，类型为int64。

数据集分割

train: 训练集，包含394个样本，数据大小为1082826367.9420118字节。

数据集大小

下载大小: 911971852字节。
数据集大小: 1082826367.9420118字节。

配置

config_name: default
data_files:
- split: train
- path: data/train-*

搜集汇总

数据集介绍

构建方式

在语言多样性与社会语言学交叉研究的背景下，Chijioke-Mgbahurike/spot_data_spanglish数据集应运而生。该数据集以西班牙语与英语混合的“Spanglish”语码转换现象为核心，系统采集了包含音频及其对应转录的语料。构建过程中，每段音频均标注了说话人数、性别构成、方言类型（如非裔美国人英语、奇卡诺英语、标准美式英语）及语码转换标记，并经由多位标注者独立评估以提升标签可靠性。数据以16kHz采样率存储为音频文件，辅以整数编码的输入特征与标签序列，最终形成394条训练样本的紧凑集合。

特点

该数据集的核心特质在于其多维度的社会语言标注体系。除基础转录外，每条样本均携带细粒度的方言归属分数（如aave、chicano_english、spanglish）及对应说话人计数，同时涵盖性别分布与人口统计信息正确性标记。这种设计使研究者能精准分离语码转换模式与特定方言特征，例如通过spanglish与codeswitching字段量化混合程度。此外，输入值（input_values）与标签（labels）的序列化存储为端到端模型提供了标准化预处理接口。

使用方法

数据集适用于语音识别、方言分类及语码转换检测等任务。使用时，可通过HuggingFace的datasets库加载train分片，利用audio字段提取波形，结合transcription文本进行监督学习。建议以input_values作为模型输入，labels作为目标输出，训练序列标注或分类架构。对于方言分析，可选取aave、spanglish等连续分数列作为回归目标，或按阈值离散化为类别标签。需注意样本量较小（394条），可配合数据增强或迁移学习策略提升泛化能力。

背景与挑战

背景概述

在自然语言处理与语音识别领域，多语言和方言混合的语料资源长期匮乏，尤其是涉及西班牙语与英语的混合变体——Spanglish，以及非裔美国人英语（AAVE）和奇卡诺英语等边缘化方言的系统性研究更是鲜有触及。由Chijioke-Mgbahurike团队于近年创建的spot_data_spanglish数据集，旨在填补这一空白，聚焦于美国多元文化社区中语音与语言的复杂交织现象。该数据集包含394条精心标注的音频样本，每条均记录了说话者的方言类别（如Spanglish、AAVE、奇卡诺英语等）、性别分布及语码转换情况，为探究社会语言学中的身份认同、语言接触与变异机制提供了稀缺的实证基础。其发布不仅推动了语音识别系统对非标准变体的包容性设计，更在计算社会语言学领域树立了新的研究标杆，引发了对语言公平性与技术伦理的深入思考。

当前挑战

该数据集所面临的挑战首先体现在领域问题的复杂性上：Spanglish及AAVE等方言的语音特征高度动态，同一说话者可能在不同语境中切换语码，导致自动语音识别系统难以捕捉其声学与语言模式的规律性，传统模型往往因缺乏代表性数据而出现高错误率。此外，数据集的构建过程亦充满障碍，包括标注者需具备跨文化语言知识以准确区分方言边界，而样本中说话者数量与方言标签的稀疏性（如某些类别仅由单一样本代表）又加剧了统计建模的不稳定性。更棘手的是，音频来源的多样性与背景噪声的混杂，使得特征提取与标准化处理面临严峻考验，如何在有限样本中平衡方言细粒度分类与模型泛化能力，成为当前技术突破的关键瓶颈。

常用场景

经典使用场景

在跨语言与跨方言语音识别研究中，Chijioke-Mgbahurike/spot_data_spanglish 数据集以其独特的双语混合语料——西班牙语与英语的融合变体“Spanglish”作为核心资源，成为探究语码转换（codeswitching）现象的经典基准。该数据集包含394条高保真16kHz采样音频，并精细标注了非裔美国人英语（AAVE）、奇卡诺英语、标准美式英语（SAE）以及Spanglish等多种方言与语种的分布比例，为多方言语音识别模型的训练与评估提供了极具代表性的数据支撑。研究者可借此系统性地分析语码转换的声学特征与语言边界，推动多语言混合场景下语音理解的前沿探索。

衍生相关工作

基于该数据集，学术界已衍生出多项具有影响力的经典工作。研究者利用其丰富的方言标注信息，构建了首个面向Spanglish的端到端语音识别基线模型，并对比了语码转换频率对识别性能的影响。随后，相关工作进一步拓展至方言迁移学习领域，通过预训练-微调策略将标准美式英语的语音识别知识迁移至AAVE与奇卡诺英语，显著降低了低资源方言的标注成本。此外，该数据集还催生了多任务学习框架的探索，将语种身份识别与语音内容转录联合优化，开创了双语混合语音理解的新范式，为后续如HuBERT-方言变体等自监督模型的研究奠定了坚实的数据基础。

数据集最近研究