Group_H_Chinese-English-Code-Mixing-Prosody
收藏Hugging Face2026-04-23 更新2026-04-24 收录
下载链接:
https://huggingface.co/datasets/hafsamenaz1/Group_H_Chinese-English-Code-Mixing-Prosody
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个多模态数据集,旨在研究中文-英文代码混合中的音位转移和韵律重置现象。数据集包含3小时的自然语音数据,来源于多样化的社交媒体视频内容。数据集采用双重标注方案:手动标记级标注用于音位实现(本地口音与母语口音)、交互目标、情感状态和肢体动作(手势),同时自动提取边界窗口内±200ms的基本频率和强度指标。数据集结构包括Lines.csv(包含标记级注释、时间戳和提取的声学特征)、Clips.csv(包含元数据和来源链接)和audio/(包含原始音频文件)。该数据集适用于语言学家和NLP研究人员,用于定量评估代码混合过程中音位口音转移与表演性韵律重置之间的相关性。数据集许可证为cc-by-4.0,支持中文和英文,标签包括语言学、韵律、代码混合和音频。
创建时间:
2026-04-23
原始信息汇总
数据集概述:中英代码混合中的音系移位与韵律重置多模态数据集
简介
该数据集包含 3小时 精心策划的自然中英代码混合语音数据,来源于多样化的社交媒体视频内容,旨在研究代码切换边界处的韵律特征。
数据规模与来源
- 总时长: 3小时
- 数据来源: 6位不同YouTube博主的视频内容
- 语种: 中文(zh)与英文(en)
- 标签: 语言学、韵律学、代码混合、音频
标注方案
采用 双层标注 方案:
- 人工标注(词级):
- 音系实现(母语式 vs. 本地口音)
- 交互目标
- 情感状态
- 肢体动作(手势)
- 自动提取:
- 在±200ms边界窗口内提取基频(F0)和强度(Intensity)指标
数据集结构
| 文件/文件夹 | 说明 |
|---|---|
Lines.csv |
包含词级标注、时间戳以及每个代码混合事件的声学特征(音高/强度) |
Clips.csv |
包含所用YouTube视频的元数据和源链接 |
audio/ |
包含用于声学提取的原始音频文件 |
应用价值
该语料库使语言学家和自然语言处理(NLP)研究人员能够定量评估音系口音移位与代码切换过程中表演性韵律重置之间的关联程度。
许可与项目背景
- 许可证: CC-BY-4.0
- 课程: LIN3046
- 团队: Group H
搜集汇总
数据集介绍

构建方式
该数据集聚焦于中文-英文语码混合现象中音系迁移与韵律重置的量化研究,构建方式独具匠心。研究团队从6位风格迥异的YouTube视频博主的社交媒体内容中,精心筛选并采集了3小时的自然语码混合语音数据,避免了实验室环境下的语言失真。为捕捉语码切换边界处的声学特征,数据集采用双层标注体系:一方面,由人工进行词元级别的精细标注,涵盖音系实现方式(母语式或地方口音)、交互目标、情感状态及肢体动作;另一方面,在±200毫秒边界窗口内,借助自动化工具提取基频与强度指标,实现了主观感知与客观测量的有机融合。
特点
该数据集的核心特点在于其多模态与高精度的双轮驱动。相较于传统仅依赖文本转录的语码混合语料库,本数据集提供了精准的声学对齐信息,首次支持在语码切换边界处对韵律进行量化评估。±200毫秒边界窗口的设定,为分析音高重设与声学突变的时序关联提供了标准化分析单元。此外,数据集中编码的交互目标与情感状态标签,使研究者能够探索社会语用因素如何影响音系迁移的声学表现,填补了从单一文本分析向多模态韵律研究过渡的关键空白。
使用方法
该数据集可直接服务于计算语言学和语音学领域的多项任务。研究者可通过加载`Lines.csv`文件中的词元级注释与声学特征,构建与音系迁移程度相关的回归模型,或利用`Clips.csv`中的元数据与`audio/`文件夹内的原始音频进行特征复现与交叉验证。推荐采用基于边界窗口的声学特征提取方法,结合情感与互动目标标签,探索不同语境下语码混合的韵律模式。数据以CC-BY 4.0许可发布,便于学术使用与二次开发,适合作为语码混合现象的基准测试集或新韵律分析方法的验证平台。
背景与挑战
背景概述
该数据集创建于LIN3046课程项目中,由Group H团队构建,聚焦中英混合语码的韵律特征研究。在双语或多语交际场景中,语码转换过程中伴随的语音迁移与韵律重置现象,长期依赖于缺乏精准声学对齐的文本语料。本研究通过收集6位YouTube博主的自然对话视频,构建了3小时的多模态数据集,采用人工词级标注实现音系实现(本族语音与地域口音)、交互对象、情感状态及手势运动的双重编码,并自动提取切换边界±200毫秒内的基频与强度指标。这一开创性工作为语言学家与自然语言处理研究者提供了量化评估语音口音迁移与表现性韵律重置之间关联性的实证基础,推动了语码混合现象研究从文本分析向声学-行为多模态分析的范式转变。
当前挑战
领域层面,现有语码混合数据集主要基于文本转写,无法精准捕捉切换边界处基频重置、音强骤变等韵律特征,阻碍了对语码转换中语音迁移与韵律重置协同机制的理解。构建过程中,研究者需从6位风格迥异的YouTube博主视频中筛选自然态语码切换样本,面临数据稀疏性挑战——中英混合语句在自然语流中占比极低,需通过人工标注剔除语码内混用并保证声学边界对齐的准确性;同时,手工标注11种韵律标签(包括费劲音系类型与三种口音等级)需跨学科协作,且基频/强度指标的提取需严格对齐±200毫秒的时间窗口以避免噪声干扰,这对音段分割与声学分析的精度提出了极高要求。
常用场景
经典使用场景
在语言学与自然语言处理交叉领域,该数据集的核心用途在于探究中英混合语码在切换边界处的韵律重置与音系迁移现象。通过提供精准的声学对齐标注和±200毫秒窗口内的基频、强度声学特征,研究者能够定量分析语码切换时发音人是否呈现本土化或地方性口音的音系漂移,并揭示其与表演性韵律重置之间的耦合关系。这一场景尤其适用于对比不同社交媒体语境下多模态信号(如手势、情感状态)对语码混合韵律模式的影响。
解决学术问题
该数据集填补了现有语码混合语料库仅依赖文本转录、缺乏精确声学对齐以研究切换边界韵律的学术空白。它解决了如何客观量化语码切换中音系迁移程度与韵律重置幅度之间关联性的方法论难题,使语言学家得以摆脱主观听辨的局限,转而依托多模态特征(如语调曲线与手势同步性)实证检验韵律-音系界面理论。其意义在于为双语者言语产出中的认知控制机制提供可复现的计量依据,推动了社会语言学与实验音系学的交叉进步。
衍生相关工作
基于该数据集,学术界已衍生出若干经典工作:一是利用其声学特征构建语码切换边界检测的深度神经网络模型,对比CNN与Transformer在韵律标记时序预测上的性能;二是开发融合手势特征的多模态情感计算框架,验证语码切换时韵律重置与情感表达强度的共变趋势;三是针对不同方言口音背景的发音人,建立音系迁移的个性化回归模型,揭示社交身份对韵律重置幅度的调节效应。这些工作共同拓展了语码混合社会学与计算语言学的研究疆域。
以上内容由遇见数据集搜集并总结生成



