five

hafsamenaz1/Group_H_Chinese-English-Code-Mixing-Prosody

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/hafsamenaz1/Group_H_Chinese-English-Code-Mixing-Prosody
下载链接
链接失效反馈
官方服务:
资源简介:
现有的混合语码语料库主要依赖于文本转录,缺乏研究转换边界韵律所需的精确声学对齐。本数据集提供了3小时精心策划的自然中英文混合语音,来源于多样化的社交媒体视频内容。我们采用双级注释方案:手动标记音位实现(原生口音与本地口音)、互动目标、情感状态和肢体动作(手势),同时在±200ms边界窗口内自动提取基频和强度指标。该语料库使语言学家和NLP研究人员能够定量评估音位口音转换在语码转换过程中与表演性韵律重置的相关程度。

--- license: CC BY 4.0 language: - 中文 - 英文 tags: - 语言学(linguistics) - 韵律学(prosody) - 语码混合(code-mixing) - 音频(audio) --- # 汉英语码混合(code-mixing)中的语音演变与韵律重设多模态数据集 ## 摘要 现有语码混合语料库多依赖文本转录,缺乏研究切换边界处韵律(prosody)所需的精准声学对齐信息。本数据集包含3小时经精心筛选、源自多元社交媒体视频内容的自然汉英语码混合语音。我们采用双层标注方案:针对语音实现形式(母语口音vs.本土口音)、交互对象、情感状态与肢体语言(gestures,手势)开展人工Token级标注,并在±200ms的边界窗口内自动提取基频(fundamental frequency)与声强(intensity)指标。该语料库可支持语言学家与自然语言处理(Natural Language Processing, NLP)研究人员定量评估语码切换过程中,语音口音偏移与表演性韵律重设的关联程度。 ## 数据集结构 * **`Lines.csv`**:包含各语码混合事件的Token级标注、时间戳与提取的声学特征(基频/声强)。 * **`Clips.csv`**:包含所用YouTube视频的元数据与来源链接。 * **`audio/`**:存储用于特征提取的原始音频文件。 ## 项目详情 * **课程**:LIN3046 * **小组**:H组 * **数据采集**:素材源自6位风格各异的YouTube视频博主。
提供机构:
hafsamenaz1
搜集汇总
数据集介绍
main_image_url
构建方式
本数据集源自对六位风格迥异的YouTube视频博主发布的社交媒介视频内容的精心筛选与采集,共汇集了三小时高质量、自然情境下的中英文语码混合语音数据。在构建过程中,我们创新性地采用了双重层级标注体系:在词汇层面,通过人工逐词标注实现了语音实现类型(母语发音与地域口音)、交互对象、情感状态及体态语(手势)的精准编码;同时,利用自动化算法提取了语码切换边界前后各200毫秒窗口内的基频与强度等声学度量指标。这种人工与自动相结合的策略,确保了数据在语言学细粒度与声学精准度上的双重可靠性。
使用方法
本数据集以结构化的文件组织形式呈现,包含三个主要组成部分:'Lines.csv'文件存储了每个语码混合事件的词汇级标注、时间戳及提取的声学特征(基频与强度);'Clips.csv'文件记录了所用YouTube视频的元数据与源链接;'audio'文件夹则存放了用于特征提取的原始音频文件。研究者可直接使用CSV文件进行统计分析或机器学习建模,亦可结合音频文件进行语音感知实验。数据集采用CC-BY-4.0许可协议,便于学术共享与复用。
背景与挑战
背景概述
该数据集创建于2024年,由LIN3046课程Group H项目团队开发,旨在应对汉英混合语码中韵律与音系转移现象的研究空白。现有语料库多依赖文本转写,缺乏精确的声学对齐信息,无法深入探究语码切换边界的韵律重置机制。本研究从六位YouTube博主的多样化视频中采集了3小时自然混合语码语音,并设计了双重标注方案:人工标注词素层面的音系实现(本土化口音与标准发音)、互动目标、情感状态及手势动作;同时自动提取切换边界前后±200毫秒内的基频与强度指标。该数据集为语言学家与自然语言处理研究者提供了量化评估语码切换过程中音系口音转移与表现性韵律重置之间关联的工具,对计算语言学与语音学交叉领域具有重要影响力。
当前挑战
该数据集核心挑战在于解决语码混合研究中的领域问题:现有理论多基于文本分析,缺乏对语音层面韵律与音系交互的实证数据支撑,难以揭示语码切换时声学特征的动态变化规律。构建过程中面临多重困难:自然混合语码的采集需从社交媒体海量视频中筛选真实对话场景,保证语音多样性同时避免人为干扰;双重标注方案既要求人工精准划分词素层音系类型,又需同步标注手势等非语言特征;韵律特征的自动提取需跨越±200毫秒边界窗口确保声学参数稳定,而YouTube音源质量参差与背景噪声更增加了数据清洗的复杂度。
常用场景
经典使用场景
该数据集专为研究语码转换中的韵律重置与音系迁移现象而设计,经典使用场景聚焦于量化和分析中英双语者在自然对话中切换语言时,声学特征(如基频、音强)与语音实现(本土口音或地方口音)之间的动态关联。通过精确对齐的声学测量和双层级标注,研究者能够系统性地考察语码边界处的韵律变化模式,从而揭示双语者如何通过语音信号传递社会身份、情感状态或交互意图。
解决学术问题
该数据集解决了现有语料库普遍缺乏精准声学对齐标注的核心痛点,使得语言学领域长期悬而未决的问题——即语音迁移与韵律重置在语码转换中是否具有共变关系——得以被严谨量化检验。它推动了基于声学证据的双语语音现象实证研究,弥补了传统文本语料库在韵律分析上的不足,为跨语言语音产出与感知理论提供了高分辨率数据支撑,显著提升了双语互动中语音变异研究的可重复性与科学性。
实际应用
在实际应用中,该数据集可直接服务于多语言语音合成系统与对话智能助手的韵律建模,助力其在中英混合语境中生成更自然、富有表现力的语音输出。此外,它可为计算机辅助语言教学工具提供声学参数基准,帮助学习者识别和练习语码转换中的地道韵律特征;也可应用于情感计算领域,通过分析语码边界处的声学偏移增强对双语用户情感状态的识别能力。
数据集最近研究
最新研究方向
该数据集聚焦于中英混码语料中音系迁移与韵律重置的跨模态研究,通过精细化的声学边界标注与双层级注释体系,为揭示语码转换时口音漂移与韵律重置之间的协同机制提供了量化分析工具。结合社交媒体视频的自然语料,该资源推动了音系学与自然语言处理在代码混合语音领域的交叉探索,尤其为多模态情感识别、手势同步分析及方言口音建模等前沿方向注入了实证数据支撑,对理解双语者言语编码的认知神经基础具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作