five

eduhk-compling/GroupJ_Project

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/eduhk-compling/GroupJ_Project
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集捕捉了日本粤语学习者在音段和超音段方面面临的挑战。约一小时的语音数据来自两位社交媒体创作者(Threads上的@aa_mung和@meiceon51)。视频被下载后,音频轨道被分离,并使用Praat分割成单句片段。转录是手动完成的,并经过准确性检查,最终转换为带有对齐元数据的CSV格式。标注突出了音段错误(如发音)和超音段问题(如声调变化、停顿)。数据集在Hugging Face上公开可用,可用于语言分析、教学和NLP错误检测。

This dataset captures segmental and suprasegmental challenges faced by Japanese learners of Cantonese. Approximately one hour of learner speech was collected from two social media creators (@aa_mung and @meiceon51 on Threads). Videos were downloaded, audio tracks separated, and segmented into single‑sentence clips using Praat. Transcriptions were manually produced, checked for accuracy, and converted into CSV format with aligned metadata. Annotations highlight segmental errors (e.g., articulation) and suprasegmental issues (e.g., tone shifts, pauses). The dataset is openly available on Hugging Face and offers reuse potential for linguistic analysis, pedagogy, and NLP error detection.
提供机构:
eduhk-compling
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集聚焦于日语母语者在学习粤语时所遭遇的音段与超音段层面的发音挑战。研究团队从社交媒体Threads平台选取了两位创作者(@aa_mung 和 @meiceon51)的语料,采集了约一小时的语音样本。通过下载视频并分离音频轨道,利用Praat软件将连续语音切分为单句片段,随后进行人工转写与校对,最终将数据整理为包含对齐元数据的CSV格式。标注体系精细刻画了音段错误(如发音不准)与超音段问题(如声调偏移、停顿),为后续语言学研究提供了结构化支撑。
特点
本数据集具有鲜明的语言学专业性与针对性。其独到之处在于对日语母语者粤语发音错误的系统化编码,例如以百分比符号标记话流中的停顿,用括号标示发音错误,并通过箭头符号描绘声调的高低方向变化。这些元数据不仅涵盖了常见的音段错误,更深入到超音段层面的韵律特征,为探究第二语言习得中的声调感知与产出机制提供了稀缺的实证资源。
使用方法
数据集以CSV格式发布,便于直接加载至Python的Pandas或R语言的tidyverse等数据分析工具中进行处理。研究者可根据标注符号筛选特定类型的错误实例,用于语音识别系统的错误检测训练、第二语言教学中的针对性纠音,或作为计算语言学模型评估的基准语料。此外,语音文件与对应文本的对齐结构支持声学分析,示例可从Hugging Face仓库中轻松获取并复现相关研究。
背景与挑战
背景概述
在第二语言习得研究中,声调语言的韵律与音段习得一直是跨语言语音学关注的核心议题。日语为音高重音语言,而粤语则拥有复杂的六调系统,两者在声调与音节结构上存在显著差异,这使得日语母语者在习得粤语时面临独特的语音障碍。为此,本数据集“GroupJ_Project”于近年由研究者通过社交媒体收集两位知名粤语学习者(@aa_mung和@meiceon51)的约一小时发音素材创建,经Praat软件切割、人工校对并转换为CSV格式,系统标注了音段错误(如发音偏误)与超音段错误(如音高偏移、停顿)。该数据集为日语母语者粤语语音习得研究提供了第一手实证资源,对二语语音教学及自动错误检测技术的发展具有重要推动意义。
当前挑战
该数据集主要挑战涵盖两大层面。在领域问题层面,粤语作为声调语言,其音高变化直接影响词义区分,而日语母语者普遍难以准确感知并产出六种声调,易出现声调混淆与音高偏移;此外,粤语中丰富的入声韵尾与复合元音对日语母语者的音段发音构成显著困难。在构建过程中,挑战表现为:从社交媒体视频中提取高质量、单句级别的语音数据需克服背景噪声与环境差异;人工转写与声调标注高度依赖专家经验,需避免主观偏差;标注系统需统一符号标准以准确记录音段与超音段错误,保证数据一致性与可复用性。
常用场景
经典使用场景
在第二语言习得与语音学交叉研究领域,GroupJ_Project数据集为探究日语母语者学习粤语时的语音产出特征提供了珍贵语料。该数据集聚焦于音段层面(如发音部位与方式的错误)与超音段层面(如声调偏移、不当停顿)的双重挑战,通过精细标注的学习者语音片段,支持研究人员系统分析跨语言语音迁移的规律。研究者可借助该资源开展对比分析,量化母语(日语)与目标语(粤语)在音系结构上的差异如何影响学习者的口语表现,从而深化对粤语作为声调语言习得难点的理解。
实际应用
在实际应用中,该数据集直接服务于粤语教学与智能语言学习系统的开发。教学领域,教师可依据标注的典型错误(如声调混淆、辅音替换)设计针对性纠音练习,提升教学效率。技术领域,数据集为构建语音错误自动检测模型提供了训练与测试基准,支持开发实时反馈的发音校正工具;其标注格式亦可适配语音识别系统,帮助优化非母语者粤语语音的识别准确率。此外,数据集的开放性使其易于集成至计算机辅助语言学习(CALL)平台,促进个性化学习路径的生成。
衍生相关工作
基于该数据集,已催生出多项相关学术探索。其一,研究团队可能将其扩展至跨语言声调感知模型,比较日语(非声调语言)与粤语(声调语言)学习者的神经认知差异。其二,标注体系可为构建多语言错误标注框架提供范式参考,如将音段/超音段分类符号标准化后应用于英-粤、法-粤等其他语言对。其三,该数据集的社交媒体采集模式(来自Threads创作者)启发了利用开放平台语料进行二语习得研究的新方法论,推动低成本、大规模学习者语料库的构建,并可能衍生出关于非正式学习环境中语音特征与自然度关联性的分析工作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作