five

GroupE_groupproject_DayoWong_StandUp_Comedy

收藏
Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://huggingface.co/datasets/eduhk-compling/GroupE_groupproject_DayoWong_StandUp_Comedy
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集标注了黄子华1999年栋笃笑表演(“黃子華 Dayo 1999 棟篤笑 拾下拾下”)中每句话的最后一个粤语词汇以及笑话的结构。若句末词汇为英语,则使用</na>标签标记。数据集采用赵元任(1947)的粤语音调数字系统标注音高(1-5),并包含以下标签类别:音调变化(上升、水平、下降)、声音持续时间(延长、缩短、无变化)、笑话结构(铺垫、误导、笑点、标签、过渡)以及标注人员信息(标注者、第一检查人、第二检查人)。该数据集适用于粤语语音分析、喜剧结构研究等任务。

This dataset annotates the final Cantonese word of each utterance in Dayo Wong's 1999 Cantonese stand-up performance "Dayo Wong 1999 Stand-up Comedy: Shik Hak Shik Ha", as well as the structure of the jokes within the performance. If the final word of an utterance is in English, the </na> tag is employed for marking. The dataset adopts Chao's (1947) numerical tone system for Cantonese to label pitch values ranging from 1 to 5, and encompasses the following label categories: tone contour (rising, level, falling), sound duration (prolonged, shortened, unchanged), joke structure (setup, misdirection, punchline, tag, transition), and annotator information (annotator, first reviewer, second reviewer). This dataset is suitable for tasks such as Cantonese phonetic analysis and comedic structure research.
创建时间:
2026-04-16
原始信息汇总

项目名称

DayoWong 栋笃笑末字粤语标注与笑话结构分析

数据集描述

本数据集对黄子华1999年栋笃笑表演“拾下拾下”(视频来源:https://www.youtube.com/watch?v=nSe3nhopbpg)中每个句子的最后一个粤语字进行标注,并分析笑话的结构。如果最后一个字是英文,则使用 </na> 标签进行标注。

标注内容

  • 声调(1-5级):基于赵元任(1947)《粤语入门》的音调系统,使用数字表示音高。
  • 音高变化
    • </rising>:音高上升
    • </level>:音高持平
    • </falling>:音高下降
  • 时长变化
    • </elongation>:声音延长
    • </truncation>:声音缩短
    • </nochange>:声音时长无变化
  • 笑话结构
    • </setup>:铺垫
    • </misdirection>:误导
    • </punchline>:笑点
    • </tag>:后续笑点补充
    • </transition>:过渡
  • 标注与审核
    • pic </name>:标注人姓名
    • check1 </initials1>:第一审核人缩写
    • check2 </initials2>:第二审核人缩写

许可证与语言

  • 许可证:cc-by-4.0
  • 语言:中文(粤语)、英文
  • 标签:audio, speech
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集聚焦于黄子华1999年栋笃笑演出《拾下拾下》的粤语语音与幽默结构分析。构建过程中,研究者对每句粤语台词末尾的单词进行了精细标注,涵盖声调(基于赵元任五度标记法)、音高走势(升、平、降)及音节时长(延长、截短、不变)。此外,依据经典喜剧理论,为每一句台词划分了设置、误导、笑点、加料、过渡等笑话结构标签。英语末尾词以</na>标记排除。标注完成后,经双人复核以确保数据可靠性。
特点
本数据集最显著的特点在于其双重视角的标注体系:既包含粤语语音声学特征(音高、时长),又深入刻画了诙谐话语的叙事骨架。通过将语言学测量与喜剧结构分析结合,它不仅仅是一个语音语料库,更是一个研究幽默生成机制的独特资源。标签系统细致入微,从微观的末字声调到宏观的笑话演进阶段,为探究粤语口语幽默提供了高精度的量化依据。
使用方法
用户可借助此数据集开展多学科交叉研究。在计算语言学领域,可训练模型识别粤语口语中的语义边界与语气变化;在语音合成中,可用于生成更自然的、带有喜剧节奏的粤语语音。此外,通过分析笑话结构标签的序列模式,研究者能够揭示黄子华现场相声的叙事套路,甚至对比不同语言文化下幽默机制的异同。数据以标准格式提供,可轻松加载至HuggingFace Datasets库中使用。
背景与挑战
背景概述
该数据集由研究团队于2023年创建,聚焦于黄子华1999年粤语栋笃笑专场《拾下拾下》的语音与幽默结构分析。核心研究问题涉及粤语声调在喜剧表演中的韵律特征,以及笑话结构的语言学标注。依托赵元任(1947)的五度标记法,数据集系统标注了每个句末粤语词的音高、时长与笑话结构(如铺垫、误导、笑点等),为计算语言学和语音学研究提供了独特的粤语喜剧语料。作为首个公开的粤语栋笃笑标注资源,它填补了粤语韵律与幽默结构交叉研究的空白,对自然语言处理和语音合成领域的语调建模具有启发性价值。
当前挑战
该数据集主要挑战在于:1)领域问题层面,粤语声调在幽默语境中的动态变化(如因笑点需要产生的音高扭曲)难以用传统五度标记法精确描述,且笑话结构的自动识别受限于跨文化幽默理解的模糊性;2)构建过程中,需人工逐句标注黄子华即兴表演中的语音特征,而粤语口音、语速差异及环境噪音增加了标注一致性难度。此外,英文词汇(如俚语)的排除规则可能弱化双语混用现象的分析,而笑话结构的分类(如误导与笑点的界限)依赖标注者主观判断,需通过多人校验(如check1、check2标签)降低偏差,但仍难以完全消除歧义。
常用场景
经典使用场景
该数据集聚焦于香港著名脱口秀演员黄子华1999年粤语栋笃笑专场《拾下拾下》的逐句末字音韵与笑料结构标注,为粤语口语语篇研究提供了精细化的语音-文本对齐资源。其经典使用场景在于结合声调(基于赵元任五度标记法)、时长变化(拖长/截断/不变)与语篇修辞功能(铺垫、误导、笑点、补丁、转场)对幽默叙事进行多模态分析,尤其适用于探究粤语声调与笑点递进之间的韵律-语用互动机制。
实际应用
在实际应用中,该数据集可服务于粤语语音合成与交互式娱乐系统,助力开发能够识别并生成“笋嘢”式幽默对话的数字人。娱乐科技企业可基于标注模式构建喜剧逻辑引擎,自动检测AI语音助手在粤语语境中的笑点埋设有效性;同时,流媒体平台可借助其结构标签实现脱口秀视频的智能片段拆分与幽默高潮自动剪辑,提升内容二次创作效率与观众沉浸体验。
衍生相关工作
该数据集衍生出多个经典研究方向,包括基于序列标注的脱口秀笑话结构预测模型(如BiLSTM-CRF)、粤语声调轮廓与幽默强度的回归分析框架,以及利用对比学习进行跨语言(粤语-普通话)笑点迁移的幽默风格转换研究。后续工作进一步拓展至多说话人场景,引入多模态特征(手势、面部表情)与笑话成功率的关联建模,为计算语用学与交互式对话系统的用户愉悦度优化提供了可复用的标注范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作