Chumor
收藏arXiv2024-06-19 更新2024-06-20 收录
下载链接:
https://github.com/dnaihao/Chumor-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Chumor数据集是由密歇根大学等机构创建的一个专注于中文幽默理解的数据集。该数据集包含1951条来自中国社交平台'弱智吧'的幽默笑话,这些笑话因其文化特异性和智力挑战性而被选中。创建过程中,研究人员对每个笑话进行了手动注释,确保了数据集的高质量和一致性。Chumor数据集的应用领域主要集中在提升大型语言模型对非英语文化背景下幽默的理解能力,特别是在中文语境下的幽默解析。
The Chumor Dataset is a specialized dataset focused on Chinese humor comprehension, developed by institutions including the University of Michigan and other relevant organizations. It contains 1951 humorous jokes sourced from the Chinese social platform "Zhìruò Ba", which were selected for their cultural specificity and intellectual challenge. During the dataset's construction, researchers manually annotated each joke to ensure its high quality and consistency. The primary application scope of the Chumor Dataset lies in improving the humor understanding abilities of large language models (LLMs) in non-English cultural contexts, especially humor parsing within the Chinese context.
提供机构:
密歇根大学
创建时间:
2024-06-19
搜集汇总
数据集介绍

构建方式
Chumor数据集的构建基于中国类似Reddit的社交平台Ruo Zhi Ba(弱智吧),该平台以分享具有文化特色和智力挑战的笑话而闻名。数据集从2018年至2021年的‘最佳年度帖子’和‘版主推荐’板块中收集笑话,并进行了细致的清洗和去重处理。每个笑话都经过人工注释,提供了详细的解释,确保了数据集的高质量和一致性。
使用方法
Chumor数据集可用于评估和提升大型语言模型在中文幽默理解任务中的表现。研究者可以通过对比人类注释和LLMs生成的解释,分析模型在不同幽默类型上的表现,并进行模型优化。此外,该数据集还可用于跨文化幽默理解研究,帮助开发能够理解多文化背景的智能系统。
背景与挑战
背景概述
幽默作为人类社交与情感生活的核心特质,一直是跨学科研究的热点。随着大型语言模型(LLMs)的兴起,研究人员开始评估其在多种任务中的表现,然而,幽默理解,尤其是非英语语言中的文化特定幽默,仍然是LLMs的挑战。为填补这一空白,Chumor数据集应运而生。该数据集由密歇根大学、卡内基梅隆大学和上海交通大学的研究人员共同构建,从中国类似Reddit的平台‘弱智吧’(RZB)中收集了大量具有文化特色的幽默笑话,并手动标注了每个笑话的解释。Chumor的构建旨在解决非英语幽默理解数据集的匮乏问题,并揭示人类解释在幽默理解任务中显著优于当前最先进的LLMs。
当前挑战
Chumor数据集的构建面临多重挑战。首先,幽默理解本身具有高度的文化依赖性,尤其是中文幽默中的双关语、谐音和特定文化背景的笑话,这对LLMs的文化敏感性和推理能力提出了极高要求。其次,数据集的构建过程中,研究人员需要从大量原始数据中筛选出高质量的笑话,并进行细致的标注,确保解释的准确性和一致性。此外,评估LLMs在幽默理解任务中的表现时,如何设计公平且有效的评估方法也是一个重要挑战。最后,幽默的主观性使得大规模偏好标注的难度增加,如何在保持高质量的同时扩大标注规模,是未来研究需要解决的问题。
常用场景
经典使用场景
Chumor数据集的经典使用场景在于评估和提升大型语言模型(LLMs)对中文幽默的理解能力。通过提供来自中国幽默社区Ruo Zhi Ba(弱智吧)的笑话及其详细解释,研究者可以利用该数据集进行零样本或微调实验,以测试LLMs在中文幽默解释任务中的表现。这种评估不仅限于语言模型的幽默理解能力,还可以扩展到跨文化背景下的逻辑推理和语言理解能力。
解决学术问题
Chumor数据集解决了学术界在非英语幽默理解研究中的一个重要问题,即缺乏针对中文等非英语语言的幽默理解数据集。通过提供高质量的中文幽默解释数据,Chumor为研究者提供了一个基准,用于评估和改进LLMs在跨文化幽默理解中的表现。这不仅有助于推动非英语幽默研究的发展,还为提升LLMs在多语言环境下的推理能力提供了新的研究方向。
实际应用
Chumor数据集在实际应用中具有广泛潜力,特别是在智能对话系统、社交媒体内容分析和教育辅助工具等领域。例如,在智能对话系统中,理解并生成符合文化背景的幽默回复可以显著提升用户体验;在社交媒体分析中,识别和解释用户生成的幽默内容有助于更好地理解网络文化趋势;在教育领域,通过幽默理解任务的训练,可以帮助学生更好地掌握语言和文化知识。
数据集最近研究
最新研究方向
Chumor数据集的最新研究方向主要集中在非英语幽默理解,特别是中文幽默的解析与评估。该数据集通过从中国类似Reddit的平台Ruo Zhi Ba(弱智吧)收集的笑话,填补了非英语幽默数据集的空白。研究者们通过对比人类解释与最先进的大型语言模型(如GPT-4o和ERNIE Bot)生成的解释,揭示了当前LLMs在理解文化特定幽默方面的局限性。实验结果表明,人类解释在幽默理解上显著优于LLMs,尤其是在涉及文化背景、双关语和多义词的笑话中。这一发现不仅推动了非英语幽默研究的发展,也为提升LLMs在跨文化背景下的推理能力提供了新的研究方向。
相关研究论文
- 1Chumor 1.0: A Truly Funny and Challenging Chinese Humor Understanding Dataset from Ruo Zhi Ba密歇根大学 · 2024年
以上内容由遇见数据集搜集并总结生成



