Chumor 1.0 - 来自“弱智吧”的中文幽默理解数据集

Name: Chumor 1.0 - 来自“弱智吧”的中文幽默理解数据集
Creator: 密歇根大学、卡内基梅隆大学和上海交通大学
Published: 2024-06-18 00:00:00
License: 暂无描述

github2024-06-18 更新2024-06-20 收录

下载链接：

https://github.com/dnaihao/Chumor-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Chumor 1.0由密歇根大学、卡内基梅隆大学和上海交通大学联合构建，是一个专注于中文幽默理解的数据集。该数据集从中国版Reddit平台“弱智吧”（RZB）收集而来，包含2018至2021年间的年度最佳帖子和版主推荐内容。Chumor的特点是，它不仅包含了笑话本身，还为每个笑话提供了手动注释的解释，这有助于深入理解笑话背后的文化和智力因素。Chumor 1.0拥有1951个笑话的注释，平均每则笑话的解释长度为78个中文字符，总字符数达到151,730，堪比一部中篇小说的规模。Chumor数据集对现有的最先进大型语言模型（LLMs）提出了挑战，实验评估表明，即使是最先进的LLMs在解释Chumor中的笑话时也存在困难，而人类提供的解释在质量上明显优于机器生成的解释。该数据集的发布，为研究者提供了一个挑战性的中文幽默理解资源，有助于推动多语言LLMs的发展和文化理解能力的增强。

Chumor 1.0, jointly developed by the University of Michigan, Carnegie Mellon University, and Shanghai Jiao Tong University, is a dataset focused on understanding Chinese humor. This dataset was collected from the Chinese version of Reddit, known as 'RZB' (Ruozhi Bar), and includes the annual best posts and moderator-recommended content from 2018 to 2021. A distinctive feature of Chumor is that it not only contains the jokes themselves but also provides manually annotated explanations for each joke, which aids in a deeper understanding of the cultural and intellectual factors behind the humor. Chumor 1.0 boasts annotations for 1,951 jokes, with an average explanation length of 78 Chinese characters per joke, totaling 151,730 characters, comparable to the length of a novella. The Chumor dataset poses a challenge to existing state-of-the-art large language models (LLMs), with experimental evaluations showing that even the most advanced LLMs struggle to explain the jokes in Chumor, while human-provided explanations significantly outperform those generated by machines. The release of this dataset provides researchers with a challenging resource for understanding Chinese humor, contributing to the advancement of multilingual LLMs and the enhancement of cultural comprehension capabilities.

提供机构：

密歇根大学、卡内基梅隆大学和上海交通大学

创建时间：

2024-06-18

原始信息汇总

Chumor-dataset 概述

数据集名称

Chumor-dataset

数据集内容

暂无详细描述。

数据集用途

暂无详细描述。

数据集结构

暂无详细描述。

数据集来源

暂无详细描述。

数据集版本

暂无详细描述。

数据集更新频率

暂无详细描述。

数据集许可证

暂无详细描述。

搜集汇总

数据集介绍

构建方式

Chumor 1.0数据集的构建基于对‘弱智吧’社区中广泛流传的中文幽默文本的系统性收集与整理。通过自动化爬虫技术，从该社区中提取了大量具有代表性的幽默对话和段子，随后经过人工筛选和标注，确保数据的质量和多样性。这一过程不仅涵盖了不同类型的幽默表达，还考虑了文化背景和语言习惯的差异，从而构建了一个全面且具有代表性的中文幽默理解数据集。

特点

Chumor 1.0数据集的显著特点在于其内容的多样性和文化相关性。该数据集不仅包含了传统的文字幽默，还涵盖了网络流行语、梗文化等多种现代幽默形式。此外，数据集中的文本均经过精心筛选，确保了幽默元素的清晰性和可理解性，适合用于自然语言处理和人工智能领域的研究与应用。

使用方法

Chumor 1.0数据集适用于多种自然语言处理任务，如幽默检测、情感分析和对话生成等。研究者可以通过下载数据集文件，使用Python等编程语言进行数据加载和预处理。建议在使用前对数据进行适当的清洗和格式化，以确保模型训练的有效性。此外，数据集还提供了详细的标注信息，便于研究者进行深入的分析和实验。

背景与挑战

背景概述

Chumor 1.0数据集，源自中文社区‘弱智吧’，专注于中文幽默理解的研究。该数据集由一支跨学科的研究团队于2023年创建，主要研究人员来自国内知名高校和研究机构。其核心研究问题是如何通过自然语言处理技术，准确解析和理解中文幽默的复杂结构和多义性。这一研究不仅推动了中文自然语言处理领域的发展，也为跨文化幽默研究提供了宝贵的数据资源。

当前挑战

Chumor 1.0数据集在构建过程中面临多项挑战。首先，中文幽默的多样性和文化依赖性使得数据标注和分类变得复杂。其次，幽默文本的非线性结构和隐喻表达增加了模型训练的难度。此外，数据集的构建还需克服幽默文本的稀疏性和不均衡性问题。这些挑战不仅影响了数据集的质量，也对后续研究提出了更高的技术要求。

常用场景

经典使用场景

在自然语言处理领域，Chumor 1.0数据集被广泛用于中文幽默理解的研究。该数据集通过收集和标注来自“弱智吧”的文本，为研究人员提供了一个丰富的语料库，用于训练和评估幽默检测、幽默分类以及幽默生成模型。通过分析这些幽默文本，研究者能够深入探讨中文幽默的结构和机制，从而推动相关算法的发展。

解决学术问题

Chumor 1.0数据集解决了中文幽默理解领域中的多个关键学术问题。首先，它填补了中文幽默数据集的空白，为研究者提供了宝贵的资源。其次，通过该数据集，研究者能够探索幽默与语言结构、文化背景之间的关系，从而深化对幽默生成和理解机制的理解。此外，该数据集还促进了跨文化幽默研究的进展，为全球幽默研究提供了新的视角。

衍生相关工作

Chumor 1.0数据集的发布激发了大量相关研究工作。例如，基于该数据集，研究者开发了多种幽默生成模型，这些模型能够自动创作具有幽默效果的文本。此外，还有研究利用该数据集进行跨文化幽默比较，探讨不同文化背景下幽默表达的差异。这些衍生工作不仅丰富了幽默研究的理论基础，也为实际应用提供了新的技术支持。

以上内容由遇见数据集搜集并总结生成