Chumor 1.0 - 来自“弱智吧”的中文幽默理解数据集|中文幽默理解数据集|语言模型挑战数据集

github2024-06-18 更新2024-06-20 收录

中文幽默理解

语言模型挑战

下载链接：

https://github.com/dnaihao/Chumor-dataset

下载链接

链接失效反馈

资源简介：

Chumor 1.0由密歇根大学、卡内基梅隆大学和上海交通大学联合构建，是一个专注于中文幽默理解的数据集。该数据集从中国版Reddit平台“弱智吧”（RZB）收集而来，包含2018至2021年间的年度最佳帖子和版主推荐内容。Chumor的特点是，它不仅包含了笑话本身，还为每个笑话提供了手动注释的解释，这有助于深入理解笑话背后的文化和智力因素。Chumor 1.0拥有1951个笑话的注释，平均每则笑话的解释长度为78个中文字符，总字符数达到151,730，堪比一部中篇小说的规模。Chumor数据集对现有的最先进大型语言模型（LLMs）提出了挑战，实验评估表明，即使是最先进的LLMs在解释Chumor中的笑话时也存在困难，而人类提供的解释在质量上明显优于机器生成的解释。该数据集的发布，为研究者提供了一个挑战性的中文幽默理解资源，有助于推动多语言LLMs的发展和文化理解能力的增强。

Chumor 1.0, jointly developed by the University of Michigan, Carnegie Mellon University, and Shanghai Jiao Tong University, is a dataset focused on understanding Chinese humor. This dataset was collected from the Chinese version of Reddit, known as 'RZB' (Ruozhi Bar), and includes the annual best posts and moderator-recommended content from 2018 to 2021. A distinctive feature of Chumor is that it not only contains the jokes themselves but also provides manually annotated explanations for each joke, which aids in a deeper understanding of the cultural and intellectual factors behind the humor. Chumor 1.0 boasts annotations for 1,951 jokes, with an average explanation length of 78 Chinese characters per joke, totaling 151,730 characters, comparable to the length of a novella. The Chumor dataset poses a challenge to existing state-of-the-art large language models (LLMs), with experimental evaluations showing that even the most advanced LLMs struggle to explain the jokes in Chumor, while human-provided explanations significantly outperform those generated by machines. The release of this dataset provides researchers with a challenging resource for understanding Chinese humor, contributing to the advancement of multilingual LLMs and the enhancement of cultural comprehension capabilities.

提供机构：

密歇根大学、卡内基梅隆大学和上海交通大学

创建时间：

2024-06-18

原始信息汇总

Chumor-dataset 概述

数据集名称

Chumor-dataset

数据集内容

暂无详细描述。

数据集用途

暂无详细描述。

数据集结构

暂无详细描述。

数据集来源

暂无详细描述。

数据集版本

暂无详细描述。

数据集更新频率

暂无详细描述。

数据集许可证

暂无详细描述。

AI搜集汇总

数据集介绍

构建方式

Chumor 1.0数据集的构建基于对‘弱智吧’社区中广泛流传的中文幽默文本的系统性收集与整理。通过自动化爬虫技术，从该社区中提取了大量具有代表性的幽默对话和段子，随后经过人工筛选和标注，确保数据的质量和多样性。这一过程不仅涵盖了不同类型的幽默表达，还考虑了文化背景和语言习惯的差异，从而构建了一个全面且具有代表性的中文幽默理解数据集。

特点

Chumor 1.0数据集的显著特点在于其内容的多样性和文化相关性。该数据集不仅包含了传统的文字幽默，还涵盖了网络流行语、梗文化等多种现代幽默形式。此外，数据集中的文本均经过精心筛选，确保了幽默元素的清晰性和可理解性，适合用于自然语言处理和人工智能领域的研究与应用。

使用方法

Chumor 1.0数据集适用于多种自然语言处理任务，如幽默检测、情感分析和对话生成等。研究者可以通过下载数据集文件，使用Python等编程语言进行数据加载和预处理。建议在使用前对数据进行适当的清洗和格式化，以确保模型训练的有效性。此外，数据集还提供了详细的标注信息，便于研究者进行深入的分析和实验。

背景与挑战

背景概述

Chumor 1.0数据集，源自中文社区‘弱智吧’，专注于中文幽默理解的研究。该数据集由一支跨学科的研究团队于2023年创建，主要研究人员来自国内知名高校和研究机构。其核心研究问题是如何通过自然语言处理技术，准确解析和理解中文幽默的复杂结构和多义性。这一研究不仅推动了中文自然语言处理领域的发展，也为跨文化幽默研究提供了宝贵的数据资源。

当前挑战

Chumor 1.0数据集在构建过程中面临多项挑战。首先，中文幽默的多样性和文化依赖性使得数据标注和分类变得复杂。其次，幽默文本的非线性结构和隐喻表达增加了模型训练的难度。此外，数据集的构建还需克服幽默文本的稀疏性和不均衡性问题。这些挑战不仅影响了数据集的质量，也对后续研究提出了更高的技术要求。

常用场景

经典使用场景

在自然语言处理领域，Chumor 1.0数据集被广泛用于中文幽默理解的研究。该数据集通过收集和标注来自“弱智吧”的文本，为研究人员提供了一个丰富的语料库，用于训练和评估幽默检测、幽默分类以及幽默生成模型。通过分析这些幽默文本，研究者能够深入探讨中文幽默的结构和机制，从而推动相关算法的发展。

解决学术问题

Chumor 1.0数据集解决了中文幽默理解领域中的多个关键学术问题。首先，它填补了中文幽默数据集的空白，为研究者提供了宝贵的资源。其次，通过该数据集，研究者能够探索幽默与语言结构、文化背景之间的关系，从而深化对幽默生成和理解机制的理解。此外，该数据集还促进了跨文化幽默研究的进展，为全球幽默研究提供了新的视角。

衍生相关工作

Chumor 1.0数据集的发布激发了大量相关研究工作。例如，基于该数据集，研究者开发了多种幽默生成模型，这些模型能够自动创作具有幽默效果的文本。此外，还有研究利用该数据集进行跨文化幽默比较，探讨不同文化背景下幽默表达的差异。这些衍生工作不仅丰富了幽默研究的理论基础，也为实际应用提供了新的技术支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程（MOOCs）的相关数据，包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录

LibriSpeech

LibriSpeech 是一个大约 1000 小时的 16kHz 英语朗读语音语料库，由 Vassil Panayotov 在 Daniel Povey 的协助下编写。数据来自 LibriVox 项目的已读有声读物，并经过仔细分割和对齐。

OpenDataLab 收录

ChineseSafe

ChineseSafe是由南方科技大学统计与数据科学系创建的一个中文安全评估基准数据集，旨在评估大型语言模型在识别中文不安全内容方面的能力。该数据集包含205,034个样本，涵盖4个类别和10个子类别的安全问题，特别关注政治敏感性、色情内容和变体/同音词等新型安全问题。数据集通过从开源数据集和互联网资源中收集数据，经过数据清洗和去重处理，确保了数据集的高质量和多样性。ChineseSafe的应用领域主要集中在大型语言模型的安全评估，旨在帮助开发者和研究者提升模型在实际应用中的安全性。

arXiv 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息，数据通过爬虫技术获取并整理成CSV格式，用于音乐数据挖掘和推荐系统构建。

github 收录