Chumor|中文幽默理解数据集|语言模型数据集

arXiv2024-06-19 更新2024-06-20 收录

中文幽默理解

语言模型

下载链接：

https://github.com/dnaihao/Chumor-dataset

下载链接

链接失效反馈

资源简介：

Chumor数据集是由密歇根大学等机构创建的一个专注于中文幽默理解的数据集。该数据集包含1951条来自中国社交平台'弱智吧'的幽默笑话，这些笑话因其文化特异性和智力挑战性而被选中。创建过程中，研究人员对每个笑话进行了手动注释，确保了数据集的高质量和一致性。Chumor数据集的应用领域主要集中在提升大型语言模型对非英语文化背景下幽默的理解能力，特别是在中文语境下的幽默解析。

提供机构：

密歇根大学

创建时间：

2024-06-19

AI搜集汇总

数据集介绍

构建方式

Chumor数据集的构建基于中国类似Reddit的社交平台Ruo Zhi Ba（弱智吧），该平台以分享具有文化特色和智力挑战的笑话而闻名。数据集从2018年至2021年的‘最佳年度帖子’和‘版主推荐’板块中收集笑话，并进行了细致的清洗和去重处理。每个笑话都经过人工注释，提供了详细的解释，确保了数据集的高质量和一致性。

使用方法

Chumor数据集可用于评估和提升大型语言模型在中文幽默理解任务中的表现。研究者可以通过对比人类注释和LLMs生成的解释，分析模型在不同幽默类型上的表现，并进行模型优化。此外，该数据集还可用于跨文化幽默理解研究，帮助开发能够理解多文化背景的智能系统。

背景与挑战

背景概述

幽默作为人类社交与情感生活的核心特质，一直是跨学科研究的热点。随着大型语言模型（LLMs）的兴起，研究人员开始评估其在多种任务中的表现，然而，幽默理解，尤其是非英语语言中的文化特定幽默，仍然是LLMs的挑战。为填补这一空白，Chumor数据集应运而生。该数据集由密歇根大学、卡内基梅隆大学和上海交通大学的研究人员共同构建，从中国类似Reddit的平台‘弱智吧’（RZB）中收集了大量具有文化特色的幽默笑话，并手动标注了每个笑话的解释。Chumor的构建旨在解决非英语幽默理解数据集的匮乏问题，并揭示人类解释在幽默理解任务中显著优于当前最先进的LLMs。

当前挑战

Chumor数据集的构建面临多重挑战。首先，幽默理解本身具有高度的文化依赖性，尤其是中文幽默中的双关语、谐音和特定文化背景的笑话，这对LLMs的文化敏感性和推理能力提出了极高要求。其次，数据集的构建过程中，研究人员需要从大量原始数据中筛选出高质量的笑话，并进行细致的标注，确保解释的准确性和一致性。此外，评估LLMs在幽默理解任务中的表现时，如何设计公平且有效的评估方法也是一个重要挑战。最后，幽默的主观性使得大规模偏好标注的难度增加，如何在保持高质量的同时扩大标注规模，是未来研究需要解决的问题。

常用场景

经典使用场景

Chumor数据集的经典使用场景在于评估和提升大型语言模型（LLMs）对中文幽默的理解能力。通过提供来自中国幽默社区Ruo Zhi Ba（弱智吧）的笑话及其详细解释，研究者可以利用该数据集进行零样本或微调实验，以测试LLMs在中文幽默解释任务中的表现。这种评估不仅限于语言模型的幽默理解能力，还可以扩展到跨文化背景下的逻辑推理和语言理解能力。

解决学术问题

Chumor数据集解决了学术界在非英语幽默理解研究中的一个重要问题，即缺乏针对中文等非英语语言的幽默理解数据集。通过提供高质量的中文幽默解释数据，Chumor为研究者提供了一个基准，用于评估和改进LLMs在跨文化幽默理解中的表现。这不仅有助于推动非英语幽默研究的发展，还为提升LLMs在多语言环境下的推理能力提供了新的研究方向。

实际应用

Chumor数据集在实际应用中具有广泛潜力，特别是在智能对话系统、社交媒体内容分析和教育辅助工具等领域。例如，在智能对话系统中，理解并生成符合文化背景的幽默回复可以显著提升用户体验；在社交媒体分析中，识别和解释用户生成的幽默内容有助于更好地理解网络文化趋势；在教育领域，通过幽默理解任务的训练，可以帮助学生更好地掌握语言和文化知识。

数据集最近研究

相关研究论文

1
Chumor 1.0: A Truly Funny and Challenging Chinese Humor Understanding Dataset from Ruo Zhi Ba密歇根大学 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息，涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类，提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

FAOSTAT

FAOSTAT provides time-series data about agriculture, nutrition, fisheries, forestry and food aid by country and region from 1961 to present. FAOSTAT is a multilingual database. Data can be searched, browsed, and downloaded.

re3data.org 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录