Chinese Fun Set (CFunSet)

Name: Chinese Fun Set (CFunSet)
Creator: 北京大学
Published: 2025-03-26 18:44:51
License: 暂无描述

arXiv2025-03-26 更新2025-03-28 收录

下载链接：

https://huggingface.co/datasets/ZhenghanYU/CFunSet

下载链接

链接失效反馈

官方服务：

资源简介：

CFunSet是一个全面的中国幽默相关数据集，由北京大学万小军研究团队创建，汇集了现有的中文幽默数据集，并从中国在线论坛贴吧-笑话吧收集了超过2万条笑话，组成的语料库包含超过16万条目。该数据集旨在训练语言模型以处理各种幽默相关任务，如对口相声回应选择、幽默识别、笑话生成等。

CFunSet is a comprehensive Chinese humor-related dataset developed by the research team led by Professor Wan Xiaojun from Peking University. It aggregates existing Chinese humor datasets and collects more than 20,000 jokes from the Joke Bar (Xiaohua Ba), a section of Chinese online forums, resulting in a corpus containing over 160,000 entries. This dataset is designed to train language models to handle various humor-related tasks, such as response selection for two-person xiangsheng, humor detection, joke generation, and more.

提供机构：

北京大学

创建时间：

2025-03-26

原始信息汇总

数据集概述

基本信息

名称: CFunSet
语言: 中文 (zh)
数据规模: 10万到100万条之间 (100K<n<1M)

数据集用途

相关论文: CFunModel: A "Funny" Language Model Capable of Chinese Humor Generation and Processing
用途: 用于中文幽默生成和处理的语言模型研究

搜集汇总

数据集介绍

构建方式

在中文幽默处理领域，CFunSet数据集的构建采用了多源融合与深度处理的科学方法。研究人员系统整合了CrossDial、Chumor2.0等六个开源幽默数据集，并创新性地从百度贴吧笑话吧爬取逾20,000条用户生成内容。通过Qwen2.5-7B-Instruct模型进行双重过滤：先以50字符为阈值筛选文本，再运用幽默识别提示模板进行语义级清洗，最终形成包含16万条样本的高质量语料库。该构建过程特别设计了任务对齐机制，针对相声脚本、笑话文本等不同体裁，分别建立包括指令、输入和输出的标准化三元组结构。

使用方法

该数据集支持端到端的幽默计算研究流程，研究者可通过HuggingFace平台获取标准化数据包。对于模型训练，建议采用分层抽样策略，按6:2:2比例划分训练集、验证集和测试集，特别注意保持相声对话的会话连贯性。在评估阶段，封闭式任务如幽默识别可采用准确率指标，而开放式生成任务推荐结合人工评估与BERTScore等语义相似度指标。高级用户可通过解析任务指令模板，自定义prompt工程来开发新型幽默处理任务。数据集配套的基准模型CFunModel已实现91.7%的相声应答选择准确率，为后续研究提供可靠基线。

背景与挑战

背景概述

Chinese Fun Set (CFunSet)是由北京大学王选计算机研究所的余振寰、胡昕宇和万小军团队于2025年推出的中文幽默处理专用数据集。该数据集整合了包括贴吧笑话吧在内的多源幽默语料，收录超过16万条样本，涵盖相声响应选择、幽默识别、笑话生成等多元任务。作为首个面向中文幽默多任务学习的综合性资源，CFunSet填补了中文自然语言处理领域在文化特异性幽默理解方面的数据空白，为探究语言模型的文化认知机制提供了重要实验平台。其衍生的CFunModel在幽默相关任务上显著超越通用大语言模型，标志着中文计算幽默研究进入专业化发展阶段。

当前挑战

构建CFunSet面临双重挑战：在领域问题层面，中文幽默依赖谐音双关、文化隐喻等语言特性，传统语言模型难以捕捉其中微妙的语境错位与逻辑反转，如相声中的捧哏逗哏互动需要精确把握文化语境；在构建过程中，网络来源的原始数据存在拼写错误与低俗内容，需设计基于Qwen2.5-7B-Instruct的多级过滤机制，同时平衡不同幽默类型（如冷笑话与情景喜剧）的样本分布。此外，标注工作需处理幽默主观性带来的评判分歧，建立跨任务统一的评估框架成为关键难点。

常用场景

经典使用场景

在自然语言处理领域，幽默生成与识别一直是极具挑战性的任务。CFunSet作为首个中文幽默多任务数据集，其经典使用场景主要集中在跨模态幽默内容生成与理解上。研究人员通过该数据集训练的语言模型能够完成相声脚本续写、笑话生成、幽默识别等任务，为探索中文语境下的幽默计算提供了标准化实验平台。特别是在相声对话生成任务中，模型需要准确把握逗哏与捧哏角色的互动模式，生成符合传统曲艺特点的幽默对话。

解决学术问题

CFunSet有效解决了中文幽默计算领域三个关键学术问题：首先突破了文化特异性障碍，通过包含16万条涵盖双关、反讽、夸张等多种幽默形式的数据，为模型理解中国文化背景下的幽默逻辑提供了训练基础；其次建立了多任务评估体系，将传统的单任务研究扩展至幽默识别、生成、解释等全链条任务；最后填补了评估标准空白，其包含的相声响应选择等任务为客观衡量模型幽默理解能力提供了量化指标。这些突破显著提升了语言模型在中文幽默场景下的表现力。

实际应用

在实际应用层面，CFunSet支撑的幽默生成技术已渗透到多个生活场景。智能客服系统利用其训练的模型生成亲和力强的幽默应答，显著提升用户交互体验；在线教育平台通过幽默化内容生成，使知识讲解更具趣味性；新媒体领域则应用于自动段子创作和相声脚本辅助写作。特别值得注意的是，基于该数据集开发的CFunModel在社交机器人对话系统中展现出独特优势，能够根据上下文生成恰到好处的幽默回应，使机器对话更具人性化温度。

数据集最近研究