five

Chinese Fun Set (CFunSet)|幽默处理数据集|语言模型数据集

收藏
arXiv2025-03-26 更新2025-03-28 收录
幽默处理
语言模型
下载链接:
https://huggingface.co/datasets/ZhenghanYU/CFunSet
下载链接
链接失效反馈
资源简介:
CFunSet是一个全面的中国幽默相关数据集,由北京大学万小军研究团队创建,汇集了现有的中文幽默数据集,并从中国在线论坛贴吧-笑话吧收集了超过2万条笑话,组成的语料库包含超过16万条目。该数据集旨在训练语言模型以处理各种幽默相关任务,如对口相声回应选择、幽默识别、笑话生成等。
提供机构:
北京大学
创建时间:
2025-03-26
原始信息汇总

数据集概述

基本信息

  • 名称: CFunSet
  • 语言: 中文 (zh)
  • 数据规模: 10万到100万条之间 (100K<n<1M)

数据集用途

  • 相关论文: CFunModel: A "Funny" Language Model Capable of Chinese Humor Generation and Processing
  • 用途: 用于中文幽默生成和处理的语言模型研究
AI搜集汇总
数据集介绍
main_image_url
构建方式
在中文幽默处理领域,CFunSet数据集的构建采用了多源融合与深度处理的科学方法。研究人员系统整合了CrossDial、Chumor2.0等六个开源幽默数据集,并创新性地从百度贴吧笑话吧爬取逾20,000条用户生成内容。通过Qwen2.5-7B-Instruct模型进行双重过滤:先以50字符为阈值筛选文本,再运用幽默识别提示模板进行语义级清洗,最终形成包含16万条样本的高质量语料库。该构建过程特别设计了任务对齐机制,针对相声脚本、笑话文本等不同体裁,分别建立包括指令、输入和输出的标准化三元组结构。
使用方法
该数据集支持端到端的幽默计算研究流程,研究者可通过HuggingFace平台获取标准化数据包。对于模型训练,建议采用分层抽样策略,按6:2:2比例划分训练集、验证集和测试集,特别注意保持相声对话的会话连贯性。在评估阶段,封闭式任务如幽默识别可采用准确率指标,而开放式生成任务推荐结合人工评估与BERTScore等语义相似度指标。高级用户可通过解析任务指令模板,自定义prompt工程来开发新型幽默处理任务。数据集配套的基准模型CFunModel已实现91.7%的相声应答选择准确率,为后续研究提供可靠基线。
背景与挑战
背景概述
Chinese Fun Set (CFunSet)是由北京大学王选计算机研究所的余振寰、胡昕宇和万小军团队于2025年推出的中文幽默处理专用数据集。该数据集整合了包括贴吧笑话吧在内的多源幽默语料,收录超过16万条样本,涵盖相声响应选择、幽默识别、笑话生成等多元任务。作为首个面向中文幽默多任务学习的综合性资源,CFunSet填补了中文自然语言处理领域在文化特异性幽默理解方面的数据空白,为探究语言模型的文化认知机制提供了重要实验平台。其衍生的CFunModel在幽默相关任务上显著超越通用大语言模型,标志着中文计算幽默研究进入专业化发展阶段。
当前挑战
构建CFunSet面临双重挑战:在领域问题层面,中文幽默依赖谐音双关、文化隐喻等语言特性,传统语言模型难以捕捉其中微妙的语境错位与逻辑反转,如相声中的捧哏逗哏互动需要精确把握文化语境;在构建过程中,网络来源的原始数据存在拼写错误与低俗内容,需设计基于Qwen2.5-7B-Instruct的多级过滤机制,同时平衡不同幽默类型(如冷笑话与情景喜剧)的样本分布。此外,标注工作需处理幽默主观性带来的评判分歧,建立跨任务统一的评估框架成为关键难点。
常用场景
经典使用场景
在自然语言处理领域,幽默生成与识别一直是极具挑战性的任务。CFunSet作为首个中文幽默多任务数据集,其经典使用场景主要集中在跨模态幽默内容生成与理解上。研究人员通过该数据集训练的语言模型能够完成相声脚本续写、笑话生成、幽默识别等任务,为探索中文语境下的幽默计算提供了标准化实验平台。特别是在相声对话生成任务中,模型需要准确把握逗哏与捧哏角色的互动模式,生成符合传统曲艺特点的幽默对话。
解决学术问题
CFunSet有效解决了中文幽默计算领域三个关键学术问题:首先突破了文化特异性障碍,通过包含16万条涵盖双关、反讽、夸张等多种幽默形式的数据,为模型理解中国文化背景下的幽默逻辑提供了训练基础;其次建立了多任务评估体系,将传统的单任务研究扩展至幽默识别、生成、解释等全链条任务;最后填补了评估标准空白,其包含的相声响应选择等任务为客观衡量模型幽默理解能力提供了量化指标。这些突破显著提升了语言模型在中文幽默场景下的表现力。
实际应用
在实际应用层面,CFunSet支撑的幽默生成技术已渗透到多个生活场景。智能客服系统利用其训练的模型生成亲和力强的幽默应答,显著提升用户交互体验;在线教育平台通过幽默化内容生成,使知识讲解更具趣味性;新媒体领域则应用于自动段子创作和相声脚本辅助写作。特别值得注意的是,基于该数据集开发的CFunModel在社交机器人对话系统中展现出独特优势,能够根据上下文生成恰到好处的幽默回应,使机器对话更具人性化温度。
数据集最近研究
最新研究方向
在自然语言处理领域,幽默生成与理解一直是极具挑战性的研究方向。随着大语言模型的快速发展,Chinese Fun Set (CFunSet) 数据集的推出为中文幽默处理提供了重要的研究基础。该数据集不仅整合了多个开源中文幽默数据集,还从贴吧-笑话吧收集了超过20,000条笑话,构建了包含160,000余条样本的综合性语料库。基于CFunSet训练的CFunModel在幽默识别、相声响应选择及笑话生成等任务中表现优异,显著超越了主流大语言模型。这一研究填补了中文幽默数据资源的空白,并为跨文化幽默理解、社交机器人情感交互等前沿应用提供了新的可能性。
相关研究论文
  • 1
    CFunModel: A "Funny" Language Model Capable of Chinese Humor Generation and Processing北京大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

威廉王岛—全球变化数据大百科辞条

威廉王岛(King William Island)位于北美洲,北极圈内,属于加拿大北极群岛。它位于维多利亚岛和布西亚半岛之间,距离维多利亚岛85 km;北面距离威尔士亲王岛155 km;南面隔斯托里斯海峡和辛普森海峡与北美洲大陆(阿德莱德半岛)相望,最近处只有3.3 km。威廉王岛于1830年被指挥官詹姆斯.罗斯(James Ross)发现,以当时在位的英国君主威廉四世的名字命名。行政区划上,威廉王岛隶属于加拿大努纳武特(Nunavut)地区。它的地理位置为:69&deg54′22″N - 68&deg27′12″N,99&deg32′48″W - 95&deg09′25″W。威廉王岛总面积13259.59 km&sup2,海岸线总长1555.35 km。岛屿地势平坦,表面散布着无数的小湖。位于岛屿东南侧的约阿港(Gjoa Haven)是岛上最主要的居民点。在约阿港东北,有一机场。该数据集是基于Google Earth遥感影像全球多尺度海陆(岛)岸线数据集(2015),结合加拿大相关地图完成。数据集由24个数据文件组成,以.kmz和.shp数据格式存储,数据量2.98 MB(压缩成3个数据文件,数据量2.06 MB)。

国家对地观测科学数据中心 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

中亚主要国家的原油资源的储量、产量、消费量及其占世界比重(1985-2016)

中亚五国中,石油资源主要分布在哈萨克斯坦、乌兹别克斯坦、土库曼斯坦三个国家。根据BP世界能源统计年鉴,经整理、抽取、计算和汇总后,形成中亚主要国家(哈萨克斯坦、乌兹别克斯坦、土库曼斯坦)原油资源的储量、产量、消费量及其占世界比重的统计表。 主要指标包括: (1)储量,1991-2016年,单位:百万吨 (2)产量,1985-2016年,单位:百万吨 (3)储产比,1991-2016年,单位:百万吨 (4)消费量,1985-2016年,单位:百万吨 (5)产消差额,1985-2016年,单位:百万吨 此外,以上数据均包括中亚地区的哈萨克斯坦、乌兹别克斯坦、土库曼斯坦、三国汇总以及世界总量的情况。

地球大数据科学工程 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录