CleanComedy

Name: CleanComedy
Creator: LEYA实验室，HSE大学，MTS AI，CAIRO，THWS
Published: 2024-12-12 19:57:59
License: 暂无描述

arXiv2024-12-12 更新2024-12-14 收录

下载链接：

https://github.com/gorovuha/CleanComedy

下载链接

链接失效反馈

官方服务：

资源简介：

CleanComedy是一个专门为生成友好幽默而设计的双语（英语和俄语）数据集，由LEYA实验室和HSE大学等机构创建。该数据集包含44,481条英语笑话和40,926条俄语笑话，经过严格的毒性过滤和去重处理，确保数据集的伦理性和高质量。数据集的创建过程包括从多个来源收集笑话，使用多种模型进行毒性检测和去重，并通过人工标注对笑话进行评分。CleanComedy数据集主要应用于自然语言处理中的幽默生成任务，旨在解决现有幽默数据集中的毒性和重复问题，提升生成模型的鲁棒性和幽默质量。

CleanComedy is a bilingual (English and Russian) dataset specifically designed for generating friendly humor, developed by institutions including LEYA Lab and HSE University. It contains 44,481 English jokes and 40,926 Russian jokes, which have undergone rigorous toxicity filtering and deduplication to ensure the dataset's ethical integrity and high quality. The construction of the CleanComedy dataset involves collecting jokes from multiple sources, conducting toxicity detection and deduplication using multiple models, and scoring the jokes via manual annotation. The CleanComedy dataset is primarily applied to humor generation tasks in natural language processing, aiming to address the toxicity and repetition problems in existing humor datasets, and improve the robustness and humor quality of generation models.

提供机构：

LEYA实验室，HSE大学，MTS AI，CAIRO，THWS

创建时间：

2024-12-12

搜集汇总

数据集介绍

构建方式

CleanComedy数据集的构建过程经过精心设计，旨在创建一个无毒且多样化的幽默语料库。首先，研究团队从多个公开的幽默数据集中收集了大量英语和俄语笑话，并通过去除重复项和非拉丁字符的预处理步骤，确保数据的基础质量。随后，利用Detoxify和ruBERTConv Toxic Classifier等工具，过滤掉含有威胁、侮辱等不良内容的笑话，确保数据集的伦理合规性。此外，通过Sentence-BERT模型计算文本嵌入，进一步去除语义重复的笑话，确保数据集的多样性。最后，通过BERTopic进行主题建模，分析数据集的内容分布，并移除涉及敏感话题的笑话，最终形成了包含44,000条英语笑话和40,000条俄语笑话的CleanComedy数据集。

特点

CleanComedy数据集的主要特点在于其高度的伦理性和多样性。该数据集通过多层次的过滤机制，有效去除了有毒和重复的内容，确保了数据集的纯净性。此外，数据集包含了英语和俄语两种语言的笑话，涵盖了多种幽默类型，如双关语、讽刺等，为跨语言的幽默生成研究提供了丰富的资源。数据集还包含了1,000条经过人工标注的笑话，提供了详细的幽默评分，为模型训练和评估提供了可靠的基准。

使用方法

CleanComedy数据集可广泛应用于自然语言处理领域的幽默生成和评估任务。研究者可以通过该数据集训练和微调大型语言模型（LLMs），以生成符合伦理标准的幽默文本。数据集中的标注信息可用于监督学习，帮助模型学习幽默的语义和风格。此外，数据集的多样性和跨语言特性使其适用于多语言幽默生成模型的开发和评估。研究者还可以利用数据集中的主题建模结果，进一步探索幽默文本的语义结构和内容分布，推动幽默生成技术的创新与发展。

背景与挑战

背景概述

CleanComedy数据集由LEYA Lab、HSE University、MTS AI和CAIRO等机构的研究人员共同创建，旨在解决自然语言处理中幽默生成任务的挑战。该数据集专注于通过生成技术创建友好的幽默内容，特别针对现有幽默数据集中存在的毒性和重复问题进行了过滤和优化。CleanComedy包含英语和俄语的笑话，并通过严格的毒性过滤和人工评分，确保数据集的伦理性和实用性。该数据集的发布为研究社区提供了高质量的幽默生成资源，推动了计算幽默领域的发展。

当前挑战

CleanComedy数据集在构建过程中面临多个挑战。首先，幽默生成任务本身具有复杂性，依赖于上下文依赖和情感平衡，这使得捕捉幽默的细微差别变得困难。其次，现有幽默数据集普遍存在毒性和重复问题，这不仅影响模型的泛化能力，还引发伦理问题。在数据集构建过程中，研究人员需要通过多层次的过滤和人工评分来去除毒性内容和重复笑话，确保数据集的多样性和质量。此外，幽默的跨文化差异和主观性也是生成模型面临的挑战，要求模型能够适应不同语言和文化背景的幽默表达。

常用场景

经典使用场景

CleanComedy数据集的经典使用场景主要集中在幽默生成和评估领域。通过该数据集，研究者可以训练和微调大型语言模型（LLMs），以生成符合伦理标准的、无毒且多样化的幽默内容。数据集的独特之处在于其经过严格筛选，去除了含有攻击性或歧视性内容的笑话，确保了数据集的高质量和适用性。研究者可以利用该数据集进行幽默生成模型的训练，并通过人工评估来验证生成笑话的趣味性和适当性。

衍生相关工作

CleanComedy数据集的发布激发了大量相关研究工作。许多研究者基于该数据集进行了幽默生成模型的改进，探索了如何通过多模态数据（如图像和文本）来增强幽默生成的多样性和趣味性。此外，一些研究还关注了跨文化幽默生成，探讨了不同文化背景下幽默感知的差异，并提出了文化适应性幽默生成模型。这些研究不仅推动了幽默生成技术的发展，还为伦理生成AI的研究提供了新的思路和方法。

数据集最近研究