hugfaceguy0001/retarded_bar
收藏Hugging Face2023-08-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hugfaceguy0001/retarded_bar
下载链接
链接失效反馈官方服务:
资源简介:
---
license: openrail
task_categories:
- text-generation
language:
- zh
pretty_name: 弱智吧笑话数据集
size_categories:
- n<1K
configs:
- config_name: statement
data_files: retarded_bar.jsonl
- config_name: question
data_files: retarded_bar_qa.jsonl
---
# 弱智吧笑话数据集
弱智吧是百度贴吧中的一个非常受欢迎的论坛,以创作短小精悍的冷笑话而闻名。这些笑话通常采用双关语、不寻常的断句、不合理的逻辑等创作手法。即使是目前最先进的语言模型,也难以完全理解弱智吧的笑话。
[弱智吧](https://tieba.baidu.com/f?ie=utf-8&kw=%E5%BC%B1%E6%99%BA)
我从互联网上收集了一些弱智吧的笑话,共100条,其中45条是陈述句,55条是问句。我结合人工和语言模型对这些笑话进行了一些解析,并制作了这个小型数据集。
## 陈述句笑话
陈述句笑话通常以句号结尾,不容易被语言模型误解为正常的问题。
例如:“出人头地常年盛产人头。”
## 问句笑话
问句笑话具有一定的迷惑性,可能会导致语言模型无法判断它们是正常的问题还是开玩笑。
例如:“蓝牙耳机坏了,应该找牙科医生还是耳科医生?”
## 文件格式
本数据集包括两个部分。
### retarded_bar.jsonl
retarded_bar.jsonl是陈述性笑话数据集,以jsonl格式存储,每行都是一个json字典,包括序号`id`,原文`text`,笑点解析`analysis`,双关语`pun`,作者类型`author_type`五个字段,其中:
- 序号`id`是数字,表示笑话的编号
- 原文`text`是文本,表示笑话的原文,由“弱智吧”社区成员创作,本人在互联网上手动收集而成。
- 笑点解析`analysis`是文本,表示笑话的笑点解析,大部分解析由本人创作,也有一小部分是用语言模型生成的。在作者类型`author_type`中体现了这个内容。
- 双关语`pun`是文本列表,表示笑话中包含的双关语,由本人找到。一个笑话可能包含不止一个双关语,也可能不包含双关语。
- 作者类型`author_type`是文本,表示笑点解析`analysis`的作者类型,而不是笑话原文`text`的作者类型,目前有`human`和`ai`两个值。
### retarded_bar_qa.jsonl
retarded_bar_qa.jsonl是提问性笑话数据集,以jsonl格式存储,每行都是一个json字典,包括序号`id`,原文`text`,回复`answer`,作者类型`author_type`四个字段,其中:
- 序号`id`是数字,表示笑话的编号
- 原文`text`是文本,表示笑话的原文,由“弱智吧”社区成员创作,本人在互联网上手动收集而成。
- 回复`analysis`是文本,表示提问型笑话的合理回复。本人定义的合理回复是应该让对方知道自己已经察觉到提问的幽默性,但仍不失礼貌,且提供准确的事实性信息的回复。合理回复有的由本人创作,也有的是用语言模型生成的。在作者类型`author_type`中体现了这个内容。
- 作者类型`author_type`是文本,表示回复`answer`的作者类型,而不是笑话原文`text`的作者类型,目前有`human`和`ai`两个值。
## 使用方式
建议使用Python的jsonlines库或Hugging Face的datasets库读取本数据集。使用这些库可以轻松地读取jsonl格式的文件并进行后续处理,例如构建训练集或测试集、训练或测试语言模型等。例如,使用jsonlines库可以按行读取jsonl格式的文件,如下所示:
```python
import jsonlines
with jsonlines.open('retarded_bar.jsonl') as reader:
for obj in reader:
# 对每个对象进行处理
print(obj)
```
## 局限性
1. 由于本项目只有本人一个人参与,而这类数据标注难度比较大,自动化程度低,需要比较多的人力,所以数据集容量较小。
2. 本人文字表达能力有限,可能无法准确生动地表达笑点解析,也可能无法创作比较高质量的回答。因此,该数据集中的一些解析和回答可能并不是最佳的。
3. 本数据集的数据来源于互联网,可能存在版权问题。因此,使用该数据集时需要注意版权问题,并遵守相关法律法规。
4. 由于弱智吧的笑话大多是基于中文语境的,因此该数据集可能不适用于其他语言的笑话判断。
## 联系方式
本人QQ:583753622
## 欢迎贡献更多优质数据!
---
license: openrail
task_categories:
- text-generation
language:
- zh
pretty_name: Retarded Bar Jokes Dataset
size_categories:
- n<1K
configs:
- config_name: statement
data_files: retarded_bar.jsonl
- config_name: question
data_files: retarded_bar_qa.jsonl
---
# Retarded Bar Jokes Dataset
Retarded Bar is a highly popular forum on Baidu Tieba, renowned for crafting concise deadpan jokes. These jokes typically employ techniques such as puns, unconventional sentence breaks, and absurd logic. Even state-of-the-art language models struggle to fully comprehend the jokes from Retarded Bar.
[Retarded Bar](https://tieba.baidu.com/f?ie=utf-8&kw=%E5%BC%B1%E6%99%BA)
I collected 100 jokes from Retarded Bar online, including 45 declarative jokes and 55 interrogative jokes. I combined manual work and language models to analyze these jokes and created this small-scale dataset.
## Declarative Jokes
Declarative jokes usually end with a period, reducing the risk of being misinterpreted as normal questions by language models. Example: "Getting ahead has always been abundant in "human heads"."
## Interrogative Jokes
Interrogative jokes are somewhat misleading, which may lead language models to fail to distinguish between genuine questions and jokes. Example: "My Bluetooth headset is broken. Should I consult a dentist or an otolaryngologist?"
## File Formats
This dataset consists of two parts.
### retarded_bar.jsonl
retarded_bar.jsonl is the declarative joke dataset stored in JSONL format. Each line is a JSON dictionary containing five fields:
- `id`: Numeric serial number serving as the joke's unique identifier
- `text`: Original text created by members of the Retarded Bar community and manually collected by me from the internet
- `analysis`: Joke explanation. Most explanations are created manually, while a small portion are generated by language models, indicated by the `author_type` field
- `pun`: List of puns contained in the joke identified by me. A joke may contain multiple or no puns
- `author_type`: The author type of the `analysis` field (not the original joke author), with two valid values: `human` and `ai`
### retarded_bar_qa.jsonl
retarded_bar_qa.jsonl is the interrogative joke dataset stored in JSONL format. Each line is a JSON dictionary containing four fields:
- `id`: Numeric serial number serving as the joke's unique identifier
- `text`: Original text created by members of the Retarded Bar community and manually collected by me from the internet
- `answer`: Reasonable reply to the interrogative joke. As defined by me, a valid reply should signal that the humor of the question has been recognized, remain polite, and provide accurate factual information. Some replies are created manually, while others are generated by language models, indicated by the `author_type` field
- `author_type`: The author type of the `answer` field (not the original joke author), with two valid values: `human` and `ai`
## Usage
It is recommended to use Python's jsonlines library or Hugging Face's datasets library to read this dataset. These libraries simplify reading JSONL format files and enable subsequent processing such as building training/test sets, training or evaluating language models, etc. For example, reading a JSONL file line-by-line using the jsonlines library:
python
import jsonlines
with jsonlines.open('retarded_bar.jsonl') as reader:
for obj in reader:
# Process each object
print(obj)
## Limitations
1. This project was completed solely by myself. Annotation of this type of data is difficult with low automation and requires substantial manual labor, resulting in a small dataset size.
2. My limited writing ability may prevent accurate and vivid expression of joke explanations, and I may fail to create high-quality replies. As such, some explanations and replies in this dataset may not be optimal.
3. The dataset's data originates from the internet, which may involve copyright issues. Users should pay attention to copyright compliance and adhere to relevant laws and regulations when using this dataset.
4. Most jokes from Retarded Bar are rooted in Chinese language context, so this dataset may not be applicable for joke evaluation in other languages.
## Contact Information
My QQ: 583753622
## Welcome to contribute more high-quality data!
提供机构:
hugfaceguy0001
原始信息汇总
弱智吧笑话数据集概述
数据集基本信息
- 名称:弱智吧笑话数据集
- 许可证:openrail
- 任务类别:text-generation
- 语言:中文
- 大小类别:n<1K
数据集内容
- 笑话数量:共100条
- 笑话类型:
- 陈述句笑话:45条
- 问句笑话:55条
数据集结构
- 文件格式:jsonl
- 数据文件:
- retarded_bar.jsonl:陈述性笑话数据集,包含字段:序号
id,原文text,笑点解析analysis,双关语pun,作者类型author_type。 - retarded_bar_qa.jsonl:提问性笑话数据集,包含字段:序号
id,原文text,回复answer,作者类型author_type。
- retarded_bar.jsonl:陈述性笑话数据集,包含字段:序号
数据集使用
- 建议使用库:Python的jsonlines库或Hugging Face的datasets库
- 使用示例:使用jsonlines库读取jsonl格式文件。
数据集局限性
- 数据集容量较小,自动化程度低。
- 笑点解析和回答质量可能有限。
- 数据集可能存在版权问题。
- 数据集主要基于中文语境,可能不适用于其他语言。
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,幽默理解是衡量模型认知能力的重要维度。该数据集的构建源于对中文网络幽默语料的系统性采集,聚焦于百度贴吧“弱智吧”社区中独具特色的冷笑话。构建过程采用人工与模型协同的方式,从互联网手动收集了100条原创笑话,并依据句式特征划分为陈述句与问句两类。每条数据均经过细致的标注,包括笑点解析、双关语识别及合理回复生成,其中解析与回复部分融合了人工创作与语言模型生成的成果,通过作者类型字段明确标注来源,确保了数据构建的透明性与可追溯性。
特点
该数据集以中文语境下的幽默表达为核心,其突出特点在于收录的笑话均采用双关、逻辑错位及非常规断句等创作手法,对语言模型的深层理解能力构成显著挑战。数据集结构设计精巧,分为陈述句与问句两种配置,分别对应不同的应用场景。每条数据不仅包含原始文本,还附有细致的笑点解析、双关语列表及针对问句的礼貌性事实回复,形成了多层次、多角度的注释体系。这种结构为研究幽默检测、语义歧义消解及对话生成等任务提供了丰富而独特的语料资源。
使用方法
为充分发挥该数据集在语言模型训练与评估中的价值,建议通过Hugging Face的datasets库或Python的jsonlines库进行便捷读取与处理。用户可依据研究需求,分别加载陈述句或问句配置文件,利用其中的文本、解析及回复字段构建训练样本或测试集。例如,在幽默识别任务中,可将原始文本作为输入,笑点解析作为监督信号;在对话生成任务中,则可基于问句笑话及其回复模拟幽默应对场景。数据处理时需注意其较小的规模及中文语境的依赖性,建议结合数据增强或领域适配方法以提升模型泛化能力。
背景与挑战
背景概述
弱智吧笑话数据集由hugfaceguy0001于2024年构建,聚焦于中文网络文化中独特的幽默表达形式。该数据集源自百度贴吧中著名的“弱智吧”社区,该社区以创作富含双关、逻辑跳跃和非常规语义的短篇笑话而著称。核心研究问题在于探索自然语言处理模型对中文语境下复杂幽默的理解与生成能力,特别是针对那些挑战常规逻辑和语言惯性的表达。这一小型数据集的建立,为评估和提升语言模型在非字面意义理解、文化特定语义捕捉方面的性能提供了初步的基准,对计算语言学与人工智能在幽默处理这一细分领域的发展具有启发意义。
当前挑战
该数据集旨在应对自然语言处理中幽默理解与生成的挑战,其核心难题在于模型需精准识别中文双关语、逻辑谬误及文化语境下的非常规表达,而非进行简单的文本分类或生成。在构建过程中,面临多重困难:数据标注高度依赖人工解析,自动化程度低,导致数据集规模受限;笑点解析与合理回复的创作要求深厚的语言与文化洞察力,现有标注在准确性与生动性上可能存在不足;数据源自互联网社区,涉及版权与内容规范的潜在风险;此外,笑话紧密依附于中文特定语境,其模式与挑战可能难以直接迁移至其他语言体系。
常用场景
经典使用场景
在自然语言处理领域,弱智吧笑话数据集常被用于评估和提升语言模型对中文幽默的理解能力。该数据集通过双关语、逻辑错位等手法构建的冷笑话,为研究者提供了一个独特的测试平台,用以检验模型在复杂语义和语境下的推理与解析水平。经典使用场景包括训练模型识别幽默元素、生成合理回复,以及探索语言模型在非标准逻辑表达中的表现,从而推动对话系统向更人性化、更智能的方向发展。
解决学术问题
该数据集有效解决了语言模型在处理中文幽默时面临的语义歧义和逻辑断裂问题。通过提供带有笑点解析和双关语标注的样本,它帮助研究者深入分析模型在理解非字面意义、文化特定表达方面的局限性。其意义在于填补了中文幽默计算研究的数据空白,促进了自然语言理解技术在复杂语境下的理论突破,为提升人工智能的认知灵活性提供了实证基础。
衍生相关工作
基于该数据集,已衍生出多项经典研究工作,主要集中在幽默检测、对话生成和语义分析领域。例如,研究者利用其构建基准测试,评估GPT系列等大型语言模型在中文幽默理解上的性能;同时,该数据也启发了针对双关语识别和逻辑推理的专项模型训练,推动了相关学术论文的发表和技术报告的撰写,为中文自然语言处理社区贡献了宝贵的资源。
以上内容由遇见数据集搜集并总结生成



