Danielbrdz/Barcenas-HumorNegro
收藏Hugging Face2024-04-24 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Danielbrdz/Barcenas-HumorNegro
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-nc-4.0
task_categories:
- text-classification
language:
- es
tags:
- humor
- joke
- synthetic
- spanish
- claude
size_categories:
- n<1K
---
Dataset en español con 500 chistes de humor negro y una explicación.
Datos creados de manera sintética por Claude 3 Haiku y Llama 3 70B Instruct.
El proceso para crear el dataset fue el recopilar de varias fuentes chistes de humor negro en español para luego ser utilizadas en los mejores modelos como Gemini 1.5 Pro, Claude 3, etc.
Con eso genere cientos de chistes de humor negro en español para tener más datos y hacer un super recopilatorio de chistes de humor negro en español, aproximadamente un 30% de los datos fueron creados de manera sintética.
Todo este proceso fue inspirado por lo explicado por Anthropic para la creación de Claude 3 Opus, de mezclar datos del mundo real con datos sintéticos.
Con esa recopilación de chistes negros y usando RAG para Claude 3 Haiku y Llama 3 70B Instruct, hice que hicieran chistes de humor negro y una explicación del chiste, el 95% de los chistes este dataset fueron hechos de manera sintética y el 100% fueron hechas por los LLMs.
Quería ver si realmente con todos los datos puestos, un LLMs puede entender explicar un chiste humor negro, los resultados fueron bastantes satisfactorios, diría que un 70% de los chistes los explico bien y el 30% hizo una explicación errónea o poco ambigua.
Muchas gracias a LenguajeNaturalAI por su dataset:HumorQA, fue una inspiración para la creación de un dataset pero con Humor Negro.
ADVERTENCIA: El dataset cuenta con chistes extremadamente negros y muy ofensivos relacionados con: sexualidad, machismo, violencia, racismo, xenofobia, etc.
----------------------------------------------------------------------------------------
Spanish dataset with 500 dark humor jokes and an explanation.
Data synthetically created by Claude 3 Haiku and Llama 3 70B Instruct.
The process to create the dataset was to compile various sources of dark humor jokes in Spanish to then be used in the best models like Gemini 1.5 Pro, Claude 3, etc.
With that, I generated hundreds of dark humor jokes in Spanish to have more data and make a super compilation of dark humor jokes in Spanish, approximately 30% of the data were synthetically created.
This whole process was inspired by what was explained by Anthropic for the creation of Claude 3 Opus, to mix real-world data with synthetic data.
With that collection of dark jokes and using RAG for Claude 3 Haiku and Llama 3 70B Instruct, I made them make dark humor jokes and an explanation of the joke, 95% of the jokes in this dataset were made synthetically and 100% were made by the LLMs.
I wanted to see if really with all the data put, an LLMs can understand to explain a dark humor joke, the results were quite satisfactory, I would say that 70% of the jokes explained well and 30% made a wrong or somewhat ambiguous explanation.
Many thanks to LenguajeNaturalAI for their dataset:HumorQA, it was an inspiration for the creation of a dataset but with Dark Humor.
WARNING: The dataset contains extremely dark and very offensive jokes related to: sexuality, machismo, violence, racism, xenophobia, etc.
Made with ❤️ in Guadalupe, Nuevo Leon, Mexico 🇲🇽
提供机构:
Danielbrdz
原始信息汇总
数据集概述
基本信息
- 许可: CC-BY-NC-4.0
- 任务类别: 文本分类
- 语言: 西班牙语
- 标签: 幽默, 笑话, 合成, 西班牙语, claude
- 大小类别: 小于1K
数据集描述
- 内容: 包含500个黑色幽默笑话及其解释
- 创建方式: 由Claude 3 Haiku和Llama 3 70B Instruct合成创建
- 数据来源: 从多个西班牙语黑色幽默笑话源中收集,约30%的数据为合成数据
- 使用模型: Gemini 1.5 Pro, Claude 3等
- 数据处理: 使用RAG技术,95%的笑话为合成创建,100%由大型语言模型(LLMs)生成
- 解释准确性: 约70%的笑话解释正确,30%解释错误或含糊
注意事项
- 内容警告: 包含极端黑色和非常冒犯性的笑话,涉及性、男性至上、暴力、种族主义、仇外等



