Superar/Puntuguese

Name: Superar/Puntuguese
Creator: Superar
Published: 2024-06-04 10:13:03
License: 暂无描述

Hugging Face2024-06-04 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/Superar/Puntuguese

下载链接

链接失效反馈

官方服务：

资源简介：

Puntuguese是一个包含葡萄牙语双关语文本的数据集，涵盖了巴西和欧洲葡萄牙语的幽默笑话。数据集经过手动收集和整理，并包含多层注释，如双关语的分类、双关语和替代符号的明确标记，以及从伦理角度标记的潜在问题双关语。每个笑话都有一个非幽默的对应版本，通过微编辑获得，以便机器学习系统进行训练。数据集的结构包括幽默识别和双关语定位两个任务，分别使用`text`和`label`列以及`tokens`和`labels`列。数据集的创建过程遵循了Miller等人（2017）对双关语的定义，并提供了收集和处理数据的详细指南。数据集的来源包括网络博客、Instagram页面和YouTube视频。

提供机构：

Superar

原始信息汇总

数据集概述

基本信息

名称: Puntuguese - A Corpus of Puns in Portuguese with Micro-editions
语言: 巴西葡萄牙语; 欧洲葡萄牙语
许可证: CC-BY-SA-4.0
任务类别: 文本分类; 令牌分类
标签: 幽默, 双关语, 幽默识别, 双关语定位

数据集描述

策划者: Marcio Lima Inácio
资助: FCT - Foundation for Science and Technology, I.P. (grant number UI/BD/153496/2022) 和葡萄牙复苏与韧性计划 (项目编号 C645008882-00000055, 负责AI中心)
数据来源: “Maiores e melhores” 网络博客, “O Sagrado Caderno das Piadas Secas” Instagram页面, 以及 “UTC - Ultimate Trocadilho Challenge” by Castro Brothers on Youtube

数据集结构

任务: 幽默识别和双关语定位
数据格式: 包含 text, label, tokens, 和 labels 列
示例: json { "id": "1.1.H", "text": "Deve ser difícil ser professor de natação. Você ensina, ensina, e o aluno nada.", "label": 1, "tokens": ["Deve", "ser", "difícil", "ser", "professor", "de", "natação", ".", "Você", "ensina", ",", "ensina", ",", "e", "o", "aluno", "nada", "."], "labels": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0] }

数据集创建

收集与处理: 数据手动收集和整理，确保所有笑话符合Miller等人(2017)的定义。
源数据生产者: 来自上述来源的专业喜剧演员。

偏见、风险和局限性

数据可能包含关于敏感主题的问题和敏感笑话，提供了一个列表以供过滤。

引用信息

BibTeX: 见README文件内容
ACL: 见README文件内容

5,000+

优质数据集

54 个

任务类型

进入经典数据集