five

Superar/Puntuguese

收藏
Hugging Face2024-06-04 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/Superar/Puntuguese
下载链接
链接失效反馈
官方服务:
资源简介:
Puntuguese是一个包含葡萄牙语双关语文本的数据集,涵盖了巴西和欧洲葡萄牙语的幽默笑话。数据集经过手动收集和整理,并包含多层注释,如双关语的分类、双关语和替代符号的明确标记,以及从伦理角度标记的潜在问题双关语。每个笑话都有一个非幽默的对应版本,通过微编辑获得,以便机器学习系统进行训练。数据集的结构包括幽默识别和双关语定位两个任务,分别使用`text`和`label`列以及`tokens`和`labels`列。数据集的创建过程遵循了Miller等人(2017)对双关语的定义,并提供了收集和处理数据的详细指南。数据集的来源包括网络博客、Instagram页面和YouTube视频。
提供机构:
Superar
原始信息汇总

数据集概述

基本信息

  • 名称: Puntuguese - A Corpus of Puns in Portuguese with Micro-editions
  • 语言: 巴西葡萄牙语; 欧洲葡萄牙语
  • 许可证: CC-BY-SA-4.0
  • 任务类别: 文本分类; 令牌分类
  • 标签: 幽默, 双关语, 幽默识别, 双关语定位

数据集描述

  • 策划者: Marcio Lima Inácio
  • 资助: FCT - Foundation for Science and Technology, I.P. (grant number UI/BD/153496/2022) 和 葡萄牙复苏与韧性计划 (项目编号 C645008882-00000055, 负责AI中心)
  • 数据来源: “Maiores e melhores” 网络博客, “O Sagrado Caderno das Piadas Secas” Instagram页面, 以及 “UTC - Ultimate Trocadilho Challenge” by Castro Brothers on Youtube

数据集结构

  • 任务: 幽默识别 和 双关语定位
  • 数据格式: 包含 text, label, tokens, 和 labels
  • 示例: json { "id": "1.1.H", "text": "Deve ser difícil ser professor de natação. Você ensina, ensina, e o aluno nada.", "label": 1, "tokens": ["Deve", "ser", "difícil", "ser", "professor", "de", "natação", ".", "Você", "ensina", ",", "ensina", ",", "e", "o", "aluno", "nada", "."], "labels": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0] }

数据集创建

  • 收集与处理: 数据手动收集和整理,确保所有笑话符合Miller等人(2017)的定义。
  • 源数据生产者: 来自上述来源的专业喜剧演员。

偏见、风险和局限性

  • 数据可能包含关于敏感主题的问题和敏感笑话,提供了一个列表以供过滤。

引用信息

  • BibTeX: 见README文件内容
  • ACL: 见README文件内容
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作