five

Multilingual-Perspectivist-NLU/MultiPICo|讽刺检测数据集|多语言NLP数据集

收藏
hugging_face2024-05-30 更新2024-06-12 收录
讽刺检测
多语言NLP
下载链接:
https://hf-mirror.com/datasets/Multilingual-Perspectivist-NLU/MultiPICo
下载链接
链接失效反馈
资源简介:
MultiPICo(多语言视角讽刺语料库)是一个用于讽刺检测的多语言语料库,包含了来自Twitter和Reddit的18,778对短对话(帖子-回复),以及每个注释者的人口统计信息(如年龄、国籍、性别等)。数据集支持讽刺分类任务,使用软标签(即注释的分布)或硬标签(即聚合标签)。数据集包含多种语言,每种语言有不同的变体。数据实例和注释者的数量也被详细列出。数据集的结构、数据字段、数据分割、初始数据收集和标准化过程、注释过程、注释者信息、个人和敏感信息、社会影响、偏见讨论、其他已知限制、数据集策展人和引用信息也被提及。

MultiPICo(多语言视角讽刺语料库)是一个用于讽刺检测的多语言语料库,包含了来自Twitter和Reddit的18,778对短对话(帖子-回复),以及每个注释者的人口统计信息(如年龄、国籍、性别等)。数据集支持讽刺分类任务,使用软标签(即注释的分布)或硬标签(即聚合标签)。数据集包含多种语言,每种语言有不同的变体。数据实例和注释者的数量也被详细列出。数据集的结构、数据字段、数据分割、初始数据收集和标准化过程、注释过程、注释者信息、个人和敏感信息、社会影响、偏见讨论、其他已知限制、数据集策展人和引用信息也被提及。
提供机构:
Multilingual-Perspectivist-NLU
原始信息汇总

数据集概述

数据集名称

MultiPICo (Multilingual Perspectivist Irony Corpus)

数据集描述

MultiPICo 是一个用于讽刺检测的多语言分解语料库,包含来自 Twitter (8,956 对) 和 Reddit (9,822 对) 的 18,778 对简短对话(帖子-回复),以及每位标注者的基本信息(年龄、国籍、性别等)。

数据集规模

  • 实例总数:94,342
  • 标注者总数:506

语言支持

  • 西班牙语
  • 英语
  • 德语
  • 阿拉伯语
  • 葡萄牙语
  • 法语
  • 荷兰语
  • 意大利语
  • 印地语

数据实例分布

  • 西班牙语:4,683 实例,122 标注者
  • 英语:2,999 实例,74 标注者
  • 德语:2,375 实例,70 标注者
  • 阿拉伯语:2,181 实例,68 标注者
  • 葡萄牙语:1,994 实例,49 标注者
  • 法语:1,760 实例,50 标注者
  • 荷兰语:1,000 实例,25 标注者
  • 意大利语:1,000 实例,24 标注者
  • 印地语:786 实例,24 标注者

数据字段

  • 行:每个标注者的标注(通过“annotator_id”标识)
  • 列:关于用户标注的目标文本的各种信息(post_id, post, reply_id, reply, language, language_variety),以及标注者的元数据(年龄、自识别性别、种族等)

数据分割

该语料库未分割为训练集和验证/测试集。

数据来源

  • 文本来源:Reddit 和 Twitter 用户
  • 标注过程:在 Prolific 平台上进行

许可证

CC-BY-4.0

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

农业农作物生长全周期数据集

农业农作物生长全周期数据集通过整合农作物、农场面积、刺激类型、肥料用量、杀虫剂使用量、产量、土壤类型、季节和用水量等多维度数据,实现农业生产的精准化管理和可持续发展。

浙江大数据交易服务平台 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录