five

iabufarha/ar_sarcasm|讽刺检测数据集|阿拉伯语处理数据集

收藏
hugging_face2024-01-09 更新2024-05-25 收录
讽刺检测
阿拉伯语处理
下载链接:
https://hf-mirror.com/datasets/iabufarha/ar_sarcasm
下载链接
链接失效反馈
资源简介:
ArSarcasm是一个用于阿拉伯语讽刺检测的新数据集。该数据集基于已有的阿拉伯语情感分析数据集(SemEval 2017和ASTD)构建,并添加了讽刺和方言标签。数据集包含10,547条推文,其中1,682条(16%)是讽刺性的。数据集的字段包括推文文本、讽刺标签、情感标签、原始情感标签、数据来源和方言标签。数据集分为训练集和测试集,分别包含8,437条和2,110条推文。

ArSarcasm是一个用于阿拉伯语讽刺检测的新数据集。该数据集基于已有的阿拉伯语情感分析数据集(SemEval 2017和ASTD)构建,并添加了讽刺和方言标签。数据集包含10,547条推文,其中1,682条(16%)是讽刺性的。数据集的字段包括推文文本、讽刺标签、情感标签、原始情感标签、数据来源和方言标签。数据集分为训练集和测试集,分别包含8,437条和2,110条推文。
提供机构:
iabufarha
原始信息汇总

数据集概述

名称: ArSarcasm

语言: 阿拉伯语 (多种方言)

许可证: MIT

多语言性: 单语

大小: 10K<n<100K

来源数据集: 扩展自 SemEval 2017 和 ASTD

任务类别: 文本分类

任务ID: 情感分类

标签: 讽刺检测

数据集结构

数据字段

  • dialect: 方言分类(埃及、海湾、黎凡特、马格里布、现代标准阿拉伯语)
  • sarcasm: 讽刺分类(非讽刺、讽刺)
  • sentiment: 情感分类(负面、中性、正面)
  • original_sentiment: 原始情感分类(负面、中性、正面)
  • tweet: 推文文本
  • source: 推文来源(SemEval、ASTD)

数据分割

  • 训练集: 8,437条推文
  • 测试集: 2,110条推文

数据集创建

源数据

  • 初始数据收集和规范化: 使用 SemEval 2017 和 ASTD 数据集,添加讽刺和方言标签
  • 语言生产者: SemEval 2017 和 ASTD

注释

  • 注释过程: 使用 Figure-Eight 众包平台进行注释,包括讽刺、情感和方言标签
  • 注释者: Figure-Eight 众包平台

许可证信息

  • 许可证: MIT
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集