iabufarha/ar_sarcasm|讽刺检测数据集|阿拉伯语处理数据集

hugging_face2024-01-09 更新2024-05-25 收录

讽刺检测

阿拉伯语处理

下载链接：

https://hf-mirror.com/datasets/iabufarha/ar_sarcasm

下载链接

链接失效反馈

资源简介：

ArSarcasm是一个用于阿拉伯语讽刺检测的新数据集。该数据集基于已有的阿拉伯语情感分析数据集（SemEval 2017和ASTD）构建，并添加了讽刺和方言标签。数据集包含10,547条推文，其中1,682条（16%）是讽刺性的。数据集的字段包括推文文本、讽刺标签、情感标签、原始情感标签、数据来源和方言标签。数据集分为训练集和测试集，分别包含8,437条和2,110条推文。

提供机构：

iabufarha

原始信息汇总

数据集概述

名称: ArSarcasm

语言: 阿拉伯语 (多种方言)

许可证: MIT

多语言性: 单语

大小: 10K<n<100K

来源数据集: 扩展自 SemEval 2017 和 ASTD

任务类别: 文本分类

任务ID: 情感分类

标签: 讽刺检测

数据集结构

数据字段

dialect: 方言分类（埃及、海湾、黎凡特、马格里布、现代标准阿拉伯语）
sarcasm: 讽刺分类（非讽刺、讽刺）
sentiment: 情感分类（负面、中性、正面）
original_sentiment: 原始情感分类（负面、中性、正面）
tweet: 推文文本
source: 推文来源（SemEval、ASTD）

数据分割

训练集: 8,437条推文
测试集: 2,110条推文

数据集创建

源数据

初始数据收集和规范化: 使用 SemEval 2017 和 ASTD 数据集，添加讽刺和方言标签
语言生产者: SemEval 2017 和 ASTD

注释

注释过程: 使用 Figure-Eight 众包平台进行注释，包括讽刺、情感和方言标签
注释者: Figure-Eight 众包平台

许可证信息

许可证: MIT

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

5,000+

优质数据集

54 个

任务类型

进入经典数据集