iabufarha/ar_sarcasm|讽刺检测数据集|阿拉伯语处理数据集
收藏hugging_face2024-01-09 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/iabufarha/ar_sarcasm
下载链接
链接失效反馈资源简介:
ArSarcasm是一个用于阿拉伯语讽刺检测的新数据集。该数据集基于已有的阿拉伯语情感分析数据集(SemEval 2017和ASTD)构建,并添加了讽刺和方言标签。数据集包含10,547条推文,其中1,682条(16%)是讽刺性的。数据集的字段包括推文文本、讽刺标签、情感标签、原始情感标签、数据来源和方言标签。数据集分为训练集和测试集,分别包含8,437条和2,110条推文。
ArSarcasm是一个用于阿拉伯语讽刺检测的新数据集。该数据集基于已有的阿拉伯语情感分析数据集(SemEval 2017和ASTD)构建,并添加了讽刺和方言标签。数据集包含10,547条推文,其中1,682条(16%)是讽刺性的。数据集的字段包括推文文本、讽刺标签、情感标签、原始情感标签、数据来源和方言标签。数据集分为训练集和测试集,分别包含8,437条和2,110条推文。
提供机构:
iabufarha
原始信息汇总
数据集概述
名称: ArSarcasm
语言: 阿拉伯语 (多种方言)
许可证: MIT
多语言性: 单语
大小: 10K<n<100K
来源数据集: 扩展自 SemEval 2017 和 ASTD
任务类别: 文本分类
任务ID: 情感分类
标签: 讽刺检测
数据集结构
数据字段
- dialect: 方言分类(埃及、海湾、黎凡特、马格里布、现代标准阿拉伯语)
- sarcasm: 讽刺分类(非讽刺、讽刺)
- sentiment: 情感分类(负面、中性、正面)
- original_sentiment: 原始情感分类(负面、中性、正面)
- tweet: 推文文本
- source: 推文来源(SemEval、ASTD)
数据分割
- 训练集: 8,437条推文
- 测试集: 2,110条推文
数据集创建
源数据
- 初始数据收集和规范化: 使用 SemEval 2017 和 ASTD 数据集,添加讽刺和方言标签
- 语言生产者: SemEval 2017 和 ASTD
注释
- 注释过程: 使用 Figure-Eight 众包平台进行注释,包括讽刺、情感和方言标签
- 注释者: Figure-Eight 众包平台
许可证信息
- 许可证: MIT
