arbml/arabic_spam_ham_twitter

Name: arbml/arabic_spam_ham_twitter
Creator: arbml
Published: 2024-07-18 09:39:08
License: 暂无描述

Hugging Face2024-07-18 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/arbml/arabic_spam_ham_twitter

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含阿拉伯语的推文数据，用于区分垃圾邮件（Spam）和正常邮件（Ham）。数据字段包括日期、时间、URL、推文文本、清理后的文本、用户名、位置、回复推文ID、回复推文用户ID、回复推文用户名、坐标、转发计数、喜欢计数、是否喜欢以及标签（Ham或Spam）。数据集的结构包括一个训练集，包含13240个样本。

This dataset contains Arabic tweets for distinguishing between spam and ham (non-spam) messages. The data fields include Date, Time, URL, Tweet Text, Cleaned Text, User Name, Location, Replied Tweet ID, Replied Tweet User ID, Replied Tweet User Name, Coordinates, Retweet Count, Favorite Count, Favorited, and label (Ham or Spam). The dataset structure includes a training set with 13,240 examples.

提供机构：

arbml

原始信息汇总

数据集卡片 for arabic_spam_ham_twitter

数据集描述

数据集概述

[更多信息待补充]

支持的任务和排行榜

[更多信息待补充]

语言

[更多信息待补充]

数据集结构

数据实例

[更多信息待补充]

数据字段

[更多信息待补充]

数据分割

[更多信息待补充]

数据集创建

策划理由

[更多信息待补充]

源数据

初始数据收集和规范化

[更多信息待补充]

源语言生产者是谁？

[更多信息待补充]

注释

注释过程

[更多信息待补充]

注释者是谁？

[更多信息待补充]

个人和敏感信息

[更多信息待补充]

使用数据集的注意事项

数据集的社会影响

[更多信息待补充]

偏见的讨论

[更多信息待补充]

其他已知限制

[更多信息待补充]

附加信息

数据集策展人

[更多信息待补充]

许可信息

[更多信息待补充]

引用信息

@article{kaddoura2024dataset, title={Dataset of Arabic spam and ham tweets}, author={Kaddoura, Sanaa and Henno, Safaa}, journal={Data in Brief}, volume={52}, pages={109904}, year={2024}, publisher={Elsevier} }

贡献

感谢 @github-username 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集