pain/Arabic-Tweets

Name: pain/Arabic-Tweets
Creator: pain
Published: 2023-04-08 10:02:07
License: 暂无描述

Hugging Face2023-04-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pain/Arabic-Tweets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Arabic-Tweets，主要包含从Twitter收集的阿拉伯语推文数据。数据集的总大小超过41GB，包含近40亿个阿拉伯语单词（1200万个独特的阿拉伯语单词）。数据经过清洗和标准化处理，去除了包含波斯字符、重复字符或单个字符的推文，并删除了标签、提及和链接。该数据集的主要用途是创建语言模型。

提供机构：

pain

原始信息汇总

数据集概述

数据集名称

Dataset Arabic-Tweets

数据集描述

数据大小： 超过41 GB
数据内容： 包含近40亿个阿拉伯语单词（1200万个独特阿拉伯语单词）
数据来源： 从Twitter收集
数据处理： 原始数据为100 GB，经过处理去除标签、提及和链接，剔除包含波斯字符、连续三个相同字符或单字词的推文，并进行阿拉伯字母的规范化处理

语言

阿拉伯语

数据加载示例

流式加载： py from datasets import load_dataset dataset = load_dataset("pain/Arabic-Tweets",split=train, streaming=True) print(next(iter(dataset)))
非流式加载： py from datasets import load_dataset dataset = load_dataset("pain/Arabic-Tweets",split=train) print(dataset["train"][0])

使用注意事项

数据集用于创建语言模型，不负责推文内容的审核

许可证

Creative Commons Attribution 4.0

引用信息

@INPROCEEDINGS{10022652, author={Al-Fetyani, Mohammad and Al-Barham, Muhammad and Abandah, Gheith and Alsharkawi, Adham and Dawas, Maha}, booktitle={2022 IEEE Spoken Language Technology Workshop (SLT)}, title={MASC: Massive Arabic Speech Corpus}, year={2023}, volume={}, number={}, pages={1006-1013}, doi={10.1109/SLT54892.2023.10022652}}

5,000+

优质数据集

54 个

任务类型

进入经典数据集