pain/Arabic-Tweets
收藏Hugging Face2023-04-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pain/Arabic-Tweets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Arabic-Tweets,主要包含从Twitter收集的阿拉伯语推文数据。数据集的总大小超过41GB,包含近40亿个阿拉伯语单词(1200万个独特的阿拉伯语单词)。数据经过清洗和标准化处理,去除了包含波斯字符、重复字符或单个字符的推文,并删除了标签、提及和链接。该数据集的主要用途是创建语言模型。
该数据集名为Arabic-Tweets,主要包含从Twitter收集的阿拉伯语推文数据。数据集的总大小超过41GB,包含近40亿个阿拉伯语单词(1200万个独特的阿拉伯语单词)。数据经过清洗和标准化处理,去除了包含波斯字符、重复字符或单个字符的推文,并删除了标签、提及和链接。该数据集的主要用途是创建语言模型。
提供机构:
pain
原始信息汇总
数据集概述
数据集名称
Dataset Arabic-Tweets
数据集描述
- 数据大小: 超过41 GB
- 数据内容: 包含近40亿个阿拉伯语单词(1200万个独特阿拉伯语单词)
- 数据来源: 从Twitter收集
- 数据处理: 原始数据为100 GB,经过处理去除标签、提及和链接,剔除包含波斯字符、连续三个相同字符或单字词的推文,并进行阿拉伯字母的规范化处理
语言
阿拉伯语
数据加载示例
-
流式加载: py from datasets import load_dataset dataset = load_dataset("pain/Arabic-Tweets",split=train, streaming=True) print(next(iter(dataset)))
-
非流式加载: py from datasets import load_dataset dataset = load_dataset("pain/Arabic-Tweets",split=train) print(dataset["train"][0])
使用注意事项
- 数据集用于创建语言模型,不负责推文内容的审核
许可证
Creative Commons Attribution 4.0
引用信息
@INPROCEEDINGS{10022652, author={Al-Fetyani, Mohammad and Al-Barham, Muhammad and Abandah, Gheith and Alsharkawi, Adham and Dawas, Maha}, booktitle={2022 IEEE Spoken Language Technology Workshop (SLT)}, title={MASC: Massive Arabic Speech Corpus}, year={2023}, volume={}, number={}, pages={1006-1013}, doi={10.1109/SLT54892.2023.10022652}}



