five

pain/Arabic-Tweets

收藏
Hugging Face2023-04-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pain/Arabic-Tweets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Arabic-Tweets,主要包含从Twitter收集的阿拉伯语推文数据。数据集的总大小超过41GB,包含近40亿个阿拉伯语单词(1200万个独特的阿拉伯语单词)。数据经过清洗和标准化处理,去除了包含波斯字符、重复字符或单个字符的推文,并删除了标签、提及和链接。该数据集的主要用途是创建语言模型。

该数据集名为Arabic-Tweets,主要包含从Twitter收集的阿拉伯语推文数据。数据集的总大小超过41GB,包含近40亿个阿拉伯语单词(1200万个独特的阿拉伯语单词)。数据经过清洗和标准化处理,去除了包含波斯字符、重复字符或单个字符的推文,并删除了标签、提及和链接。该数据集的主要用途是创建语言模型。
提供机构:
pain
原始信息汇总

数据集概述

数据集名称

Dataset Arabic-Tweets

数据集描述

  • 数据大小: 超过41 GB
  • 数据内容: 包含近40亿个阿拉伯语单词(1200万个独特阿拉伯语单词)
  • 数据来源: 从Twitter收集
  • 数据处理: 原始数据为100 GB,经过处理去除标签、提及和链接,剔除包含波斯字符、连续三个相同字符或单字词的推文,并进行阿拉伯字母的规范化处理

语言

阿拉伯语

数据加载示例

  • 流式加载: py from datasets import load_dataset dataset = load_dataset("pain/Arabic-Tweets",split=train, streaming=True) print(next(iter(dataset)))

  • 非流式加载: py from datasets import load_dataset dataset = load_dataset("pain/Arabic-Tweets",split=train) print(dataset["train"][0])

使用注意事项

  • 数据集用于创建语言模型,不负责推文内容的审核

许可证

Creative Commons Attribution 4.0

引用信息

@INPROCEEDINGS{10022652, author={Al-Fetyani, Mohammad and Al-Barham, Muhammad and Abandah, Gheith and Alsharkawi, Adham and Dawas, Maha}, booktitle={2022 IEEE Spoken Language Technology Workshop (SLT)}, title={MASC: Massive Arabic Speech Corpus}, year={2023}, volume={}, number={}, pages={1006-1013}, doi={10.1109/SLT54892.2023.10022652}}

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作