SaiedAlshahrani/Egyptian_Arabic_Wikipedia_20230101
收藏Hugging Face2024-01-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SaiedAlshahrani/Egyptian_Arabic_Wikipedia_20230101
下载链接
链接失效反馈官方服务:
资源简介:
该数据集使用埃及阿拉伯语维基百科文章创建,文章下载于2023年1月1日,并使用`Gensim` Python库、`tr` Linux/Unix工具和`CAMeLTools` Python工具包进行处理和预处理。该数据集用于训练埃及阿拉伯语维基百科的掩码语言模型。更多详细信息请阅读并引用我们的论文。
该数据集使用埃及阿拉伯语维基百科文章创建,文章下载于2023年1月1日,并使用`Gensim` Python库、`tr` Linux/Unix工具和`CAMeLTools` Python工具包进行处理和预处理。该数据集用于训练埃及阿拉伯语维基百科的掩码语言模型。更多详细信息请阅读并引用我们的论文。
提供机构:
SaiedAlshahrani
原始信息汇总
数据集概述
基本信息
- 数据集名称: Egyptian_Arabic_Wikipedia_20230101
- 语言: 阿拉伯语(埃及方言)
- 许可证: MIT
数据集特征
- 特征名称: text
- 数据类型: string
数据分割
- 训练集
- 名称: train
- 示例数量: 728337
- 字节大小: 734493718
数据集大小
- 下载大小: 94587574
- 数据集总大小: 734493718
数据集类别
- 大小范围: 100K<n<1M
数据集用途
- 用于训练埃及阿拉伯语维基百科掩码语言模型: SaiedAlshahrani/arzwiki_20230101_roberta_mlm



