alsubari/arabic-grammar-errors

Name: alsubari/arabic-grammar-errors
Creator: alsubari
Published: 2026-03-17 03:20:08
License: 暂无描述

Hugging Face2026-03-17 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/alsubari/arabic-grammar-errors

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: text dtype: string - name: correct_text dtype: string - name: label dtype: int64 - name: tags dtype: string splits: - name: train num_bytes: 84273102 num_examples: 145901 - name: validation num_bytes: 9383743 num_examples: 16212 download_size: 47920607 dataset_size: 93656845 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* license: mit task_categories: - text-classification - token-classification - text-generation language: - ar size_categories: - 100K<n<1M ---

数据集信息：特征字段： - 字段名：text（原文文本），数据类型：字符串 - 字段名：correct_text（校正文本），数据类型：字符串 - 字段名：label（分类标签），数据类型：64位整型 - 字段名：tags（标签标记），数据类型：字符串数据集划分： - 划分名称：训练集（train），字节占用：84273102，样本量：145901 - 划分名称：验证集（validation），字节占用：9383743，样本量：16212 下载总大小：47920607 字节数据集总占用大小：93656845 字节配置项： - 配置名称：默认配置（default）数据文件： - 对应划分：训练集（train），文件路径：data/train-* - 对应划分：验证集（validation），文件路径：data/validation-* 开源许可证：MIT许可证（mit）任务类别： - 文本分类 - Token分类（token-classification） - 文本生成语言：阿拉伯语（ar）样本规模类别：100K < n < 1M（样本量介于10万至100万之间）

提供机构：

alsubari

5,000+

优质数据集

54 个

任务类型

进入经典数据集