alsubari/arabic-grammar-errors
收藏Hugging Face2026-03-17 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/alsubari/arabic-grammar-errors
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: correct_text
dtype: string
- name: label
dtype: int64
- name: tags
dtype: string
splits:
- name: train
num_bytes: 84273102
num_examples: 145901
- name: validation
num_bytes: 9383743
num_examples: 16212
download_size: 47920607
dataset_size: 93656845
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
license: mit
task_categories:
- text-classification
- token-classification
- text-generation
language:
- ar
size_categories:
- 100K<n<1M
---
数据集信息:
特征字段:
- 字段名:text(原文文本),数据类型:字符串
- 字段名:correct_text(校正文本),数据类型:字符串
- 字段名:label(分类标签),数据类型:64位整型
- 字段名:tags(标签标记),数据类型:字符串
数据集划分:
- 划分名称:训练集(train),字节占用:84273102,样本量:145901
- 划分名称:验证集(validation),字节占用:9383743,样本量:16212
下载总大小:47920607 字节
数据集总占用大小:93656845 字节
配置项:
- 配置名称:默认配置(default)
数据文件:
- 对应划分:训练集(train),文件路径:data/train-*
- 对应划分:验证集(validation),文件路径:data/validation-*
开源许可证:MIT许可证(mit)
任务类别:
- 文本分类
- Token分类(token-classification)
- 文本生成
语言:阿拉伯语(ar)
样本规模类别:100K < n < 1M(样本量介于10万至100万之间)
提供机构:
alsubari



