BAREC-10M
收藏BAREC-10M Corpus v1.0 数据集概述
基本信息
- 数据集名称:BAREC-10M Corpus v1.0
- 许可协议:cc-by-sa-4.0
- 主要任务类别:文本分类
- 语言:阿拉伯语(现代标准阿拉伯语)
- 标签:可读性
- 数据规模:1M<n<10M
数据集简介
BAREC-10M 是平衡阿拉伯语可读性评估语料库(BAREC)的扩展版本,规模从100万词扩展到1000万词,并扩展了其覆盖范围,包含平衡的多领域覆盖。每个文本都按领域、体裁和读者水平进行标注,并使用最先进的工具丰富了自动形态、句法和可读性分析。
可用标注
文档级标注(手动标注)
- 领域:
艺术与人文、社会科学或STEM - 读者群体:
基础、高级或专业 - 文本类别:
教育材料、文学、艺术与音乐、媒体与文化、学术、百科全书或宗教与哲学
句子级标注(自动生成)
- 形态分析
- 句法解析
- 可读性分级
语料库详情
数据集目录结构
. ├── Data/ │ ├── Metadata.xlsx │ ├── Raw.zip │ ├── Morphology_and_Readability.zip │ ├── Syntax_CATiB.zip │ └── Syntax_UD.zip └── README.md
元数据
元数据文件包含以下字段:
- 文档:文档文件名(无扩展名)
- 目录:文档目录
- 来源:文档来源
- 书籍:书籍标题
- 作者:作者姓名
- 领域
- 读者水平
- 文本类别
- 词数:文档中的单词数
- 句子数:文档中的句子数
- 是否在BAREC语料库中?:指示文档是否源自原始BAREC语料库(
是或否)
原始句子
语料库包含20,535个包含原始句子的.txt文件,根据元数据组织到多个目录中。
形态与可读性
语料库包含20,535个包含形态和可读性标注的.json文件,根据元数据组织到多个目录中。
每个JSON文件代表一个文档,包含以下键值对:
句子级特征:
raw_sents:原始句子(字符串列表)sents_word_count:每句单词数(整数列表)sents_RL:句子级可读性分数(1到19的整数列表)。值###表示源自BAREC语料库的文档中有问题的句子。
单词级特征:
word:所有句子的分词(字符串列表的列表)lex:所有单词的词元(字符串列表的列表)pos:词性标签(字符串列表的列表)RL:词元的可读性级别(整数列表的列表)num、gen、mod等:所有单词的额外CAMeL Morph特征(字符串列表的列表)
句法
我们提供哥伦比亚阿拉伯语树库(CATiB)和通用依存关系(UD)两种方案的句法标注。
语料库包含每种标注方案的20,535个.conllx文件,每个文件包含句法标注,并根据元数据组织到多个目录中。
我们推荐使用Palmyra工具对这些文件进行可视化和分析。
使用方式
您可以通过Hub的用户界面手动下载文件,或使用snapshot_download一次性下载所有文件。
python
from huggingface_hub import snapshot_download
snapshot_download( repo_id="CAMeL-Lab/BAREC-10M", repo_type="dataset", local_dir="path/to/local/dir", allow_patterns=["Data/*"] )
引用
如果您在工作中使用BAREC-10M,请引用以下论文:
@inproceedings{elmadani2026large, author = {Elmadani, Khalid N. and Wizani, Adel Mahmoud and Taha-Thomure, Hanada and Habash, Nizar}, title = {A Large and Balanced Multi-Domain Arabic Corpus Annotated for Morphology, Syntax, and Readability}, booktitle = {Proceedings of the International Conference on Language Resources and Evaluation (LREC 2026)}, year = {2026}, address = {Palma, Mallorca, Spain} }




