five

BAREC-10M

收藏
Hugging Face2026-04-15 更新2026-04-16 收录
下载链接:
https://huggingface.co/datasets/CAMeL-Lab/BAREC-10M
下载链接
链接失效反馈
官方服务:
资源简介:
BAREC-10M Corpus v1.0 是 Balanced Arabic Readability Evaluation Corpus (BAREC) 的扩展版本,规模从100万词扩展到1000万词,并扩大了其覆盖范围,包括平衡的多领域内容。每个文本都标注了**领域**、**体裁**和**读者水平**,并使用最先进的工具丰富了自动**形态学**、**句法**和**可读性**分析。数据集包含文档级和句子级注释。文档级注释(手动标注)包括**领域**(艺术与人文、社会科学或STEM)、**读者群体**(基础、高级或专业)和**文本类别**(教育材料、文学艺术与音乐、媒体与文化、学术、百科全书或宗教与哲学)。句子级注释(自动生成)包括**形态学分析**、**句法解析**和**可读性分级**。数据集语言为**现代标准阿拉伯语**。数据集目录结构包括元数据文件、原始句子文件、形态学和可读性注释文件以及句法注释文件(CATiB和UD方案)。元数据文件包含文档文件名、目录、来源、书名、作者、领域、读者水平、文本类别、词数、句子数等字段。原始句子文件包含20,535个.txt文件,形态学和可读性注释文件包含20,535个.json文件,句法注释文件包含20,535个.conllx文件(每种注释方案)。数据集适用于文本分类任务,特别是与可读性相关的任务。
提供机构:
CAMeL Lab
创建时间:
2026-04-09
原始信息汇总

BAREC-10M Corpus v1.0 数据集概述

基本信息

  • 数据集名称:BAREC-10M Corpus v1.0
  • 许可协议:cc-by-sa-4.0
  • 主要任务类别:文本分类
  • 语言:阿拉伯语(现代标准阿拉伯语)
  • 标签:可读性
  • 数据规模:1M<n<10M

数据集简介

BAREC-10M 是平衡阿拉伯语可读性评估语料库(BAREC)的扩展版本,规模从100万词扩展到1000万词,并扩展了其覆盖范围,包含平衡的多领域覆盖。每个文本都按领域体裁读者水平进行标注,并使用最先进的工具丰富了自动形态句法可读性分析。

可用标注

文档级标注(手动标注)

  • 领域艺术与人文社会科学STEM
  • 读者群体基础高级专业
  • 文本类别教育材料文学、艺术与音乐媒体与文化学术百科全书宗教与哲学

句子级标注(自动生成)

  • 形态分析
  • 句法解析
  • 可读性分级

语料库详情

数据集目录结构

. ├── Data/ │ ├── Metadata.xlsx │ ├── Raw.zip │ ├── Morphology_and_Readability.zip │ ├── Syntax_CATiB.zip │ └── Syntax_UD.zip └── README.md

元数据

元数据文件包含以下字段:

  • 文档:文档文件名(无扩展名)
  • 目录:文档目录
  • 来源:文档来源
  • 书籍:书籍标题
  • 作者:作者姓名
  • 领域
  • 读者水平
  • 文本类别
  • 词数:文档中的单词数
  • 句子数:文档中的句子数
  • 是否在BAREC语料库中?:指示文档是否源自原始BAREC语料库(

原始句子

语料库包含20,535个包含原始句子的.txt文件,根据元数据组织到多个目录中。

形态与可读性

语料库包含20,535个包含形态和可读性标注的.json文件,根据元数据组织到多个目录中。

每个JSON文件代表一个文档,包含以下键值对:

句子级特征:

  • raw_sents:原始句子(字符串列表)
  • sents_word_count:每句单词数(整数列表)
  • sents_RL:句子级可读性分数(1到19的整数列表)。值###表示源自BAREC语料库的文档中有问题的句子。

单词级特征:

  • word:所有句子的分词(字符串列表的列表)
  • lex:所有单词的词元(字符串列表的列表)
  • pos:词性标签(字符串列表的列表)
  • RL:词元的可读性级别(整数列表的列表)
  • numgenmod等:所有单词的额外CAMeL Morph特征(字符串列表的列表)

句法

我们提供哥伦比亚阿拉伯语树库(CATiB)通用依存关系(UD)两种方案的句法标注。

语料库包含每种标注方案的20,535个.conllx文件,每个文件包含句法标注,并根据元数据组织到多个目录中。

我们推荐使用Palmyra工具对这些文件进行可视化和分析。

使用方式

您可以通过Hub的用户界面手动下载文件,或使用snapshot_download一次性下载所有文件。 python from huggingface_hub import snapshot_download

snapshot_download( repo_id="CAMeL-Lab/BAREC-10M", repo_type="dataset", local_dir="path/to/local/dir", allow_patterns=["Data/*"] )

引用

如果您在工作中使用BAREC-10M,请引用以下论文:

@inproceedings{elmadani2026large, author = {Elmadani, Khalid N. and Wizani, Adel Mahmoud and Taha-Thomure, Hanada and Habash, Nizar}, title = {A Large and Balanced Multi-Domain Arabic Corpus Annotated for Morphology, Syntax, and Readability}, booktitle = {Proceedings of the International Conference on Language Resources and Evaluation (LREC 2026)}, year = {2026}, address = {Palma, Mallorca, Spain} }

搜集汇总
数据集介绍
main_image_url
构建方式
在阿拉伯语自然语言处理领域,构建大规模且平衡的语料库对于推动语言技术发展至关重要。BAREC-10M语料库作为原始BAREC语料库的扩展版本,通过系统性地收集和整合多领域文本,将规模从一百万词扩展至一千万词。其构建过程注重领域平衡性,涵盖了艺术与人文、社会科学及STEM三大领域,并依据文本类型与读者群体进行精细分类。每个文档均经过人工标注,赋予其领域、读者层次及文本类别标签,同时利用先进的自动化工具对文本进行形态学、句法及可读性分析,从而形成多层次、结构化的语言资源。
特点
该语料库的显著特点在于其全面且细致的标注体系。文档层面提供了人工标注的领域、读者层次和文本类别信息,确保了语料在应用场景上的多样性与针对性。句子层面则集成了自动生成的丰富语言学特征,包括形态分析、句法解析以及可读性分级,这些特征基于CAMeL Morph等前沿工具生成,为深入研究阿拉伯语的语言特性提供了坚实的数据基础。此外,语料库同时提供了CATiB和Universal Dependencies两种句法标注方案,增强了其在句法研究方面的实用性与灵活性。
使用方法
为便于研究者使用,该数据集提供了灵活的数据获取方式。用户可通过Hugging Face Hub界面手动下载所需文件,或利用`snapshot_download`函数一次性获取全部数据。数据集目录结构清晰,包含原始文本、元数据以及分别存储形态学、可读性和句法标注的压缩文件。对于句法标注文件,推荐使用Palmyra工具进行可视化与分析。在具体研究中,用户可依据元数据中的领域、读者层次等标签筛选子集,或直接利用预计算的形态、句法特征进行模型训练与评估,从而服务于文本分类、可读性评估及语言建模等多种自然语言处理任务。
背景与挑战
背景概述
阿拉伯语作为全球重要语言之一,其自然语言处理研究长期面临资源匮乏的挑战,尤其是在文本可读性评估领域。BAREC-10M语料库由CAMeL-Lab研究团队于2026年构建,作为Balanced Arabic Readability Evaluation Corpus的扩展版本,将规模从100万词提升至1000万词,并覆盖艺术人文、社会科学及STEM等多领域文本。该数据集的核心研究问题在于为阿拉伯语文本提供细粒度的可读性标注,同时集成自动化的形态、句法分析,以支持语言教育、内容适配及计算语言学的基础研究,对推动阿拉伯语信息处理技术的公平发展具有显著影响力。
当前挑战
在领域问题层面,BAREC-10M旨在应对阿拉伯语文本可读性自动评估的挑战,这涉及对复杂形态变化和句法结构的准确解析,以及跨领域文本难度的一致分级。构建过程中的挑战包括大规模多领域文本的平衡采集与版权清理,确保现代标准阿拉伯语的语料纯净性,以及设计可靠的自动化标注流程以处理海量数据的形态、句法和可读性特征,同时保持与原有BAREC语料库的标注一致性。
常用场景
经典使用场景
在阿拉伯语自然语言处理领域,BAREC-10M数据集常被用于文本可读性评估与分级任务。该数据集通过涵盖艺术人文、社会科学及STEM等多领域内容,并标注基础、进阶与专业三个读者层次,为研究者提供了丰富的语料资源。经典使用场景包括开发自动可读性评分模型,这些模型能够依据文本的词汇复杂度、句法结构及形态特征,精准预测阿拉伯语材料的适宜阅读群体,从而支持教育资源的个性化适配。
解决学术问题
BAREC-10M有效解决了阿拉伯语研究中大规模、多领域标注数据稀缺的学术难题。其提供的形态、句法与可读性多层次标注,为探究阿拉伯语语言特性与阅读难度之间的关联提供了实证基础。该数据集的意义在于推动了计算语言学在阿拉伯语的可读性建模、文本简化及教育资源分级等方向的发展,促进了语言技术在教育公平与跨文化传播中的深入应用。
衍生相关工作
围绕BAREC-10M衍生的经典工作主要集中在可读性预测与文本分级系统。例如,研究者利用其形态与句法特征构建了基于深度学习的可读性分类器,这些模型在跨领域文本上展现了优越的泛化能力。此外,该数据集也催生了针对阿拉伯语的文本简化研究,部分工作结合其多层级标注探索了句法重构与词汇替换策略,进一步丰富了阿拉伯语自然语言处理的技术生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作