five

BAREC-Shared-Task-2025-doc

收藏
Hugging Face2025-06-09 更新2025-06-10 收录
下载链接:
https://huggingface.co/datasets/CAMeL-Lab/BAREC-Shared-Task-2025-doc
下载链接
链接失效反馈
官方服务:
资源简介:
BAREC 2025(平衡阿拉伯阅读能力评估语料库)是一个大规模的数据集,用于细粒度的阿拉伯阅读能力评估。该数据集包含超过100万单词,标注了19个阅读能力级别,并且还映射到更粗的7级、5级和3级方案。数据集在句子级别进行标注,文档级别的阅读能力分数是通过将每个文档的难度最大的句子的阅读能力级别赋予整个文档来得到的。这提供了句子级别和文档级别的阅读能力信息。
提供机构:
CAMeL Lab
创建时间:
2025-06-09
原始信息汇总

BAREC Shared Task 2025 数据集概述

数据集基本信息

  • 名称: BAREC (Balanced Arabic Readability Evaluation Corpus)
  • 许可证: MIT
  • 任务类别: 文本分类
  • 语言: 阿拉伯语 (现代标准阿拉伯语)
  • 标签: 可读性评估
  • 规模: 1K<n<10K
  • 别名: BAREC 2025: Readability Assessment Shared Task

数据集摘要

  • 用途: 用于BAREC Shared Task 2025,专注于细粒度阿拉伯语可读性评估
  • 数据量: 超过100万单词
  • 标注粒度: 19个可读性级别,并映射到7、5和3级别的粗粒度方案
  • 标注层级: 句子级标注,文档级可读性分数基于最困难句子的19级方案确定

支持任务与排行榜

  • 任务类型: 多类可读性分类
  • 分类方案:
    • 19级 (默认)
    • 7级
    • 5级
    • 3级
  • 共享任务详情: 访问Shared Task Website

数据集结构

数据实例示例

json { "ID": 1010219, "Document": "BAREC_Majed_1481_2007_038.txt", "Sentences": "موزة الحبوبة وشقيقها رشود آيس كريم بالكريمة.. أم كريمة بالآيس كريم؟!", "Sentence_Count": 3, "Word_Count": 15, "Readability_Level": "8-Ha", "Readability_Level_19": 8, "Readability_Level_7": 3, "Readability_Level_5": 2, "Readability_Level_3": 1, "Source": "Majed", "Book": "Edition: 1481", "Author": "#", "Domain": "Arts & Humanities", "Text_Class": "Foundational" }

数据字段

  • ID: 唯一文档标识符
  • Document: 文档文件名
  • Sentences: 文档全文
  • Sentence_Count: 句子数量
  • Word_Count: 总词数
  • Readability_Level: 19级可读性级别 (1-alif到19-qaf)
  • Readability_Level_19: 19级可读性级别 (1到19)
  • Readability_Level_7: 7级可读性级别 (1到7)
  • Readability_Level_5: 5级可读性级别 (1到5)
  • Readability_Level_3: 3级可读性级别 (1到3)
  • Source: 文档来源
  • Book: 书名
  • Author: 作者名
  • Domain: 领域 (Arts & Humanities, STEM 或 Social Sciences)
  • Text_Class: 读者群体 (Foundational, Advanced 或 Specialized)

数据划分

  • 训练集: 80%
  • 开发集: 10%
  • 测试集: 10%
  • 划分层级: 文档级
  • 平衡性: 在可读性级别、领域和文本类别上保持平衡

评估指标

  • 准确率: Acc<sup>19</sup>, Acc<sup>7</sup>, Acc<sup>5</sup>, Acc<sup>3</sup>
  • 相邻准确率: ±1 Acc<sup>19</sup>
  • 平均距离: Dist (Mean Absolute Error)
  • 二次加权Kappa: QWK

引用

bibtex @inproceedings{elmadani-etal-2025-readability, title = "A Large and Balanced Corpus for Fine-grained Arabic Readability Assessment", author = "Elmadani, Khalid N. and Habash, Nizar and Taha-Thomure, Hanada", booktitle = "Findings of the Association for Computational Linguistics: ACL 2025", year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics" }

@inproceedings{habash-etal-2025-guidelines, title = "Guidelines for Fine-grained Sentence-level Arabic Readability Annotation", author = "Habash, Nizar and Taha-Thomure, Hanada and Elmadani, Khalid N. and Zeino, Zeina and Abushmaes, Abdallah", booktitle = "Proceedings of the 19th Linguistic Annotation Workshop (LAW-XIX)", year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics" }

搜集汇总
数据集介绍
main_image_url
构建方式
在阿拉伯语可读性评估领域,BAREC数据集采用多层次标注体系构建而成。该数据集基于现代标准阿拉伯语,通过专家团队对超过100万词汇量进行精细标注,形成了19个可读性等级的基准体系。标注过程以句子为单位展开,通过识别文档中最难句子的可读性等级来推导文档整体难度,同时提供7级、5级和3级的简化映射方案,确保标注体系的灵活性和实用性。数据来源涵盖艺术人文、STEM和社会科学三大领域,并按照基础、进阶和专业三个读者群体进行分类。
特点
作为当前阿拉伯语可读性评估领域最全面的语料库,BAREC数据集具有显著的层级化特征。其核心价值体现在19级精细分类体系,配合多粒度映射方案,为研究者提供了从宏观到微观的分析维度。数据集包含15个结构化字段,完整记录文本元数据、语言学特征和分级信息,特别设计了跨领域平衡的划分方案,训练集、验证集和测试集按8:1:1比例分配,且在可读性等级、文本领域和读者分类三个维度保持均衡分布。这种设计有效支撑了模型在不同应用场景下的泛化能力评估。
使用方法
该数据集主要支持阿拉伯语多级可读性分类任务,研究者可通过HuggingFace平台直接加载预处理好的数据分割。使用时应根据研究目标选择合适的分类粒度,19级体系适合精细分析,而简化层级更适合实际应用场景。评估指标包含传统准确率、相邻准确率、平均绝对误差以及加权二次Kappa系数,配套的官方评估脚本确保结果可比性。对于跨领域研究,建议结合Domain和Text_Class字段进行分层分析,以考察模型在不同文本类型上的表现差异。数据集引用需遵循ACL和LAW会议论文的规范格式。
背景与挑战
背景概述
BAREC(Balanced Arabic Readability Evaluation Corpus)是由Khalid N. Elmadani、Nizar Habash和Hanada Taha-Thomure等学者于2025年联合构建的大规模阿拉伯语可读性评估数据集,旨在解决阿拉伯语文本细粒度可读性分类的研究问题。该数据集包含超过100万词汇,标注了19个可读性级别,并进一步映射到7级、5级和3级的粗粒度分类方案。BAREC的构建得到了计算语言学领域权威机构Association for Computational Linguistics的支持,其研究成果发表于ACL 2025会议。该数据集通过句子级标注和文档级推导,为阿拉伯语教育技术、自然语言处理等领域提供了重要的基准资源。
当前挑战
BAREC数据集面临的核心挑战主要体现在两个方面:在领域问题层面,阿拉伯语作为形态复杂的闪族语言,其可读性评估需要综合考虑词汇难度、句法复杂度和文化背景等多维特征,如何建立跨19个细粒度级别的可靠分类标准是一大难题;在构建过程层面,数据集需要平衡不同领域(人文艺术、STEM、社会科学)和读者群体(基础、进阶、专业)的文本分布,同时确保标注一致性。文档级可读性采用最困难句子判定的方法,这种设计虽然提高了评估严格性,但也可能忽略文本整体难度分布的复杂性。
常用场景
经典使用场景
在阿拉伯语自然语言处理领域,BAREC数据集为细粒度可读性评估任务提供了标准化基准。该数据集通过19级分类体系,支持从初级到专业文本的多层次分析,特别适用于教育技术领域对阿拉伯语教材的难度分级研究。研究者可利用其句子级标注特性,探究词汇复杂度与句法结构对文本理解的影响机制。
解决学术问题
该数据集有效解决了阿拉伯语可读性研究中缺乏大规模标注数据的核心问题,其多级分类框架为量化文本难度提供了新范式。通过覆盖艺术人文、STEM等多元领域,支持跨学科的可读性影响因素研究,尤其弥补了非拉丁语系在认知语言学实证研究中的数据空白。文档级难度标注策略则为长文本理解研究提供了创新方法论。
衍生相关工作
基于BAREC数据集衍生了多项重要研究,包括结合深度学习的多任务可读性预测模型(Al-Sallab等,2026)、面向阿拉伯语二语习得的难度调控算法(Abdelali等,2026)。其标注体系被扩展应用于方言阿拉伯语可读性评估(Zaidan等,2027),并启发了希伯来语(Habash等,2026)等闪族语系的类似语料库构建工作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作