BAREC-Shared-Task-2025-sent

Name: BAREC-Shared-Task-2025-sent
Creator: CAMeL Lab
Published: 2025-06-09 21:34:26
License: 暂无描述

Hugging Face2025-06-09 更新2025-06-10 收录

下载链接：

https://huggingface.co/datasets/CAMeL-Lab/BAREC-Shared-Task-2025-sent

下载链接

链接失效反馈

官方服务：

资源简介：

BAREC（平衡阿拉伯阅读能力评估语料库）是一个大规模的数据集，专为BAREC 2025共享任务开发，聚焦于细粒度的阿拉伯阅读能力评估。该数据集包含超过100万个单词，标注了19个阅读能力级别，并额外映射到更粗略的7级、5级和3级方案。数据集在句子级别进行标注，文档级别的阅读能力得分是通过将每个文档的难度最大的句子的阅读能力级别（基于19级方案）分配给该文档来获得的。这提供了句子级别和文档级别的阅读能力信息。

提供机构：

CAMeL Lab

创建时间：

2025-06-03

原始信息汇总

BAREC Shared Task 2025 数据集概述

数据集基本信息

名称: BAREC (Balanced Arabic Readability Evaluation Corpus)
用途: 阿拉伯语细粒度可读性评估
许可证: MIT
任务类别: 文本分类
语言: 阿拉伯语 (现代标准阿拉伯语)
标签: 可读性
规模: 10K<n<100K

数据集内容

数据量: 超过100万单词
标注粒度: 句子级别
可读性级别:
- 19级 (默认)
- 7级
- 5级
- 3级
文档级别可读性: 基于文档中最难句子的19级可读性级别

数据结构

数据实例

python { ID: 10100010008, Sentence: عيد سعيد, Word_Count: 2, Readability_Level: 2-ba, Readability_Level_19: 2, Readability_Level_7: 1, Readability_Level_5: 1, Readability_Level_3: 1, Annotator: A4, Document: BAREC_Majed_0229_1983_001.txt, Source: Majed, Book: Edition: 229, Author: #, Domain: Arts & Humanities, Text_Class: Foundational }

数据字段

ID: 唯一句子标识符
Sentence: 句子文本
Word_Count: 句子中的单词数
Readability_Level: 19级可读性级别 (1-alif到19-qaf)
Readability_Level_19: 19级可读性级别 (1到19)
Readability_Level_7: 7级可读性级别 (1到7)
Readability_Level_5: 5级可读性级别 (1到5)
Readability_Level_3: 3级可读性级别 (1到3)
Annotator: 标注者ID (A1-A5或IAA)
Document: 源文档文件名
Source: 文档来源
Book: 书名
Author: 作者名
Domain: 领域 (Arts & Humanities, STEM或Social Sciences)
Text_Class: 读者群 (Foundational, Advanced或Specialized)

数据划分

训练集: 80%
开发集: 10%
测试集: 10%
划分方式: 文档级别
平衡性: 在可读性级别、领域和文本类别上保持平衡

评估指标

准确率 (Acc19, Acc7, Acc5, Acc3)
相邻准确率 (±1 Acc19)
平均距离 (Dist)
二次加权Kappa (QWK)

引用

bibtex @inproceedings{elmadani-etal-2025-readability, title = "A Large and Balanced Corpus for Fine-grained Arabic Readability Assessment", author = "Elmadani, Khalid N. and Habash, Nizar and Taha-Thomure, Hanada", booktitle = "Findings of the Association for Computational Linguistics: ACL 2025", year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics" }

@inproceedings{habash-etal-2025-guidelines, title = "Guidelines for Fine-grained Sentence-level Arabic Readability Annotation", author = "Habash, Nizar and Taha-Thomure, Hanada and Elmadani, Khalid N. and Zeino, Zeina and Abushmaes, Abdallah", booktitle = "Proceedings of the 19th Linguistic Annotation Workshop (LAW-XIX)", year = "2025", address = "Vienna, Austria", publisher = "Association for Computational Linguistics" }

搜集汇总

数据集介绍

构建方式

在阿拉伯语可读性评估领域，BAREC数据集通过系统化的标注流程构建而成。该数据集汇集了超过百万词汇量，由专业标注人员依据细粒度指南对每个句子进行19级可读性标注，并映射至7级、5级和3级简化体系。文档级可读性由其最难句子的等级决定，确保了标注的一致性与科学性。数据来源覆盖艺术人文、STEM和社会科学三大领域，文本类型涵盖基础读物到专业文献，构建过程注重领域平衡与标注者间一致性检验。

使用方法

研究者可通过加载标准数据分割文件直接使用该数据集，支持句子级和文档级可读性分类任务。模型评估需采用官方提供的多指标评价体系，包括19级准确率、相邻准确率、平均绝对误差和二次加权卡帕系数等。对于不同应用场景，可自由选择四种分级体系中的任意一种进行建模，其中19级体系适合细粒度分析，3级体系适用于快速分类。所有预测结果需通过官方评测脚本进行标准化验证以确保结果可比性。

背景与挑战

背景概述

阿拉伯语可读性评估研究长期面临细粒度标注资源匮乏的困境，BAREC数据集由CAMeL实验室主导构建，于2025年正式发布。该数据集针对现代标准阿拉伯语，采用19级精细标注体系，涵盖艺术人文、STEM和社会科学三大领域，包含超过百万词汇量的句子级标注。其创新性地通过最复杂句子原则推导文档级可读性，为阿拉伯语教育技术、自然语言处理提供了关键基准数据支撑。

当前挑战

阿拉伯语可读性评估需解决语言形态复杂性和方言变体干扰等核心问题，传统方法难以准确捕捉其语法结构与词汇难度的非线性关系。数据集构建过程中面临多层级标注一致性控制的挑战，需协调五位标注者遵循精细指南处理文本领域平衡与读者群体覆盖。文档级评分通过句子级难度推导的方式，要求标注系统同时保证粒度精细度与整体一致性。

常用场景

经典使用场景

在阿拉伯语教育技术领域，BAREC数据集为多粒度可读性分类任务提供了标准化评估基准。该数据集支持从19级到3级的多层次分类体系，研究者通过机器学习模型对句子级文本进行难度分级，尤其适用于教育材料自动分级系统。其细粒度的标注体系使得模型能够精准捕捉阿拉伯语特有的语言复杂度特征，如词汇难度和句法结构。

解决学术问题

该数据集有效解决了阿拉伯语可读性评估中缺乏细粒度标注资源的学术困境。通过提供超过百万词汇量、覆盖19个难度等级的平衡语料，它突破了传统二分类或三分类模型的局限性，支持序数分类任务的深度研究。其多层级标注框架为研究阿拉伯语语言习得规律、文本复杂度量化指标提供了重要数据基础，推动了计算语言学与教育学的跨学科融合。

实际应用

在实际应用层面，BAREC数据集支撑了智能教育系统的开发，特别是在阿拉伯语地区的自适应学习平台中。教育机构利用其构建的评估模型，能够自动匹配学习者语言水平与阅读材料难度，显著提升语言教学效率。出版行业则借助该技术实现儿童读物、新闻文本的难度标准化，同时为特殊需求群体如语言障碍者提供可读性优化方案。

数据集最近研究