Balanced Arabic Readability Evaluation Corpus (BAREC)

Name: Balanced Arabic Readability Evaluation Corpus (BAREC)
Creator: 纽约大学阿布扎比计算语言模型实验室，Zayed大学阿拉伯语言研究中心
Published: 2025-02-19 16:16:11
License: 暂无描述

arXiv2025-02-19 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.13520v1

下载链接

链接失效反馈

官方服务：

资源简介：

BAREC是一个大规模的细粒度阿拉伯语可读性评估数据集，包含68,182个句子，超过100万个单词，涵盖从幼儿园到研究生院的19个可读性等级。该数据集由纽约大学阿布扎比计算语言模型实验室和Zayed大学阿拉伯语言研究中心共同创建，旨在为阿拉伯语文本复杂性评估提供全面的资源。数据集的构建过程包括手动标注，并确保了高水平的标注者间一致性。BAREC数据集的应用领域主要是文本可读性评估，目的是为了提高文学、语言学习和学术表现。

BAREC is a large-scale fine-grained Arabic readability assessment dataset containing 68,182 sentences and over one million words, covering 19 readability levels ranging from kindergarten to graduate school. This dataset was co-created by the Computational Language Model Lab at New York University Abu Dhabi and the Center for Arabic Language Studies at Zayed University, aiming to provide a comprehensive resource for Arabic text complexity assessment. The dataset construction process includes manual annotation and ensures a high level of inter-annotator agreement. The main application areas of the BAREC dataset are text readability assessment, with the goal of enhancing literature, language learning and academic performance.

提供机构：

纽约大学阿布扎比计算语言模型实验室，Zayed大学阿拉伯语言研究中心

创建时间：

2025-02-19

搜集汇总

数据集介绍

构建方式

BAREC数据集的构建方式采用了广泛的教育跨度、不同的领域和主题，从1362个文档中收集了68182个句子，覆盖了艺术与人文学科、社会科学和STEM三个领域，以及基础、高级和专业三个读者群。所有选定的文本要么是版权过期，要么在合理使用范围内，或者通过与出版商达成协议获得。为了确保质量，每句话都经过了两次检查。

特点

BAREC数据集的特点包括：1) 规模庞大，包含68,182个句子和超过1,000,000个单词；2) 精细分级，覆盖19个可读性水平，从幼儿园到研究生理解水平；3) 平衡的体裁多样性、主题覆盖和目标受众；4) 全部由人工标注，标注员为经验丰富的阿拉伯语教育者；5) 高度一致，平均配对标注者间一致性为81.3%。

使用方法

BAREC数据集的使用方法包括：1) 可用于自动可读性评估模型的基准测试；2) 可用于研究阿拉伯语文本复杂性的挑战和机遇；3) 可用于开发可读性模型，以提高读写能力、语言学习和学术成绩；4) 可用于编写儿童故事，以针对特定的阅读水平。数据集、标注指南和基准结果将公开可用，以支持未来的研究和教育应用。

背景与挑战

背景概述

在阿拉伯语读写能力评估领域， Balanced Arabic Readability Evaluation Corpus (BAREC) 数据集的创建填补了一项重要的研究空白。由 Khalid N. Elmadani、Nizar Habash 和 Hanada Taha-Thomure 等研究人员在纽约大学阿布扎比分院和扎耶德大学阿拉伯语语言研究中心的共同努力下，该数据集于 2025 年首次发布。BAREC 数据集包含 68,182 个句子，涵盖了从幼儿园到研究生水平的 19 个可读性等级，旨在为阿拉伯语文本复杂性评估提供一个全面的资源。该数据集的特点在于其体裁多样性、主题覆盖面和目标受众的平衡，为评估阿拉伯语文本的可读性提供了一个标准化的框架。BAREC 数据集的创建对于提升阿拉伯语读写能力、语言学习和学术表现具有重要意义，并且对相关领域产生了深远的影响。

当前挑战

尽管 BAREC 数据集为阿拉伯语文本可读性评估提供了宝贵的资源，但仍面临一些挑战。首先，可读性评估的固有主观性可能导致注释决策的变异性，尽管研究人员努力保持一致性。其次，当前版本的数据集可能无法完全捕捉阿拉伯世界丰富的语言景观。此外，由于源材料的选取偏差或注释过程的局限性，数据集中可能存在偏见或空白。最后，可读性度量可能会被用于恶意目的来对个人进行画像，尽管这不是研究人员的意图，但这是一个值得注意的问题。为了应对这些挑战，研究人员计划扩大数据集的规模和多样性，并添加与词汇等级和句法树库相关的注释，以便研究更广泛的句法体裁。此外，研究人员还将开发的工具集成到一个系统中，以帮助儿童故事作家针对特定的阅读水平。BAREC 数据集及其注释指南和基准结果将公开发布，以支持未来在阿拉伯语文本可读性评估领域的研究和教育应用。

常用场景

经典使用场景

在阿拉伯语可读性评估领域，BAREC数据集常用于构建和评估可读性评估模型。通过该数据集，研究人员可以训练模型来预测文本的可读性水平，从而帮助教育工作者为学生选择合适的阅读材料，或者帮助语言学习者选择适合自己水平的阅读内容。

实际应用

BAREC数据集的实际应用场景包括教育、出版和语言学习。在教育领域，该数据集可以帮助教育工作者为学生选择合适的阅读材料，从而提高学生的阅读能力和学习效果。在出版领域，该数据集可以帮助出版商评估书籍的可读性，从而更好地满足不同读者的需求。在语言学习领域，该数据集可以帮助语言学习者选择适合自己水平的阅读内容，从而提高语言学习效率。

衍生相关工作

BAREC数据集的发布促进了阿拉伯语可读性评估领域的研究。基于该数据集，研究人员开展了大量研究，探索了各种可读性评估模型和方法，并取得了显著的成果。这些研究成果不仅推动了阿拉伯语可读性评估领域的发展，也为其他语言的可读性评估研究提供了重要的参考和借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集