BasahaCorpus

github2023-11-02 更新2024-05-31 收录

下载链接：

https://github.com/imperialite/BasahaCorpus-HierarchicalCrosslingualARA

下载链接

链接失效反馈

官方服务：

资源简介：

BasahaCorpus是一个用于评估中菲律宾语言可读性的扩展语言资源，数据来源于菲律宾小学系统的头三个年级，通过Lets Read Asia (LRA)获取，并已获得分享和进行研究的明确许可。

BasahaCorpus is an extended language resource designed for evaluating the readability of Central Philippine languages. Its data is collected from the first three grades of the Philippine primary school system, acquired via Lets Read Asia (LRA), and explicit permission has been granted for sharing and academic research purposes.

创建时间：

2023-10-09

原始信息汇总

数据集概述

数据来源

数据集来源于Lets Read Asia (LRA)，已获得分享和研究该语料库的明确许可。

数据内容

数据涵盖菲律宾小学系统的前三个年级水平（L1, L2, L3）。
所有数据集文件位于data文件夹内，按语言分类。
包括格式化的.txt和.csv文件，这些文件是从代码中提取的特征。

语言特征提取

在code文件夹中包含三个解析器文件(syll_parse.py, trad_parser.py, CLGSNGO_parser.py)和三个功能文件(SYLL.py, TRAD.py, CLGSNGO.py)。
功能文件包含提取语言特征的函数，解析器文件用于输入.csv文件并逐行迭代。
每个解析器文件将输出一个包含提取特征的.csv文件，可用于实验。

引用信息

使用此数据集或代码时，请引用以下文献：
- Imperial, J.M., & Kochmar, E. (2023). Automatic Readability Assessment for Closely Related Languages. Annual Meeting of the Association for Computational Linguistics (ACL).
- Imperial, J. M., & Ong, E. (2020). Exploring hybrid linguistic feature sets to measure filipino text readability. In 2020 International Conference on Asian Language Processing (IALP) (pp. 175-180). IEEE.
- Imperial, J. M., Reyes, L. L. A., Ibanez, M. A., Sapinit, R., & Hussien, M. (2022). A Baseline Readability Model for Cebuano. In Proceedings of the 17th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2022) (pp. 27-32).

搜集汇总

数据集介绍

构建方式

BasahaCorpus数据集的构建基于菲律宾基础教育体系的前三个年级（L1、L2、L3）的文本数据，这些数据来源于Let's Read Asia (LRA)平台，并获得了明确的研究与共享许可。数据集通过提取语言学特征，使用特定的解析器和功能文件进行处理，最终生成了包含提取特征的.csv文件，便于后续的实验与分析。

特点

BasahaCorpus数据集涵盖了菲律宾中部多种语言的文本资源，特别针对可读性评估任务进行了扩展。其独特之处在于结合了跨语言n-gram重叠技术以及传统的语言学特征提取方法，提供了丰富的语言学特征集。数据集按语言分类存储，并包含格式化后的.txt和.csv文件，便于研究人员直接使用。

使用方法

使用BasahaCorpus数据集时，研究人员可通过`code`文件夹中的解析器文件（如`syll_parse.py`、`trad_parser.py`等）对输入的.csv文件进行逐行处理，提取语言学特征。提取的特征文件可进一步合并或拼接，用于实验分析。数据集的使用需遵循引用规范，并在提交至数据编目或基准测试项目前与作者联系以获取许可。

背景与挑战

背景概述

BasahaCorpus数据集由Joseph Imperial和Ekaterina Kochmar于2023年创建，旨在为中菲律宾语言的可读性评估提供扩展的语言资源。该数据集源自菲律宾基础教育系统的前三个年级（L1, L2, L3），数据来源于Let's Read Asia (LRA)项目，并获得了明确的研究和共享许可。BasahaCorpus的发布为计算语言学领域，特别是多语言可读性评估提供了重要的数据支持，推动了相关研究的深入发展。该数据集的研究成果已在EMNLP 2023会议上发表，进一步提升了其在自然语言处理领域的影响力。

当前挑战

BasahaCorpus数据集在构建和应用过程中面临多重挑战。首先，中菲律宾语言的多样性和复杂性使得可读性评估模型的开发极具挑战性，尤其是在跨语言特征提取和模型泛化能力方面。其次，数据集的构建依赖于多源数据的整合与标注，这要求研究人员在数据处理和特征提取过程中具备高度的语言学知识和计算能力。此外，由于数据来源于基础教育系统，确保数据的代表性和平衡性也是一大难题。最后，如何在跨语言环境中验证模型的有效性，并确保其在不同语言间的可迁移性，是BasahaCorpus应用中的核心挑战之一。

常用场景

经典使用场景

BasahaCorpus数据集在计算语言学领域中被广泛用于评估中菲律宾语言的文本可读性。该数据集通过整合多种语言特征，如音节解析、传统语法特征和跨语言n-gram重叠，为研究人员提供了一个全面的工具集，用于分析和比较不同语言文本的复杂性。

衍生相关工作

BasahaCorpus数据集衍生了一系列相关研究，包括自动可读性评估模型的开发、跨语言文本比较算法的改进，以及特定语言（如宿务语）的可读性基线模型的建立。这些研究不仅扩展了数据集的应用范围，也为计算语言学领域提供了新的研究方向和方法。

数据集最近研究