five

BasahaCorpus

收藏
github2023-11-02 更新2024-05-31 收录
下载链接:
https://github.com/imperialite/BasahaCorpus-HierarchicalCrosslingualARA
下载链接
链接失效反馈
官方服务:
资源简介:
BasahaCorpus是一个用于评估中菲律宾语言可读性的扩展语言资源,数据来源于菲律宾小学系统的头三个年级,通过Lets Read Asia (LRA)获取,并已获得分享和进行研究的明确许可。

BasahaCorpus is an extended language resource designed for evaluating the readability of Central Philippine languages. Its data is collected from the first three grades of the Philippine primary school system, acquired via Lets Read Asia (LRA), and explicit permission has been granted for sharing and academic research purposes.
创建时间:
2023-10-09
原始信息汇总

数据集概述

数据来源

数据内容

  • 数据涵盖菲律宾小学系统的前三个年级水平(L1, L2, L3)。
  • 所有数据集文件位于data文件夹内,按语言分类。
  • 包括格式化的.txt.csv文件,这些文件是从代码中提取的特征。

语言特征提取

  • code文件夹中包含三个解析器文件(syll_parse.py, trad_parser.py, CLGSNGO_parser.py)和三个功能文件(SYLL.py, TRAD.py, CLGSNGO.py)。
  • 功能文件包含提取语言特征的函数,解析器文件用于输入.csv文件并逐行迭代。
  • 每个解析器文件将输出一个包含提取特征的.csv文件,可用于实验。

引用信息

  • 使用此数据集或代码时,请引用以下文献:
    • Imperial, J.M., & Kochmar, E. (2023). Automatic Readability Assessment for Closely Related Languages. Annual Meeting of the Association for Computational Linguistics (ACL).
    • Imperial, J. M., & Ong, E. (2020). Exploring hybrid linguistic feature sets to measure filipino text readability. In 2020 International Conference on Asian Language Processing (IALP) (pp. 175-180). IEEE.
    • Imperial, J. M., Reyes, L. L. A., Ibanez, M. A., Sapinit, R., & Hussien, M. (2022). A Baseline Readability Model for Cebuano. In Proceedings of the 17th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2022) (pp. 27-32).
搜集汇总
数据集介绍
main_image_url
构建方式
BasahaCorpus数据集的构建基于菲律宾基础教育体系的前三个年级(L1、L2、L3)的文本数据,这些数据来源于Let's Read Asia (LRA)平台,并获得了明确的研究与共享许可。数据集通过提取语言学特征,使用特定的解析器和功能文件进行处理,最终生成了包含提取特征的.csv文件,便于后续的实验与分析。
特点
BasahaCorpus数据集涵盖了菲律宾中部多种语言的文本资源,特别针对可读性评估任务进行了扩展。其独特之处在于结合了跨语言n-gram重叠技术以及传统的语言学特征提取方法,提供了丰富的语言学特征集。数据集按语言分类存储,并包含格式化后的.txt和.csv文件,便于研究人员直接使用。
使用方法
使用BasahaCorpus数据集时,研究人员可通过`code`文件夹中的解析器文件(如`syll_parse.py`、`trad_parser.py`等)对输入的.csv文件进行逐行处理,提取语言学特征。提取的特征文件可进一步合并或拼接,用于实验分析。数据集的使用需遵循引用规范,并在提交至数据编目或基准测试项目前与作者联系以获取许可。
背景与挑战
背景概述
BasahaCorpus数据集由Joseph Imperial和Ekaterina Kochmar于2023年创建,旨在为中菲律宾语言的可读性评估提供扩展的语言资源。该数据集源自菲律宾基础教育系统的前三个年级(L1, L2, L3),数据来源于Let's Read Asia (LRA)项目,并获得了明确的研究和共享许可。BasahaCorpus的发布为计算语言学领域,特别是多语言可读性评估提供了重要的数据支持,推动了相关研究的深入发展。该数据集的研究成果已在EMNLP 2023会议上发表,进一步提升了其在自然语言处理领域的影响力。
当前挑战
BasahaCorpus数据集在构建和应用过程中面临多重挑战。首先,中菲律宾语言的多样性和复杂性使得可读性评估模型的开发极具挑战性,尤其是在跨语言特征提取和模型泛化能力方面。其次,数据集的构建依赖于多源数据的整合与标注,这要求研究人员在数据处理和特征提取过程中具备高度的语言学知识和计算能力。此外,由于数据来源于基础教育系统,确保数据的代表性和平衡性也是一大难题。最后,如何在跨语言环境中验证模型的有效性,并确保其在不同语言间的可迁移性,是BasahaCorpus应用中的核心挑战之一。
常用场景
经典使用场景
BasahaCorpus数据集在计算语言学领域中被广泛用于评估中菲律宾语言的文本可读性。该数据集通过整合多种语言特征,如音节解析、传统语法特征和跨语言n-gram重叠,为研究人员提供了一个全面的工具集,用于分析和比较不同语言文本的复杂性。
衍生相关工作
BasahaCorpus数据集衍生了一系列相关研究,包括自动可读性评估模型的开发、跨语言文本比较算法的改进,以及特定语言(如宿务语)的可读性基线模型的建立。这些研究不仅扩展了数据集的应用范围,也为计算语言学领域提供了新的研究方向和方法。
数据集最近研究
最新研究方向
近年来,BasahaCorpus数据集在菲律宾中部语言可读性评估领域引起了广泛关注。该数据集通过整合菲律宾小学系统的多语言文本资源,为研究跨语言可读性提供了丰富的语料支持。其核心研究方向聚焦于自动可读性评估模型的开发,特别是在紧密相关语言之间的可读性差异分析上。研究者们利用该数据集提取了音节、传统语言特征以及跨语言n-gram重叠等语言学特征,推动了多语言可读性评估技术的创新。此外,该数据集的应用还促进了教育技术领域的发展,特别是在菲律宾多语言环境下的教材设计与适应性学习系统的优化中发挥了重要作用。BasahaCorpus的发布不仅填补了菲律宾语言资源库的空白,也为全球多语言可读性研究提供了新的视角和工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作