Vaiyākaraṇa
收藏arXiv2024-06-20 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2406.14284v1
下载链接
链接失效反馈官方服务:
资源简介:
Vaiyākaraṇa是由印度理工学院坎普尔分校计算机科学与工程系创建的一个专门用于孟加拉语自动语法校正的数据集。该数据集包含92,830条语法错误的句子及其正确版本,以及18,426条正确句子,旨在通过这些数据训练和评估神经网络模型。数据集的创建过程涉及对孟加拉语中可能的语法错误进行分类,并通过系统化方法从正确句子中生成错误句子。Vaiyākaraṇa的应用领域主要集中在自动语法校正技术的研究和开发,特别是针对孟加拉语,以解决该语言在自动语法校正领域的研究不足问题。
Vaiyākaraṇa is a specialized dataset for Bengali automatic grammatical error correction, developed by the Department of Computer Science and Engineering at the Indian Institute of Technology Kanpur. The dataset comprises 92,830 pairs of grammatically incorrect sentences and their corrected counterparts, along with 18,426 standalone grammatically correct sentences, aiming to train and evaluate neural network models for grammatical error correction tasks. The construction of Vaiyākaraṇa involves classifying potential grammatical errors in Bengali, and generating erroneous sentences from correct ones using a systematic methodology. The primary application scenarios of Vaiyākaraṇa are focused on the research and development of automatic grammatical error correction technologies, particularly for Bengali, to address the research gap in the field of automatic grammatical error correction for this language.
提供机构:
印度理工学院坎普尔分校计算机科学与工程系
创建时间:
2024-06-20
搜集汇总
数据集介绍

构建方式
Vaiyākaraṇa 数据集的构建采用了两种方法:手动生成和基于规则的错误注入。手动生成部分通过组织一项调查,让孟加拉语母语者撰写包含至少10个句子和100个单词的短文,从而收集了包含230个语法错误句子的619个句子。基于规则的错误注入部分,首先从Vācaspati语料库和一本著名的语法书中收集了18,426个句子,然后系统地注入各种语法错误,最终生成了92,830个语法错误句子。
特点
Vaiyākaraṇa 数据集包含92,830个语法错误句子和18,426个正确句子,涵盖了12个错误类别。数据集涵盖了孟加拉语的时间变化和空间变化,并且包含了一些来自19世纪的文学作品。数据集的特点在于其广泛的语法错误分类,以及基于规则的错误注入方法,可以生成大量的语法错误句子。
使用方法
Vaiyākaraṇa 数据集可以用于自动语法纠错(GEC)的研究和开发。数据集可以用于训练和评估GEC模型,以及开发GEC工具。数据集中的错误分类可以帮助研究人员更好地理解孟加拉语中的语法错误类型,从而改进GEC模型和工具。
背景与挑战
背景概述
自动语法纠正是自然语言处理领域中的一个重要课题,其目标是为文本提供自动化的语法错误检测和纠正。孟加拉语作为全球第五大最广泛使用的语言,其自动语法纠正在近年来逐渐兴起。Vaiyākaraṇa数据集的创建旨在为孟加拉语自动语法纠正研究提供支持。该数据集由印度理工学院坎普尔计算机科学与工程学院的Pramit Bhattacharyya和Arnab Bhattacharya提出,于2023年发布。Vaiyākaraṇa数据集由92,830个语法错误的句子和18,426个正确的句子组成,旨在为神经网络训练提供丰富的语料库。此外,研究者还从孟加拉语母语者撰写的文章中收集了619个句子,以便更好地理解孟加拉语中常见的错误类型。该数据集的发布对孟加拉语自动语法纠正领域具有重要意义,为后续研究提供了重要的数据资源。
当前挑战
孟加拉语自动语法纠正领域目前面临的主要挑战包括:1) 缺乏大规模的语法错误句子语料库,这限制了神经网络训练的效果;2) 现有的语法错误句子生成方法,如随机交换、插入和删除单词,可能无法生成符合孟加拉语语法规则的错误句子;3) 大型语言模型在生成孟加拉语语法错误句子方面的性能不佳。为了解决这些挑战,Vaiyākaraṇa数据集采用了系统的方法来生成语法错误句子,将孟加拉语中的错误分为五大类和十二个细分类,然后从正确的句子中系统地引入这些错误。此外,研究者还收集了孟加拉语母语者撰写的文章,以便更好地理解孟加拉语中常见的错误类型。Vaiyākaraṇa数据集的发布为孟加拉语自动语法纠正领域的研究提供了重要的数据资源,有助于推动该领域的发展。
常用场景
经典使用场景
Vaiyākaraṇa数据集在自动语法纠错领域具有广泛应用。它提供了一个包含92,830个语法错误句子的数据集,以及18,426个正确句子的数据集,为神经网络的训练提供了丰富的数据资源。该数据集还包含了619个由孟加拉语母语者生成的句子,有助于研究者更好地理解孟加拉语语法错误的特点。
解决学术问题
Vaiyākaraṇa数据集解决了孟加拉语自动语法纠错领域缺乏大型数据集的问题。通过对孟加拉语语法错误的系统分类和生成,该数据集为研究者提供了一个高质量的基准数据集,有助于推动孟加拉语自动语法纠错技术的发展。此外,该数据集还揭示了大型语言模型在生成孟加拉语语法错误句子方面的局限性。
衍生相关工作
Vaiyākaraṇa数据集的提出,为孟加拉语自动语法纠错领域的研究提供了新的思路和方法。该数据集的生成方法和评估结果,为其他印度语言自动语法纠错研究提供了参考和借鉴。同时,该数据集的发布也促进了孟加拉语自然语言处理技术的发展,为孟加拉语信息处理和语言服务提供了重要的数据资源。
以上内容由遇见数据集搜集并总结生成



