SiTSE
收藏arXiv2024-12-02 更新2024-12-06 收录
下载链接:
https://github.com/brainsharks-fyp17/Sinhala-Text-Simplification-Dataset-and-Evaluation
下载链接
链接失效反馈官方服务:
资源简介:
SiTSE数据集是由斯里兰卡莫拉图瓦大学计算机科学与工程系的团队创建的,专门用于僧伽罗语文本简化任务的评估。该数据集包含1000个复杂的僧伽罗语句子及其对应的3000个简化句子,每个复杂句子由三位不同的专家进行简化。数据集的来源是僧伽罗语官方政府文档,这些文档经过精心筛选和处理,确保了数据的质量。创建过程包括多次人工标注和反馈,确保简化句子的准确性和可读性。SiTSE数据集主要用于评估和改进僧伽罗语文本简化系统,旨在提高低资源语言文本处理的公平性和可访问性。
The SiTSE dataset was developed by a research team from the Department of Computer Science and Engineering, University of Moratuwa, Sri Lanka, specifically for evaluating Sinhala text simplification tasks. It contains 1000 complex Sinhala sentences and their corresponding 3000 simplified sentences, with each complex sentence being simplified by three distinct experts. The dataset is sourced from official Sinhala government documents, which have been rigorously screened and processed to ensure high data quality. The creation process includes multiple rounds of manual annotation and post-annotation feedback to guarantee the accuracy and readability of the simplified sentences. The SiTSE dataset is primarily used to evaluate and improve Sinhala text simplification systems, aiming to enhance the fairness and accessibility of low-resource language text processing.
提供机构:
计算机科学与工程系,莫拉图瓦大学,斯里兰卡
创建时间:
2024-12-02
搜集汇总
数据集介绍

构建方式
SiTSE数据集的构建基于人工精选的句子级文本简化任务,针对斯里兰卡的低资源语言——僧伽罗语。该数据集包含1000个复杂的句子,每个句子对应三个由不同人类注释者生成的简化版本,总计3000个句子对。数据来源为斯里兰卡官方政府文档,这些文档使用了标准化术语词汇表,且句子长度较长。注释过程由三位人类参与者执行,遵循提取句子主要思想、分割长句、词汇重排和替换复杂词汇为常用简单词汇的操作指南。注释者经过三轮试点和定期反馈,确保注释质量。
特点
SiTSE数据集的主要特点在于其高质量的人工注释和多参考句子的设计,每个复杂句子对应三个简化版本,提供了丰富的参考数据。此外,数据集专注于低资源语言的文本简化,填补了该领域的空白。数据集的复杂句子来自官方政府文档,具有较高的语言难度和专业性,适合用于评估和训练文本简化模型。
使用方法
SiTSE数据集适用于多种自然语言处理任务,特别是文本简化模型的训练和评估。研究者可以使用该数据集进行零资源和零样本的序列到序列任务建模,利用多语言预训练模型如mT5和mBART进行实验。数据集还支持中间任务迁移学习(ITTL),通过辅助任务如翻译、释义和英语简化来提升模型性能。研究者可以通过GitHub公开访问该数据集及其代码,进行进一步的分析和应用。
背景与挑战
背景概述
文本简化任务在低资源语言中的探索相对较少,导致相关手动策划的数据集稀缺。在此背景下,SiTSE数据集由新西兰梅西大学和新西兰莫拉图瓦大学的研究人员于2018年创建,专注于为僧伽罗语提供一个人工策划的句子级文本简化数据集。该数据集包含1000个复杂句子和相应的3000个简化句子,由三位不同的注释者生成。SiTSE数据集的创建旨在解决低资源语言中文本简化模型的训练数据不足问题,并通过将文本简化任务建模为零资源序列到序列任务,探索多语言语言模型mT5和mBART的潜力。该数据集的发布对相关领域产生了显著影响,特别是在推动低资源语言的文本简化研究和应用方面。
当前挑战
SiTSE数据集面临的主要挑战包括:1) 低资源语言中文本简化任务的数据稀缺性,导致模型训练困难;2) 构建高质量、大规模文本简化数据集的高成本和时间消耗;3) 评估文本简化系统的复杂性和现有评估指标的不足,特别是在适应低资源语言方面。此外,数据集的规模较小,仅包含1000个复杂句子,限制了其在模型训练中的应用。这些挑战不仅影响了SiTSE数据集的实际应用,也凸显了在低资源语言环境中开发和评估文本简化系统的普遍难题。
常用场景
经典使用场景
SiTSE数据集在低资源语言文本简化任务中展现了其经典应用场景。该数据集通过提供1000个复杂句子和对应的3000个简化句子,为研究人员提供了一个高质量的评估基准。其主要应用在于训练和评估基于序列到序列(seq-seq)模型的文本简化系统,特别是在多语言预训练模型如mT5和mBART上的应用。通过利用中间任务迁移学习(ITTL),SiTSE数据集能够显著提升模型在零资源条件下的文本简化性能,为低资源语言的文本简化研究提供了新的可能性。
衍生相关工作
SiTSE数据集的发布催生了一系列相关经典工作。首先,基于该数据集的研究展示了如何在零资源条件下利用多语言预训练模型进行文本简化,特别是通过中间任务迁移学习(ITTL)的方法,显著提升了模型的性能。其次,SiTSE促进了新的评估方法的发展,包括引入新的错误分类标准,以更全面地评估文本简化系统的性能。此外,该数据集还激发了对低资源语言文本简化任务的更多关注和研究,推动了相关领域的技术进步和应用拓展。
数据集最近研究
最新研究方向
在低资源语言领域,文本简化(Text Simplification, TS)的研究相对较少,主要由于缺乏高质量的数据集。SiTSE数据集的提出填补了这一空白,为僧伽罗语(Sinhala)的文本简化研究提供了宝贵的资源。最近的研究方向主要集中在利用多语言预训练模型(如mT5和mBART)进行零资源和零样本的序列到序列(seq-seq)任务。通过引入中间任务迁移学习(Intermediate Task Transfer Learning, ITTL),研究者们探索了如何在没有特定训练数据的情况下,通过辅助任务的数据来提升文本简化模型的性能。此外,研究还强调了评估文本简化系统时面临的挑战,并呼吁开发更适合低资源语言的自动化文本简化系统评估指标。
相关研究论文
- 1SiTSE: Sinhala Text Simplification Dataset and Evaluation计算机科学与工程系,莫拉图瓦大学,斯里兰卡 · 2024年
以上内容由遇见数据集搜集并总结生成



