multi-way parallel English-Tamil-Sinhala NE annotated corpus

Name: multi-way parallel English-Tamil-Sinhala NE annotated corpus
Creator: 梅西大学, 莫拉图瓦大学
Published: 2025-01-15 05:02:56
License: 暂无描述

arXiv2025-01-15 更新2024-12-07 收录

下载链接：

https://github.com/suralk/multiNER

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个多语言并行语料库，包含英语、泰米尔语和僧伽罗语的命名实体标注。数据集由梅西大学和莫拉图瓦大学的研究团队创建，旨在为低资源语言（如泰米尔语和僧伽罗语）提供命名实体识别（NER）的基准数据。数据集包含每种语言的3835个句子，标注使用了CONLL03标签集，采用BIO格式进行标注。数据来源为政府官方文件，涵盖了多个领域的年度报告、信件和通知。该数据集的应用领域包括命名实体识别、神经机器翻译等，旨在解决低资源语言在自然语言处理任务中的标注数据不足问题。

This dataset is a multilingual parallel corpus featuring named entity annotations for English, Tamil and Sinhala. It was developed by research teams from Massey University and the University of Moratuwa, with the aim of providing benchmark data for named entity recognition (NER) in low-resource languages such as Tamil and Sinhala. The dataset contains 3835 sentences per language, with annotations following the CONLL03 tag set and adopting the BIO annotation format. The corpus is sourced from official government documents, including annual reports, letters and notifications across multiple domains. Potential application scenarios include named entity recognition, neural machine translation and other related tasks, aiming to address the shortage of annotated data for low-resource languages in natural language processing tasks.

提供机构：

梅西大学, 莫拉图瓦大学

创建时间：

2024-12-03

搜集汇总

数据集介绍

构建方式

该数据集的构建基于多语言平行语料库，涵盖英语、泰米尔语和僧伽罗语。通过使用预训练的多语言语言模型（mLMs），研究团队从政府官方文档中筛选出3835个句子，并对其进行人工标注。标注过程采用CONLL03标签集，使用BIO格式进行命名实体识别（NER）。标注工作由两名独立标注员完成，并通过交叉验证确保标注一致性。最终，数据集以公开形式发布，为低资源语言的命名实体识别提供了宝贵的资源。

特点

该数据集的显著特点在于其多语言平行结构，这使得它能够有效评估预训练多语言语言模型在不同语言中的命名实体识别能力。此外，数据集的标注质量高，通过严格的交叉验证确保了标注的一致性和准确性。由于涵盖了低资源语言泰米尔语和僧伽罗语，该数据集对于推动这些语言的自然语言处理研究具有重要意义。

使用方法

该数据集主要用于训练和评估命名实体识别模型，特别是针对低资源语言的模型。研究者可以通过微调预训练的多语言语言模型（如mBERT和XLM-R）来提升模型在泰米尔语和僧伽罗语中的表现。此外，数据集还可用于跨语言的命名实体识别研究，通过比较不同语言模型在相同数据上的表现，揭示语言特性对模型性能的影响。

背景与挑战

背景概述

近年来，随着自然语言处理（NLP）技术的迅猛发展，命名实体识别（NER）作为一项关键任务，其在多语言环境中的应用显得尤为重要。在此背景下，由Surangika Ranathunga等研究人员于2024年创建的‘English-Tamil-Sinhala Named Entity Annotated Corpus’应运而生。该数据集专注于为英语、泰米尔语和僧伽罗语提供多语言并行的命名实体标注，旨在解决低资源语言在NER任务中的数据匮乏问题。通过利用预训练的多语言语言模型（mLMs），该数据集不仅为僧伽罗语和泰米尔语建立了新的NER基准，还深入探讨了不同类型mLMs在NER任务中的性能。此外，该数据集的公开发布（https://github.com/suralk/multiNER）为低资源语言的NER研究和应用提供了宝贵的资源，对推动多语言NLP技术的发展具有重要意义。

当前挑战

尽管‘English-Tamil-Sinhala Named Entity Annotated Corpus’在多语言NER任务中展现了其重要价值，但其构建和应用过程中仍面临诸多挑战。首先，低资源语言如僧伽罗语和泰米尔语的命名实体标注数据稀缺，导致模型训练数据不足。其次，多语言并行数据集的构建需要克服语言间的语法和语义差异，确保标注的一致性和准确性。此外，预训练的多语言语言模型在处理低资源语言时，其性能可能受限于模型对这些语言的预训练数据量。最后，如何有效利用该数据集进行跨语言知识迁移，以提升NER模型在不同语言环境中的泛化能力，仍是一个亟待解决的问题。这些挑战不仅影响数据集的构建质量，也制约了其在实际应用中的效果。

常用场景

经典使用场景

English-Tamil-Sinhala Named Entity Annotated Corpus 主要用于评估和改进多语言预训练语言模型（mLMs）在低资源语言中的命名实体识别（NER）能力。通过该数据集，研究人员可以探索不同类型的预训练语言模型在英语、泰米尔语和僧伽罗语中的表现，特别是如何通过多语言数据集的微调来提升NER模型的跨语言性能。

实际应用

在实际应用中，English-Tamil-Sinhala Named Entity Annotated Corpus 可以用于构建和优化多语言神经机器翻译（NMT）系统，特别是在处理包含命名实体的文本时。通过集成NER系统，NMT系统能够更准确地翻译命名实体，从而提高整体翻译质量。

衍生相关工作

基于该数据集，研究人员已经开展了一系列相关工作，包括使用不同类型的预训练语言模型进行NER任务的实验，以及将NER系统集成到NMT系统中以提升翻译质量。此外，该数据集还激发了对低资源语言处理技术的进一步研究，特别是在多语言模型和跨语言知识迁移方面的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集