NSINA

github2024-03-19 更新2024-05-31 收录

下载链接：

https://github.com/Sinhala-NLP/NSINA

下载链接

链接失效反馈

官方服务：

资源简介：

NSINA是一个包含超过50万篇来自斯里兰卡流行新闻网站文章的综合新闻语料库。该语料库旨在解决将大型语言模型适配到Sinhala语言的挑战，提供宝贵的基准和资源以改进Sinhala语言的自然语言处理。

NSINA is a comprehensive news corpus containing over 500,000 articles from popular news websites in Sri Lanka. This corpus is designed to address the challenges of adapting large language models to the Sinhala language, providing valuable benchmarks and resources to enhance natural language processing for Sinhala.

创建时间：

2023-09-20

原始信息汇总

数据集概述

NSINA 是一个包含超过500,000篇文章的Sinhala新闻语料库，旨在解决将大型语言模型适应于Sinhala语言的挑战，并提供改进Sinhala NLP的基准和资源。

数据集内容

数据来源：数据集从斯里兰卡的十个新闻媒体网站收集。
数据量：总计506,932篇文章。
数据结构：每个文章包含来源、时间戳、标题、新闻内容、URL、类别和父URL。

数据集版本

版本1.0：首次发布的数据集版本，包含从十个新闻网站收集的文章。

数据集使用

下载方式：可通过HuggingFace平台使用以下Python代码下载： python from datasets import Dataset from datasets import load_dataset

nsina = Dataset.to_pandas(load_dataset(sinhala-nlp/NSINA, split=train))

引用信息

引用格式：

@inproceedings{Nsina2024, author={Hettiarachchi, Hansi and Premasiri, Damith and Uyangodage, Lasitha and Ranasinghe, Tharindu}, title={{NSINA: A News Corpus for Sinhala}}, booktitle={The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)}, year={2024}, month={May}, }

搜集汇总

数据集介绍

构建方式

NSINA数据集的构建过程基于对斯里兰卡十大新闻媒体网站的新闻文章进行系统化收集。这些网站包括Adaderana、ITN News、Lankatruth等，涵盖了广泛的新闻类别。数据收集过程中，每篇文章均以JSON格式存储，包含来源、时间戳、标题、新闻内容、URL、类别和父URL等关键信息。最终，所有JSON文件被整合为一个统一的数据集，形成了NSINA的1.0版本。

特点

NSINA数据集是目前最大的僧伽罗语新闻语料库，包含超过50万篇新闻文章。其显著特点在于覆盖了多个新闻媒体来源，确保了数据的多样性和广泛性。此外，数据集还提供了新闻媒体识别、新闻类别预测和新闻标题生成等三个自然语言处理任务，为僧伽罗语的语言模型训练和评估提供了丰富的资源。

使用方法

NSINA数据集可通过HuggingFace平台进行访问和下载。用户可以使用Python代码从HuggingFace加载数据集，并将其转换为Pandas DataFrame以便进一步分析。具体代码示例如下：`from datasets import load_dataset; nsina = Dataset.to_pandas(load_dataset('sinhala-nlp/NSINA', split='train'))`。在使用数据集时，用户需遵守相关许可协议，并引用指定的学术论文。

背景与挑战

背景概述

NSINA数据集由Hansi Hettiarachchi、Damith Premasiri、Lasitha Uyangodage和Tharindu Ranasinghe等研究人员于2024年发布，旨在为僧伽罗语的自然语言处理（NLP）提供支持。该数据集包含超过50万篇来自斯里兰卡主流新闻网站的新闻文章，是迄今为止最大的僧伽罗语新闻语料库。NSINA的发布不仅为僧伽罗语的大语言模型适配提供了重要资源，还为新闻媒体识别、新闻分类预测和新闻标题生成等任务提供了基准数据。该数据集的创建标志着僧伽罗语NLP研究的一个重要里程碑，为相关领域的学术研究和应用开发奠定了坚实基础。

当前挑战

NSINA数据集在构建过程中面临多重挑战。首先，僧伽罗语作为一种资源稀缺语言，其NLP研究长期缺乏高质量、大规模的语料库，这使得数据收集和标注工作尤为困难。其次，新闻文章的多样性和复杂性要求数据集在类别划分和内容处理上具备高度的准确性和一致性，这对数据清洗和预处理提出了较高要求。此外，如何确保数据来源的合法性和使用的合规性，也是数据集构建过程中需要重点解决的问题。这些挑战不仅影响了数据集的构建效率，也对后续的模型训练和评估提出了更高的标准。

常用场景

经典使用场景

NSINA数据集作为目前最大的僧伽罗语新闻语料库，广泛应用于自然语言处理（NLP）领域的研究与开发。其经典使用场景包括僧伽罗语新闻媒体的自动识别、新闻分类预测以及新闻标题生成等任务。通过提供超过50万篇新闻文章，NSINA为研究人员和开发者提供了丰富的文本数据，支持他们在僧伽罗语NLP任务中进行模型训练与评估。

衍生相关工作

NSINA数据集的发布催生了多项与僧伽罗语NLP相关的经典研究工作。基于该数据集，研究人员开发了新闻媒体识别、新闻分类预测和新闻标题生成等任务的基准模型。这些工作不仅验证了NSINA数据集的实用性和有效性，还为僧伽罗语NLP领域的研究提供了新的方向。此外，NSINA还被用于跨语言NLP研究，推动了僧伽罗语与其他语言之间的技术交流与合作。

数据集最近研究