NLPC-UOM/document_alignment_dataset-Sinhala-Tamil-English

Name: NLPC-UOM/document_alignment_dataset-Sinhala-Tamil-English
Creator: NLPC-UOM
Published: 2024-02-16 02:14:26
License: 暂无描述

Hugging Face2024-02-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/NLPC-UOM/document_alignment_dataset-Sinhala-Tamil-English

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于僧伽罗语、英语和泰米尔语之间文档对齐的金标准基准数据集。数据来源于四个新闻网站，包括Army、Hiru、ITN和Newsfirst。这些对齐的文档已经过手动注释。数据集的结构按照新闻来源组织，每个来源下包含不同语言的文件夹和标注文件，标注文件记录了不同语言之间的对齐文档。

提供机构：

NLPC-UOM

原始信息汇总

数据集概述

任务类别

句子相似度

语言

僧伽罗语 (si)
泰米尔语 (ta)
英语 (en)

数据集描述

本数据集是一个黄金标准基准数据集，用于僧伽罗语、英语和泰米尔语之间的文档对齐。数据从以下新闻网站爬取：

新闻来源	URL
军队	https://www.army.lk/
赫鲁	http://www.hirunews.lk
ITN	https://www.newsfirst.lk
新闻第一	https://www.itnnews.lk

对齐的文档已进行人工标注。

数据集结构

对于每个新闻源，文件夹结构如下：

Sinhala/English/Tamil: 包含相应新闻源的爬取数据。
armynews_english_sinhala.txt: 包含英语和僧伽罗语之间的标注对齐文档。
armynews_english_tamil.txt: 包含英语和泰米尔语之间的标注对齐文档。
armynews_sinhala_tamil.txt: 包含僧伽罗语和泰米尔语之间的标注对齐文档。

引用信息

@article{fernando2022exploiting, title={Exploiting bilingual lexicons to improve multilingual embedding-based document and sentence alignment for low-resource languages}, author={Fernando, Aloka and Ranathunga, Surangika and Sachintha, Dilan and Piyarathna, Lakmali and Rajitha, Charith}, journal={Knowledge and Information Systems}, pages={1--42}, year={2022}, publisher={Springer} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集