NLPC-UOM/sentence_alignment_dataset-Sinhala-Tamil-English

Name: NLPC-UOM/sentence_alignment_dataset-Sinhala-Tamil-English
Creator: NLPC-UOM
Published: 2024-02-16 02:12:13
License: 暂无描述

Hugging Face2024-02-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/NLPC-UOM/sentence_alignment_dataset-Sinhala-Tamil-English

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于僧伽罗语-英语-泰米尔语之间句子对齐的金标准基准数据集。数据来源于四个新闻网站：Army、Hiru、ITN和Newsfirst。数据集中的句子对齐是手动标注的。数据集的结构按照新闻来源和语言对进行组织，每个新闻来源下包含对应语言的文档和对齐的句子文件。

提供机构：

NLPC-UOM

原始信息汇总

数据集概述

任务类别

句子相似度
翻译

语言

僧伽罗语 (si)
泰米尔语 (ta)
英语 (en)

数据来源

Army: https://www.army.lk/
Hiru: http://www.hirunews.lk
ITN: https://www.newsfirst.lk
Newsfirst: https://www.itnnews.lk

数据结构

si-en 文件夹包含以下子文件夹：
- army
  - Sinhala
  - English
  - army.si-en
- hiru
  - Sinhala
  - English
  - hiru.si-en
- itn
  - Sinhala
  - English
  - itn.si-en
- newsfirst
  - Sinhala
  - English
  - newsfirst.si-en
ta-en 文件夹结构类似。
si-ta 文件夹结构类似。

数据内容

Sinhala/English/Tamil 文件夹包含与新闻源对应的两种语言的对齐文档。
army.si-en 等文件包含黄金对齐句子对，每个句子根据语言前缀_文件ID_句子ID进行引用。

引用信息

@article{fernando2022exploiting, title={Exploiting bilingual lexicons to improve multilingual embedding-based document and sentence alignment for low-resource languages}, author={Fernando, Aloka and Ranathunga, Surangika and Sachintha, Dilan and Piyarathna, Lakmali and Rajitha, Charith}, journal={Knowledge and Information Systems}, pages={1--42}, year={2022}, publisher={Springer} }

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集