five

NLPC-UOM/document_alignment_dataset-Sinhala-Tamil-English

收藏
Hugging Face2024-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NLPC-UOM/document_alignment_dataset-Sinhala-Tamil-English
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于僧伽罗语、英语和泰米尔语之间文档对齐的金标准基准数据集。数据来源于四个新闻网站,包括Army、Hiru、ITN和Newsfirst。这些对齐的文档已经过手动注释。数据集的结构按照新闻来源组织,每个来源下包含不同语言的文件夹和标注文件,标注文件记录了不同语言之间的对齐文档。
提供机构:
NLPC-UOM
原始信息汇总

数据集概述

任务类别

  • 句子相似度

语言

  • 僧伽罗语 (si)
  • 泰米尔语 (ta)
  • 英语 (en)

数据集描述

本数据集是一个黄金标准基准数据集,用于僧伽罗语、英语和泰米尔语之间的文档对齐。数据从以下新闻网站爬取:

新闻来源 URL
军队 https://www.army.lk/
赫鲁 http://www.hirunews.lk
ITN https://www.newsfirst.lk
新闻第一 https://www.itnnews.lk

对齐的文档已进行人工标注。

数据集结构

对于每个新闻源,文件夹结构如下:

python army |--Sinhala |--English |--Tamil |--armynews_english_sinhala.txt |--armynews_english_tamil.txt |--armynews_sinhala_tamil.txt

  • Sinhala/English/Tamil: 包含相应新闻源的爬取数据。
  • armynews_english_sinhala.txt: 包含英语和僧伽罗语之间的标注对齐文档。
  • armynews_english_tamil.txt: 包含英语和泰米尔语之间的标注对齐文档。
  • armynews_sinhala_tamil.txt: 包含僧伽罗语和泰米尔语之间的标注对齐文档。

引用信息

@article{fernando2022exploiting,<br/> title={Exploiting bilingual lexicons to improve multilingual embedding-based document and sentence alignment for low-resource languages},<br/> author={Fernando, Aloka and Ranathunga, Surangika and Sachintha, Dilan and Piyarathna, Lakmali and Rajitha, Charith},<br/> journal={Knowledge and Information Systems},<br/> pages={1--42},<br/> year={2022},<br/> publisher={Springer}<br/> }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作