NLPC-UOM/sentence_alignment_dataset-Sinhala-Tamil-English
收藏Hugging Face2024-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NLPC-UOM/sentence_alignment_dataset-Sinhala-Tamil-English
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于僧伽罗语-英语-泰米尔语之间句子对齐的金标准基准数据集。数据来源于四个新闻网站:Army、Hiru、ITN和Newsfirst。数据集中的句子对齐是手动标注的。数据集的结构按照新闻来源和语言对进行组织,每个新闻来源下包含对应语言的文档和对齐的句子文件。
提供机构:
NLPC-UOM
原始信息汇总
数据集概述
任务类别
- 句子相似度
- 翻译
语言
- 僧伽罗语 (si)
- 泰米尔语 (ta)
- 英语 (en)
数据来源
- Army: https://www.army.lk/
- Hiru: http://www.hirunews.lk
- ITN: https://www.newsfirst.lk
- Newsfirst: https://www.itnnews.lk
数据结构
-
si-en文件夹包含以下子文件夹:- army
- Sinhala
- English
- army.si-en
- hiru
- Sinhala
- English
- hiru.si-en
- itn
- Sinhala
- English
- itn.si-en
- newsfirst
- Sinhala
- English
- newsfirst.si-en
- army
-
ta-en文件夹结构类似。 -
si-ta文件夹结构类似。
数据内容
- Sinhala/English/Tamil 文件夹包含与新闻源对应的两种语言的对齐文档。
army.si-en等文件包含黄金对齐句子对,每个句子根据语言前缀_文件ID_句子ID进行引用。
引用信息
@article{fernando2022exploiting, title={Exploiting bilingual lexicons to improve multilingual embedding-based document and sentence alignment for low-resource languages}, author={Fernando, Aloka and Ranathunga, Surangika and Sachintha, Dilan and Piyarathna, Lakmali and Rajitha, Charith}, journal={Knowledge and Information Systems}, pages={1--42}, year={2022}, publisher={Springer} }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



