NLPC-UOM/document_alignment_dataset-Sinhala-Tamil-English
收藏Hugging Face2024-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NLPC-UOM/document_alignment_dataset-Sinhala-Tamil-English
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于僧伽罗语、英语和泰米尔语之间文档对齐的金标准基准数据集。数据来源于四个新闻网站,包括Army、Hiru、ITN和Newsfirst。这些对齐的文档已经过手动注释。数据集的结构按照新闻来源组织,每个来源下包含不同语言的文件夹和标注文件,标注文件记录了不同语言之间的对齐文档。
提供机构:
NLPC-UOM
原始信息汇总
数据集概述
任务类别
- 句子相似度
语言
- 僧伽罗语 (si)
- 泰米尔语 (ta)
- 英语 (en)
数据集描述
本数据集是一个黄金标准基准数据集,用于僧伽罗语、英语和泰米尔语之间的文档对齐。数据从以下新闻网站爬取:
| 新闻来源 | URL |
|---|---|
| 军队 | https://www.army.lk/ |
| 赫鲁 | http://www.hirunews.lk |
| ITN | https://www.newsfirst.lk |
| 新闻第一 | https://www.itnnews.lk |
对齐的文档已进行人工标注。
数据集结构
对于每个新闻源,文件夹结构如下:
python army |--Sinhala |--English |--Tamil |--armynews_english_sinhala.txt |--armynews_english_tamil.txt |--armynews_sinhala_tamil.txt
- Sinhala/English/Tamil: 包含相应新闻源的爬取数据。
- armynews_english_sinhala.txt: 包含英语和僧伽罗语之间的标注对齐文档。
- armynews_english_tamil.txt: 包含英语和泰米尔语之间的标注对齐文档。
- armynews_sinhala_tamil.txt: 包含僧伽罗语和泰米尔语之间的标注对齐文档。
引用信息
@article{fernando2022exploiting,<br/> title={Exploiting bilingual lexicons to improve multilingual embedding-based document and sentence alignment for low-resource languages},<br/> author={Fernando, Aloka and Ranathunga, Surangika and Sachintha, Dilan and Piyarathna, Lakmali and Rajitha, Charith},<br/> journal={Knowledge and Information Systems},<br/> pages={1--42},<br/> year={2022},<br/> publisher={Springer}<br/> }



