five

NLPC-UOM/sentence_alignment_dataset-Sinhala-Tamil-English

收藏
Hugging Face2024-02-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NLPC-UOM/sentence_alignment_dataset-Sinhala-Tamil-English
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于僧伽罗语-英语-泰米尔语之间句子对齐的金标准基准数据集。数据来源于四个新闻网站:Army、Hiru、ITN和Newsfirst。数据集中的句子对齐是手动标注的。数据集的结构按照新闻来源和语言对进行组织,每个新闻来源下包含对应语言的文档和对齐的句子文件。
提供机构:
NLPC-UOM
原始信息汇总

数据集概述

任务类别

  • 句子相似度
  • 翻译

语言

  • 僧伽罗语 (si)
  • 泰米尔语 (ta)
  • 英语 (en)

数据来源

  • Army: https://www.army.lk/
  • Hiru: http://www.hirunews.lk
  • ITN: https://www.newsfirst.lk
  • Newsfirst: https://www.itnnews.lk

数据结构

  • si-en 文件夹包含以下子文件夹:

    • army
      • Sinhala
      • English
      • army.si-en
    • hiru
      • Sinhala
      • English
      • hiru.si-en
    • itn
      • Sinhala
      • English
      • itn.si-en
    • newsfirst
      • Sinhala
      • English
      • newsfirst.si-en
  • ta-en 文件夹结构类似。

  • si-ta 文件夹结构类似。

数据内容

  • Sinhala/English/Tamil 文件夹包含与新闻源对应的两种语言的对齐文档。
  • army.si-en 等文件包含黄金对齐句子对,每个句子根据语言前缀_文件ID_句子ID进行引用。

引用信息

@article{fernando2022exploiting, title={Exploiting bilingual lexicons to improve multilingual embedding-based document and sentence alignment for low-resource languages}, author={Fernando, Aloka and Ranathunga, Surangika and Sachintha, Dilan and Piyarathna, Lakmali and Rajitha, Charith}, journal={Knowledge and Information Systems}, pages={1--42}, year={2022}, publisher={Springer} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作