NLPC-UOM/Sinhala-short-sentences
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NLPC-UOM/Sinhala-short-sentences
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从Flickr图像数据集中生成的僧伽罗语短句,参与者被要求为500张图像生成标题。这些句子对之间的相似度被手动确定,用作验证算法的黄金数据集。该数据集在一篇关于僧伽罗语短句相似度测量的论文中被使用。
提供机构:
NLPC-UOM
原始信息汇总
数据集概述
语言
- 数据集包含的语言:Sinhala (si)
许可证
- 数据集的许可证:MIT
数据集用途
- 该数据集用于论文《Sinhala Short Sentence Similarity Measures using Corpus-Based Similarity for Short Answer Grading》。
- 数据集包含的Sinhala短句是从一个flicker图像数据集生成的。
- 参与者为500张图片制作了标题,随后手动确定了这些句子对的相似性,作为验证算法的黄金数据集。
数据集生成
- 参与者为500张图片制作标题。
- 手动确定句子对的相似性。
相关资源
- 用于测量短句相似性的代码位于:https://github.com/suralk/SinhalaSentenceSimilarityMeasurement



