five

AkshitaS/semrel_2024_plus

收藏
Hugging Face2024-06-14 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/AkshitaS/semrel_2024_plus
下载链接
链接失效反馈
官方服务:
资源简介:
SemRel2024是一个包含14种语言的语义文本相关性(STR)数据集,涵盖了非洲和亚洲的多种语言。数据集由句子对组成,每个句子对都有一个相关性评分,范围从0(完全不相关)到1(最大相关)。该数据集被用于SemEval2024共享任务1,旨在评估系统测量两个句子之间语义相关性的能力。此外,SemRel2024 Plus版本还包含了使用indictrans库生成的hin_Latn数据。

SemRel2024是一个包含14种语言的语义文本相关性(STR)数据集,涵盖了非洲和亚洲的多种语言。数据集由句子对组成,每个句子对都有一个相关性评分,范围从0(完全不相关)到1(最大相关)。该数据集被用于SemEval2024共享任务1,旨在评估系统测量两个句子之间语义相关性的能力。此外,SemRel2024 Plus版本还包含了使用indictrans库生成的hin_Latn数据。
提供机构:
AkshitaS
原始信息汇总

数据集概述

任务类别

  • 句子相似度

语言

  • 南非荷兰语 (af)
  • 阿姆哈拉语 (am)
  • 泰卢固语 (te)
  • 马拉地语 (mr)
  • 旁遮普语 (pa)
  • 印地语 (hi)
  • 卢旺达语 (rw)
  • 豪萨语 (ha)
  • 印度尼西亚语 (id)
  • 西班牙语 (es)
  • 阿拉伯语 (arb)
  • 阿拉伯语 (arq)
  • 阿拉伯语 (ary)

配置

  • afr_Latn
    • 测试集路径: data/afr_Latn/test*
    • 开发集路径: data/afr_Latn/dev*
  • amh_Ethi
    • 测试集路径: data/amh_Ethi/test*
    • 开发集路径: data/amh_Ethi/dev*
  • arb_Arab
    • 测试集路径: data/arb_Arab/test*
    • 开发集路径: data/arb_Arab/dev*
  • arq_Arab
    • 测试集路径: data/arq_Arab/test*
    • 开发集路径: data/arq_Arab/dev*
  • ary_Arab
    • 测试集路径: data/ary_Arab/test*
    • 开发集路径: data/ary_Arab/dev*
  • eng_Latn
    • 测试集路径: data/eng_Latn/test*
    • 开发集路径: data/eng_Latn/dev*
  • hau_Latn
    • 测试集路径: data/hau_Latn/test*
    • 开发集路径: data/hau_Latn/dev*
  • hin_Deva
    • 测试集路径: data/hin_Deva/test*
    • 开发集路径: data/hin_Deva/dev*
  • hin_Latn
    • 测试集路径: data/hin_Latn/test*
    • 开发集路径: data/hin_Latn/dev*
  • ind_Latn
    • 测试集路径: data/ind_Latn/test*
    • 开发集路径: data/ind_Latn/dev*
  • kin_Latn
    • 测试集路径: data/kin_Latn/test*
    • 开发集路径: data/kin_Latn/dev*
  • mar_Deva
    • 测试集路径: data/mar_Deva/test*
    • 开发集路径: data/mar_Deva/dev*
  • pan_Guru
    • 测试集路径: data/pan_Guru/test*
    • 开发集路径: data/pan_Guru/dev*
  • spa_Latn
    • 测试集路径: data/spa_Latn/test*
    • 开发集路径: data/spa_Latn/dev*
  • tel_Telu
    • 测试集路径: data/tel_Telu/test*
    • 开发集路径: data/tel_Telu/dev*

数据集描述

  • SemRel2024: 包含14种语言的语义文本相关性数据集,用于评估系统测量两个句子之间语义相关性的能力。
  • SemRel2024 Plus: 在SemRel2024的基础上,增加了使用indictrans库生成的hin_Latn数据。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作