five

SemRel/SemRel2024

收藏
Hugging Face2024-04-01 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/SemRel/SemRel2024
下载链接
链接失效反馈
官方服务:
资源简介:
SemRel2024是一个包含14种语言的语义文本相关性(STR)数据集集合,涵盖非洲和亚洲的多种语言。数据集由句子对组成,每个句子对都有一个相关性评分,评分范围从0(完全不相关)到1(高度相关)。该数据集用于SemEval2024共享任务1,旨在评估系统测量两个句子之间语义相关性的能力。数据集的结构包括两个文本段(sentence1和sentence2)和一个表示它们之间语义相关性的浮点数标签(label)。

SemRel2024是一个包含14种语言的语义文本相关性(STR)数据集集合,涵盖非洲和亚洲的多种语言。数据集由句子对组成,每个句子对都有一个相关性评分,评分范围从0(完全不相关)到1(高度相关)。该数据集用于SemEval2024共享任务1,旨在评估系统测量两个句子之间语义相关性的能力。数据集的结构包括两个文本段(sentence1和sentence2)和一个表示它们之间语义相关性的浮点数标签(label)。
提供机构:
SemRel
原始信息汇总

数据集概述

名称: SemRel2024

描述: SemRel2024是一个包含14种语言的语义文本相关性(STR)数据集集合,主要涵盖非洲和亚洲语言。每个数据集由句子对组成,每个句子对分配有一个相关性分数,范围从0(完全不相关)到1(最大程度相关)。

语言:

  1. Afrikaans (afr)
  2. Algerian Arabic (arq)
  3. Amharic (amh)
  4. English (eng)
  5. Hausa (hau)
  6. Indonesian (ind)
  7. Hindi (hin)
  8. Kinyarwanda (kin)
  9. Marathi (mar)
  10. Modern Standard Arabic (arb)
  11. Moroccan Arabic (ary)
  12. Punjabi (pan)
  13. Spanish (esp)
  14. Telugu (tel)

数据集结构:

  • 特征:

    • sentence1: 字符串类型,表示第一个文本段。
    • sentence2: 字符串类型,表示第二个文本段。
    • label: 浮点数类型,表示sentence1和sentence2之间的语义相关性分数。
  • 分割:

    • train: 训练集
    • test: 测试集
    • dev: 开发集

示例: json { "sentence1": "string", "sentence2": "string", "label": float }

数据集大小:

  • 每个语言配置的数据集大小不同,具体如下:
    • afr: 下载大小95864字节,数据集大小131492字节
    • amh: 下载大小153682字节,数据集大小265610字节
    • arb: 下载大小72348字节,数据集大小116319字节
    • arq: 下载大小149472字节,数据集大小261529字节
    • ary: 下载大小274828字节,数据集大小586104字节
    • eng: 下载大小868674字节,数据集大小1256319字节
    • esp: 下载大小323584字节,数据集大小468916字节
    • hau: 下载大小328542字节,数据集大小594948字节
    • hin: 下载大小217493字节,数据集大小490432字节
    • ind: 下载大小68263字节,数据集大小94764字节
    • kin: 下载大小219256字节,数据集大小332489字节
    • mar: 下载大小381039字节,数据集大小841063字节
    • pan: 下载大小166402字节,数据集大小425385字节
    • tel: 下载大小347275字节,数据集大小771712字节

任务类别:

  • 文本分类
  • 句子相似性

引用信息:

@misc{ousidhoum2024semrel2024, title={SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 14 Languages}, author={Nedjma Ousidhoum and Shamsuddeen Hassan Muhammad and Mohamed Abdalla and Idris Abdulmumin and Ibrahim Said Ahmad and Sanchit Ahuja and Alham Fikri Aji and Vladimir Araujo and Abinew Ali Ayele and Pavan Baswani and Meriem Beloucif and Chris Biemann and Sofia Bourhim and Christine De Kock and Genet Shanko Dekebo and Oumaima Hourrane and Gopichand Kanumolu and Lokesh Madasu and Samuel Rutunda and Manish Shrivastava and Thamar Solorio and Nirmal Surange and Hailegnaw Getaneh Tilaye and Krishnapriya Vishnubhotla and Genta Winata and Seid Muhie Yimam and Saif M. Mohammad}, year={2024}, eprint={2402.08638}, archivePrefix={arXiv}, primaryClass={cs.CL} }

@inproceedings{ousidhoum-etal-2024-semeval, title = "{S}em{E}val-2024 Task 1: Semantic Textual Relatedness for African and Asian Languages", author = "Ousidhoum, Nedjma and Muhammad, Shamsuddeen Hassan and Abdalla, Mohamed and Abdulmumin, Idris and Ahmad,Ibrahim Said and Ahuja, Sanchit and Aji, Alham Fikri and Araujo, Vladimir and Beloucif, Meriem and De Kock, Christine and Hourrane, Oumaima and Shrivastava, Manish and Solorio, Thamar and Surange, Nirmal and Vishnubhotla, Krishnapriya and Yimam, Seid Muhie and Mohammad, Saif M.", booktitle = "Proceedings of the 18th International Workshop on Semantic Evaluation (SemEval-2024)", year = "2024", publisher = "Association for Computational Linguistics" }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作