five

kietnt0603/SemEval2024-STR

收藏
Hugging Face2023-12-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kietnt0603/SemEval2024-STR
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多种语言的句子对,每个句子对都有一个得分,表示两个句子之间的语义文本相关性。得分范围从0(完全不相关)到1(完全相关),这些得分是通过比较注释方法手动确定的,以确保高可靠性的相关性排名。数据集用于训练、开发和测试,旨在评估和提高模型对语义文本相关性的理解。

该数据集包含多种语言的句子对,每个句子对都有一个得分,表示两个句子之间的语义文本相关性。得分范围从0(完全不相关)到1(完全相关),这些得分是通过比较注释方法手动确定的,以确保高可靠性的相关性排名。数据集用于训练、开发和测试,旨在评估和提高模型对语义文本相关性的理解。
提供机构:
kietnt0603
原始信息汇总

数据集详情

数据集描述

每个实例在训练、开发和测试集中都是一对句子。实例被标记为一个分数,表示两个句子之间的语义文本相关性的程度。分数范围从0(最大程度不相关)到1(最大程度相关)。这些黄金标签分数是通过手动注释确定的。具体来说,采用了比较注释方法,以避免传统评分尺度注释方法的已知限制。这种比较注释过程(避免了传统评分尺度的几个偏差)导致了最终相关性排名的可靠性很高。关于任务、数据注释方法、语义文本相关性与语义文本相似性的区别、语义文本相关性的应用等的进一步细节可以在相关论文中找到。

数据集特征

  • PairID: 字符串类型
  • Language: 字符串类型
  • Sentence1: 字符串类型
  • Sentence2: 字符串类型
  • Length: 整数类型
  • Score: 浮点数类型

数据集分割

  • 训练集:
    • 字节数: 4248215
    • 实例数: 15123
  • 开发集:
    • 字节数: 460985
    • 实例数: 1390

数据集大小

  • 下载大小: 2400795
  • 数据集大小: 4709200

配置

  • 默认配置:
    • 训练集路径: data/train-*
    • 开发集路径: data/dev-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作