kietnt0603/SemEval2024-STR
收藏Hugging Face2023-12-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/kietnt0603/SemEval2024-STR
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多种语言的句子对,每个句子对都有一个得分,表示两个句子之间的语义文本相关性。得分范围从0(完全不相关)到1(完全相关),这些得分是通过比较注释方法手动确定的,以确保高可靠性的相关性排名。数据集用于训练、开发和测试,旨在评估和提高模型对语义文本相关性的理解。
该数据集包含多种语言的句子对,每个句子对都有一个得分,表示两个句子之间的语义文本相关性。得分范围从0(完全不相关)到1(完全相关),这些得分是通过比较注释方法手动确定的,以确保高可靠性的相关性排名。数据集用于训练、开发和测试,旨在评估和提高模型对语义文本相关性的理解。
提供机构:
kietnt0603
原始信息汇总
数据集详情
数据集描述
每个实例在训练、开发和测试集中都是一对句子。实例被标记为一个分数,表示两个句子之间的语义文本相关性的程度。分数范围从0(最大程度不相关)到1(最大程度相关)。这些黄金标签分数是通过手动注释确定的。具体来说,采用了比较注释方法,以避免传统评分尺度注释方法的已知限制。这种比较注释过程(避免了传统评分尺度的几个偏差)导致了最终相关性排名的可靠性很高。关于任务、数据注释方法、语义文本相关性与语义文本相似性的区别、语义文本相关性的应用等的进一步细节可以在相关论文中找到。
数据集特征
- PairID: 字符串类型
- Language: 字符串类型
- Sentence1: 字符串类型
- Sentence2: 字符串类型
- Length: 整数类型
- Score: 浮点数类型
数据集分割
- 训练集:
- 字节数: 4248215
- 实例数: 15123
- 开发集:
- 字节数: 460985
- 实例数: 1390
数据集大小
- 下载大小: 2400795
- 数据集大小: 4709200
配置
- 默认配置:
- 训练集路径: data/train-*
- 开发集路径: data/dev-*



