mteb/sickr-sts

Name: mteb/sickr-sts
Creator: mteb
Published: 2025-05-04 16:26:42
License: 暂无描述

Hugging Face2025-05-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mteb/sickr-sts

下载链接

链接失效反馈

官方服务：

资源简介：

SICK-R是一个英文单语种句子相似性数据集，包含大约10,000个句子对，这些句子对经过人类众包标注，用于评估意义相关性和蕴含关系。数据集可用于研究目的，并已被用于SemEval-2014任务1。

The SICK-R dataset is an English monolingual sentence similarity dataset containing about 10,000 sentence pairs, which have been human-annotated through crowdsourcing for evaluating meaning relatedness and entailment relations. The dataset is available for research purposes and has been used in SemEval-2014 Task 1.

提供机构：

mteb

原始信息汇总

数据集概述

语言

英语（en）

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，语义文本相似性评估是衡量模型理解能力的关键任务。SICK-R数据集通过精心设计的流程构建而成，其基础来源于网络和书面文本领域，旨在为组合分布语义模型提供标准化评估基准。数据集的构建过程涉及人工标注，由专业标注者对约一万对英文句子进行语义相关性与蕴含关系的精细标注。每对句子均经过严格筛选，涵盖丰富的词汇、句法和语义现象，同时避免包含惯用表达、命名实体等非核心语言特征，确保了数据集的纯净性与针对性。这一构建方法为后续的模型性能评估提供了可靠且高质量的数据基础。

特点

SICK-R数据集在语义相似性任务中展现出鲜明的特点。该数据集规模适中，包含9927个测试样本，每个句子对均标注有1至5分的语义相关度分数，平均分约为3.53，分数分布较为均衡。句子长度介于14至151个字符之间，平均长度约46个字符，保证了语言表达的完整性与多样性。数据集中存在大量独特的句子对，测试集内独特句子对数量达9842对，且第一句与第二句的独特句子数量分别超过5000和4900，有效避免了重复样本对评估结果的潜在偏差。这些特征共同构成了一个兼具挑战性与代表性的评估环境。

使用方法

在嵌入模型评估实践中，SICK-R数据集作为MTEB基准的重要组成部分，提供了标准化的评估流程。研究人员可通过MTEB库便捷地加载该数据集任务，并利用预定义的评估框架对模型性能进行系统化测试。具体而言，用户需导入mteb模块，获取SICK-R任务实例，随后初始化评估器并指定待测模型，即可自动执行相似性评分计算与结果分析。该流程不仅支持快速集成各类嵌入模型，还能确保评估过程的复现性与一致性，为模型比较与优化提供了高效的技术路径。

背景与挑战

背景概述

SICK-R数据集作为语义文本相似性评估的重要基准，由Marco Marelli等学者于2014年构建，旨在为组合分布语义模型提供精准的评估工具。该数据集聚焦于自然语言理解中的核心问题，即句子间语义相关性与蕴含关系的量化分析，通过约一万对英语句子，系统涵盖了词汇、句法和语义层面的多种语言现象。其设计摒弃了惯用表达与命名实体等干扰因素，纯粹考察模型的组合语义能力，因而在计算语言学领域产生了深远影响，成为SemEval等国际评测任务的关键数据源。

当前挑战

SICK-R数据集所针对的领域挑战在于精确评估句子间语义相似度与蕴含关系，这要求模型不仅能捕捉表层词汇匹配，还需深入理解句子的组合语义结构。构建过程中的挑战体现在通过众包方式进行高质量标注，需确保标注者对不同语言现象的一致性判断，同时平衡数据集的多样性与纯净性，避免引入非组合性语义干扰。此外，将原始数据集整合至大规模文本嵌入基准时，需维持其标注信度与结构完整性，以适应现代嵌入模型的评测需求。

常用场景

经典使用场景

在自然语言处理领域，语义文本相似性评估是衡量模型理解句子深层含义能力的关键任务。SICK-R数据集作为经典的语义相似度基准，其核心应用场景在于为句子嵌入模型提供标准化的测试平台。该数据集通过约一万对英语句子，覆盖了丰富的词汇、句法和语义现象，使研究者能够系统地评估模型在捕捉句子间语义关联方面的性能。模型输出的相似度分数与人工标注的黄金标准进行对比，从而客观反映其语义表示的质量。

实际应用

在实际工程应用中，SICK-R数据集为搜索引擎、智能客服和内容推荐系统等场景提供了语义匹配能力的验证依据。例如，在信息检索系统中，模型利用该数据集训练的相似度评分功能，能够更精准地匹配用户查询与文档内容，提升搜索结果的相关性。此外，在对话系统中，它有助于增强对用户意图的理解，实现更自然流畅的人机交互，从而优化用户体验并提高服务效率。

衍生相关工作

围绕SICK-R数据集，学术界衍生了一系列重要的研究工作。它不仅是SemEval-2014 Task 1的核心评测数据，还作为MTEB和MMTEB等大规模文本嵌入基准的重要组成部分，为诸如Sentence-BERT、SimCSE等前沿嵌入模型提供了关键的性能验证平台。这些工作进一步拓展了多语言与跨领域的语义评估框架，推动了文本表示学习领域的持续创新与进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集