STR-2022

Name: STR-2022
Creator: 多伦多大学健康与更好研究所
Published: 2023-03-20 21:34:47
License: 暂无描述

arXiv2023-03-20 更新2024-06-21 收录

下载链接：

https://doi.org/10.5281/zenodo.7599667

下载链接

链接失效反馈

官方服务：

资源简介：

STR-2022是由多伦多大学健康与更好研究所创建的语义文本相关性数据集，包含5500对英语句子，通过比较注释框架获得细粒度相关性分数。数据集涵盖多种来源，句子结构多样，词汇重叠程度不一，形式各异。创建过程涉及从多个来源采样句子对，设计问卷，众包注释，以及聚合注释以获得相关性分数。该数据集应用于评估句子表示的自动方法，并用于各种下游NLP任务，旨在解决语义相关性问题。

STR-2022 is a semantic textual relevance dataset developed by the Institute for Health and Betterment, University of Toronto. It contains 5500 pairs of English sentences, with fine-grained relevance scores obtained via a comparative annotation framework. The dataset covers diverse source origins, featuring varied sentence structures, varying degrees of lexical overlap, and distinct textual forms. Its creation workflow involves sampling sentence pairs from multiple sources, designing specialized questionnaires, performing crowdsourced annotation, and aggregating individual annotations to derive the final relevance scores. This dataset is applied to evaluate automatic methods for sentence representation, and is employed across various downstream natural language processing (NLP) tasks, aiming to resolve issues related to semantic relevance.

提供机构：

多伦多大学健康与更好研究所

创建时间：

2021-10-11

搜集汇总

数据集介绍

构建方式

在语义相关性的研究领域，STR-2022数据集的构建采用了严谨的实证方法。该数据集包含5,500个英语句子对，其构建过程首先从多个异构文本源中精心筛选句子，包括Goodreads书评、维基百科简化文本、形式化风格转换语料、自动生成的复述对、自然语言推理数据以及社交媒体推文等。这些来源确保了句子在结构、正式程度和主题上的多样性。为了覆盖广泛的语义相关性范围，构建过程中特别设计了词汇重叠策略，既包含直接复述对，也包含随机配对，以系统化地研究词汇重叠对相关性的影响。标注环节采用了基于最佳-最差缩放（BWS）的比较性标注框架，每次向标注者呈现四个句子对，要求选出语义最相关和最不相关的对，从而避免了传统评分量表固有的主观偏差和粒度固定问题。所有标注均通过亚马逊众包平台由母语为英语的标注者完成，并通过插入黄金标准问题进行严格的质量控制。最终，通过统计计算将比较结果转化为0到1之间的连续精细分数，确保了数据的高可靠性和一致性。

特点

STR-2022数据集的核心特点在于其专注于广义的语义相关性，而非狭义的语义相似性。与以往仅关注复述或蕴含关系的数据集不同，该数据集旨在捕捉句子之间所有可能的语义共通性，包括话题相关性、风格一致性、逻辑延续性等更丰富的维度。其标注结果呈现出高度的细粒度特性，相关性分数为连续值，能够更精确地反映人类对语义关联程度的直觉判断。数据集的另一个显著特点是其高可靠性，通过分割半信度测量得到的Spearman相关系数高达0.84，这表明即使在缺乏严格形式化定义的情况下，人类标注者对语义相关性的判断也具有内在的一致性。此外，数据集涵盖了广泛的文本类型和主题领域，句子对的相关性分数分布均匀，从完全无关到高度相关均有充分体现，为深入研究语义相关性的决定因素提供了宝贵的实证基础。

使用方法

STR-2022数据集为自然语言处理领域提供了多方面的研究价值。在基础研究层面，该数据集可用于实证探索影响句子语义相关性的因素，例如词汇重叠、词性分布、主语宾语关联性等特征与相关性分数的定量关系。在模型评估方面，它可作为评估句子表示模型性能的重要基准。研究者可以计算句子嵌入向量之间的余弦相似度，并将其与数据集中的人工标注相关性分数进行相关性分析（如Spearman相关），从而检验模型是否能在向量空间中准确反映语义关联。此外，该数据集支持有监督的模型微调，例如基于BERT或RoBERTa的句子编码器，可通过回归任务学习预测相关性分数，进而提升模型在下游任务中的表现。在应用层面，经过STR-2022训练或评估的模型可广泛应用于需要语义连贯性的任务，如自动文摘、问答系统、文本生成和对话系统，其中选择语义相关而非仅仅相似的句子对于保持内容的连贯性与丰富性至关重要。数据集的多样性和可靠性也使其适用于跨领域泛化能力和模型偏差分析的研究。

背景与挑战

背景概述

语义文本关联性（Semantic Textual Relatedness）作为自然语言理解的核心维度，长期以来在计算语言学领域备受关注。STR-2022数据集由多伦多大学与加拿大国家研究委员会的研究团队于2022年联合创建，旨在填补句子级别语义关联性标注数据的空白。该数据集包含5,500对英语句子，通过比较性标注框架获得细粒度关联分数，其设计初衷是超越传统语义相似性的局限，全面捕捉句子在主题、风格、逻辑延伸等多维度的语义关联。STR-2022的推出为问答系统、文本生成等下游任务提供了更丰富的语义评估基准，显著推动了语义表示模型的研究进展。

当前挑战

STR-2022数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，语义关联性涵盖范围远广于语义相似性，涉及主题连贯、因果推理等复杂关系，这使得模型需克服传统向量表示方法对非对称关联的捕捉不足；其二，在构建过程中，标注框架需平衡标注者主观差异与任务一致性，团队采用最佳-最差缩放法以缓解固定粒度评分带来的偏差，同时通过多源数据采样确保句子在结构、正式性及词汇重叠度的多样性，但数据覆盖范围仍受限于英语社交媒体文本，可能引入社会文化偏见。

常用场景

经典使用场景

在自然语言处理领域，语义关联性评估是理解文本深层含义的核心任务。STR-2022数据集通过提供5500对英语句子对的精细关联度评分，为研究者探索句子间语义关联的机制奠定了数据基础。该数据集最经典的使用场景在于评估和优化句子表示模型，例如通过计算句子嵌入向量之间的余弦相似度来预测其语义关联程度，从而检验模型是否能在向量空间中准确反映语义邻近关系。

实际应用

在实际应用层面，STR-2022数据集为多种下游自然语言处理任务提供了关键支持。在自动摘要生成中，系统需要筛选语义关联而非简单相似的句子以保持内容连贯；在问答系统中，关联度评估有助于识别与问题相关但非直接重复的答案片段。此外，该数据集已被用于改进句子嵌入的内在评估方法，如EvalRank框架，通过聚焦局部邻居关系提升了嵌入模型在自然语言推理、情感分析等任务中的迁移性能。

衍生相关工作

STR-2022数据集的发布催生了一系列聚焦语义关联建模的创新研究。例如，Wang等人提出的EvalRank评估方法利用该数据集优化了句子嵌入的评估范式，显著提升了下游任务性能的相关性。同时，该数据集也促进了对比学习框架在句子表示中的应用，研究者通过微调BERT、RoBERTa等预训练模型，实现了语义关联预测性能的显著提升。这些工作共同推动了语义关联性从理论探讨向实用化建模的转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集