Semantic Text Similarity Dataset

github2024-04-15 更新2024-05-31 收录

下载链接：

https://github.com/brmson/dataset-sts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练和评估语义文本相似性模型，涉及将两个句子进行比较以确定它们的相似程度。数据集包括多个预先存在的文本相似性数据集，适用于研究目的。

This dataset is intended for training and evaluating semantic text similarity models, which involve comparing two sentences to determine their degree of similarity. It includes multiple pre-existing text similarity datasets for research purposes.

创建时间：

2016-01-21

原始信息汇总

数据集概述

数据集名称

Semantic Text Similarity Dataset Hub

数据集目的

该数据集旨在收集多种标准数据集和工具，用于训练和评估涉及句子对分类的模型，特别是关于语义相似性的任务。

数据集内容

Paraphrasing Task:
- MSR Paraphrase Dataset
- AskUbuntu StackOverflow Similar Questions
- PPDB: The Paraphrase Database
Semantic Text Similarity Task:
- SemEval STS Task
- SemEval SICK2014 Task
- SemEval 2014 Cross-level Semantic Similarity Task
Entailment Task:
- SemEval SICK2014 Task
- The Stanford Natural Language Inference (SNLI) Corpus
- RTE Datasets up to RTE-3
Answer Sentence Selection Task:
- Answer Sentence Selection - original Wang dataset
- Answer Sentence Selection - YodaQA-based
- The Ubuntu Dialogue Corpus
Hypothesis Evidencing Task:
- Argus Dataset
- AI2 8th Grade Science Questions
- Machine Comprehension Test (MCTest)

数据集使用许可

数据集的使用许可因数据集而异，部分数据集可能仅限于研究目的。使用前应检查具体数据集的许可协议。

数据集贡献

欢迎通过Pull Request扩展数据集，添加重要评论、引用或归属。同时，如果发现许可条款解读有误，请及时通知，以便立即移除相关内容。

数据集工具

pysts/: Python模块，包含数据集的加载、操作和评估工具。
pysts/kerasts: 使用Keras库进行深度学习模型原型设计的工具。
examples/: 包含各种任务的简单基线示例。
models/: 包含使用KeraSTS工具包的强基线模型，包括最先进的神经网络。
tasks/: 包含模型独立的数据集接口，适用于各种任务。
tools/: 包含将模型和任务结合的工具，用于模型的训练、评估、调优和转移。

搜集汇总

数据集介绍

构建方式

语义文本相似性数据集（Semantic Text Similarity Dataset）的构建基于多种现有的文本相似性任务数据集，这些数据集涵盖了从句子对分类到语义相似性评估等多个领域。数据集的构建方式主要是通过整合和标准化这些预先存在的数据集，确保每个数据集都符合特定的相似性度量标准，如在0到5之间的相似性评分。此外，部分数据集是通过对现有资源进行重新组织和标注生成的，以适应特定的语义相似性任务。

特点

该数据集的特点在于其多样性和广泛性，涵盖了从简单的句子对分类到复杂的语义相似性评估等多种任务。数据集中的每个任务都有明确的定义和标准化的评估方法，使得模型能够在不同任务间进行多任务学习。此外，数据集还包括了大量的基准模型和工具，便于研究者快速上手和进行模型评估。

使用方法

使用该数据集时，研究者可以通过提供的Python模块（如pysts）轻松加载和处理数据。数据集的目录结构清晰，包含了各种任务的独立接口，使得模型训练和评估变得简单直接。研究者还可以利用KeraSTS工具进行深度学习模型的快速原型设计，并通过examples目录中的示例代码快速上手。此外，数据集还鼓励通过拉取请求的方式扩展数据集或添加新的基准模型。

背景与挑战

背景概述

语义文本相似性数据集（Semantic Text Similarity Dataset）是一个专注于自然语言处理（NLP）领域的数据集，旨在解决句子对之间的语义相似性问题。该数据集由多个标准数据集组成，涵盖了从句子相似性到蕴含关系等多种任务。其核心研究问题是如何通过机器学习模型准确评估两个句子之间的语义相似度。该数据集的创建旨在为研究人员提供一个统一的框架，以便训练和评估通用模型，而不局限于特定任务。相关研究成果已在多个学术会议上发表，如ACL2016，并得到了广泛的关注和应用。

当前挑战

语义文本相似性数据集面临的挑战主要集中在两个方面。首先，构建过程中需要整合和处理来自不同来源的数据集，这些数据集可能具有不同的许可协议和使用限制，增加了数据管理的复杂性。其次，语义相似性任务本身具有较高的难度，因为模型需要准确捕捉句子间的深层语义关系，而非表面的词汇匹配。此外，如何设计通用的模型架构，使其能够适应多种任务，也是一个重要的研究挑战。

常用场景

经典使用场景

语义文本相似性数据集（Semantic Text Similarity Dataset）在自然语言处理领域中，主要用于评估和训练模型对句子对之间的语义相似性进行分类。该数据集的经典使用场景包括但不限于：句子对的语义相似性评分、文本蕴含关系的分类以及句子对的主题相关性判断。通过这些任务，模型能够学习如何量化句子间的语义关系，从而在诸如问答系统、文本摘要和机器翻译等应用中发挥重要作用。

解决学术问题

语义文本相似性数据集解决了自然语言处理中一个核心的学术问题，即如何准确评估和量化句子对之间的语义相似性。这一问题的解决对于提升文本理解、信息检索和自动摘要等任务的性能至关重要。通过提供多样化的数据集和精确的相似性度量标准，该数据集为研究者提供了一个统一的框架，促进了多任务学习和通用模型的开发，从而推动了自然语言处理领域的进步。

衍生相关工作

语义文本相似性数据集的发布和应用催生了一系列相关的经典工作。例如，基于该数据集的研究推动了句子对评分模型的统一框架的发展，如《Sentence Pair Scoring: Towards Unified Framework for Text Comprehension》一文。此外，该数据集还激发了对联合学习句子嵌入以处理相关性和蕴含关系的研究，如《Joint Learning of Sentence Embeddings for Relevance and Entailment》。这些工作不仅丰富了自然语言处理的理论基础，还为实际应用提供了强有力的技术支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集