Semantic Text Similarity Dataset

github2019-04-17 更新2024-05-31 收录

下载链接：

https://github.com/ser-art/dataset-sts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估和训练自然语言处理模型中的语义文本相似性，涉及对句子对的相似度进行分类。

This dataset is designed for evaluating and training semantic textual similarity in natural language processing models, involving the classification of similarity between sentence pairs.

创建时间：

2019-04-17

原始信息汇总

数据集概述

数据集目标

本数据集旨在收集和提供多种标准数据集及工具，用于训练和评估自然语言处理（NLP）中的语义文本相似性模型。目标是为构建通用模型提供资源，这些模型不针对特定任务，并支持多任务学习。

数据集内容

数据集包含多个任务相关的子数据集，主要分为以下几类：

"Paraphrasing" Task
- MSR Paraphrase Dataset
- AskUbuntu StackOverflow Similar Questions
- PPDB: The Paraphrase Database
"Semantic Text Similarity" Task
- SemEval STS Task
- SemEval SICK2014 Task
- SemEval 2014 Cross-level Semantic Similarity Task
"Entailment" Task
- SemEval SICK2014 Task
- The Stanford Natural Language Inference (SNLI) Corpus
"Answer Sentence Selection" Task
- Answer Sentence Selection - original Wang dataset
- Answer Sentence Selection - YodaQA-based
- Ubuntu Dialogue Corpus
"Hypothesis Evidencing" Task
- Argus Dataset
- AI2 8th Grade Science Questions
- Machine Comprehension Test (MCTest)

数据集特点

多数数据集为预先存在的，可用于研究目的的重新分发。
部分数据集可能为原创，特别是与训练语义相似性函数相关的应用问题。
数据集的许可证各不相同，使用前需仔细检查。

数据集使用

欢迎通过Pull Request扩展数据集，添加重要评论、参考或归属。
提供简单基线模型（适合几屏幕代码量，可批量运行）的Pull Request也受欢迎。

数据集相关文献

Sentence Pair Scoring: Towards Unified Framework for Text Comprehension
Joint Learning of Sentence Embeddings for Relevance and Entailment

数据集工具

pysts/: Python模块，包含数据集的加载、操作和评估工具。
pysts/kerasts: 使用Keras库，支持多种任务的深度学习模型原型设计。
examples/: 包含多个任务的简单自包含基线。
models/: 包含使用KeraSTS工具包的多种强基线模型，包括最先进的神经网络。
tasks/: 包含模型独立的数据集接口，适用于多种任务。
tools/: 包含将模型和任务结合的工具，如训练、评估、调优和模型转移。

搜集汇总

数据集介绍

构建方式

该数据集通过搜集和整合多种标准的自然语言处理任务相关的句子对，构建了一个用于训练和评估语义相似度模型的综合资源库。数据集主要包含预先存在的文本相似度数据集，同时也包括一些原创数据集，这些数据集来自于多个应用问题的研究，旨在训练一个能够处理多种任务的通用函数f_2。

使用方法

使用该数据集时，研究人员可以首先查看提供的各种任务的数据格式和基准模型。数据集的加载和操作可以通过Python模块pysts完成，而深度学习模型的构建则可以使用KeraSTS工具。此外，数据集的每个任务都有独立的接口，方便模型与任务之间的组合。研究人员可以根据需要在GitHub上提交pull request，以扩展数据集或添加重要的评论、参考文献或归属信息。

背景与挑战

背景概述

语义文本相似度数据集（Semantic Text Similarity Dataset）的构建旨在推动自然语言处理领域的一项重要任务——句子对的语义相似度评估。该数据集的创建始于对现有自然语言处理任务的拓展，即不仅仅对单个句子进行分类，而是对句子对进行分类，评估它们在语义上的相似程度。该数据集由多个研究者和机构共同维护，其中包括了多个子任务数据集，如语义相似度、蕴含关系判断、答案句选择等。自推出以来，该数据集在自然语言处理领域产生了广泛的影响，促进了统一框架下的句子对评分模型的发展。相关研究成果已在多个学术会议和期刊上发表，为领域内的研究和应用提供了重要的基础数据资源。

当前挑战

在构建该数据集的过程中，研究者们面临了多项挑战。首先，如何精确地定义并量化句子间的语义相似度是一个关键问题。其次，数据集的构建需要收集和整合大量文本数据，并确保这些数据的多样性和质量。此外，不同任务间的数据标注一致性以及数据集的版权问题也是构建过程中需要克服的重要挑战。在研究领域问题方面，该数据集所面临的挑战包括如何有效地训练出能够泛化到不同任务的通用模型，以及如何处理具有复杂语义关系的句子对。

常用场景

经典使用场景

在自然语言处理领域中，语义文本相似度数据集（Semantic Text Similarity Dataset）被广泛用于训练和评估模型对文本对之间语义相似度的理解和计算能力。经典的使用场景包括对句子对进行语义相似度评分，以判断它们在语义上是否表达相同或相似的含义，这对于构建能够进行通用任务处理的模型至关重要。

解决学术问题

该数据集解决了学术研究中如何准确评估和量化文本之间语义相似度的问题，对于理解语言表达的多义性和复杂性具有显著意义。通过提供标准化的相似度评分任务，它促进了学术界的比较研究，推动了语义理解技术的发展。

实际应用

在实际应用中，该数据集可用于改善搜索引擎的查询理解、机器翻译的质量评估、语音识别的准确性提升，以及智能客服系统中的意图识别等多个领域，有助于提高人工智能系统的整体交互质量。

数据集最近研究