Semantic Text Similarity Dataset

github2017-10-01 更新2024-05-31 收录

下载链接：

https://github.com/rikenshah/dataset-sts

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估和训练模型，特别是关于语义文本相似性的任务。数据集包含多种标准数据集，用于分类独立句子（或多句子）对，判断它们是否表达了相同的内容，例如描述相同的事件或提出相同的问题。

This dataset is designed for the evaluation and training of models, particularly for tasks related to semantic textual similarity. It encompasses a variety of standard datasets aimed at classifying pairs of independent sentences (or multiple sentences) to determine whether they convey the same content, such as describing the same event or posing the same question.

创建时间：

2017-10-01

原始信息汇总

数据集概述

数据集目标

本数据集旨在收集多种标准数据集和工具，用于训练和评估自然语言处理（NLP）中的语义文本相似性模型。目标是为f_2函数构建通用模型，该函数用于评估两个句子之间的语义相似度。

数据集内容

数据集包含多个子任务，每个子任务对应不同的数据集和任务类型：

"Paraphrasing" Task
- MSR Paraphrase Dataset
- AskUbuntu StackOverflow Similar Questions
- PPDB: The Paraphrase Database
"Semantic Text Similarity" Task
- SemEval STS Task
- SemEval SICK2014 Task
"Entailment" Task
- SemEval SICK2014 Task
- The Stanford Natural Language Inference (SNLI) Corpus
"Answer Sentence Selection" Task
- Answer Sentence Selection - original Wang dataset
- Answer Sentence Selection - YodaQA-based
- The Ubuntu Dialogue Corpus
"Hypothesis Evidencing" Task
- Argus Dataset
- AI2 8th Grade Science Questions
- Machine Comprehension Test (MCTest)

数据集特点

多数数据集为预先存在的，可用于研究目的。
部分数据集可能为原创，与训练f_2函数相关的应用问题相关。
鼓励通过Pull Request扩展数据集或添加重要评论、参考或归属。

数据集使用注意事项

用户需检查每个数据集的具体许可证。
不鼓励使用非可再分发或非免费的数据集。

数据集软件工具

pysts/：Python模块，包含数据集的加载、操作和评估工具。
pysts/kerasts：使用Keras库进行深度学习模型原型设计的工具。
examples/：包含各种任务的简单基准示例。
models/：包含使用KeraSTS工具包的强基准模型。
tasks/：包含模型独立的数据集接口，用于各种任务。
tools/：包含将模型和任务结合的工具，如训练、评估、调优和模型转移。

数据集参考文献

搜集汇总

数据集介绍

构建方式

Semantic Text Similarity Dataset 旨在收集并整合多种标准数据集和工具，以训练和评估针对句子对的语义相似度模型。该数据集主要通过搜集已有的文本相似度数据集构成，同时包含一些原创数据集，这些数据集来源于多种应用问题，涉及训练此类函数。数据集的构建注重于模型通用性，以期望构建出非特定任务型的通用模型，甚至实现多任务学习。

特点

该数据集的特点在于其多样性，涵盖了多种自然语言处理任务，如语义文本相似度、蕴含、问答等。它不仅包含了句子对的相似度评分，还涉及了蕴含判断和问题回答等复杂任务。此外，该数据集强调通用模型的构建，便于研究者在多种任务上测试和评估模型性能。数据集还包括了多个基准模型，方便研究者进行比较研究。

使用方法

使用该数据集时，研究者可以通过Python模块pysts方便地进行数据加载、操作和评估。此外，提供了kerasts模块，支持使用Keras库轻松构建深度学习模型。数据集的使用方法包括但不限于：加载预定义的任务数据集、使用工具目录中的工具进行模型训练与评估、参考示例目录中的简单基线模型，以及利用models目录中的强基线模型进行深入研究。

背景与挑战

背景概述

Semantic Text Similarity Dataset（语义文本相似度数据集）是一个专注于语义文本相似度任务的自然语言处理（NLP）机器学习数据集。该数据集的创建旨在促进对句子对进行语义相似度度量的研究，其核心研究问题是评估两个句子在语义层面上的相似度。自诞生以来，该数据集已被广泛应用于多个研究领域，对于推动文本相似度计算、文本理解等任务的发展具有重要影响力。该数据集由多个预存在的文本相似度数据集组成，部分数据集原创，由Petr Baudiš等研究人员在多个应用问题研究中逐渐积累而成。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：1）所解决的领域问题，即如何准确衡量两个句子在语义上的相似度，这对于模型的设计和评估提出了挑战；2）构建过程中的挑战，包括数据集的多样性、规模以及数据标注的一致性和准确性。此外，数据集的版权和许可问题也给数据集的整合和使用带来了挑战。

常用场景

经典使用场景

在自然语言处理领域，语义文本相似度任务是一项基础且关键的研究课题。Semantic Text Similarity Dataset 数据集为此类研究提供了丰富的样本资源，其经典使用场景主要在于训练和评估模型对文本对进行语义相似度评分的能力，从而判断两个句子在语义层面上的相似程度。

实际应用

在实际应用中，基于该数据集训练的模型可以广泛应用于搜索引擎的查询理解、机器翻译的质量评估、对话系统的响应生成等场景，显著提高相关系统的智能水平和服务质量。

衍生相关工作

该数据集衍生了大量的相关工作，包括但不限于多种基于深度学习的句子嵌入模型、多任务学习框架以及跨领域的语义相似度评估方法，推动了自然语言处理领域的研究进展和技术创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集