Semantic Text Similarity Dataset
收藏github2019-05-10 更新2024-05-31 收录
下载链接:
https://github.com/fanglanting/dataset-sts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于评估和训练模型,以确定两个句子之间的语义相似度,即它们是否表达了相同的意思。数据集包括多种预先存在的文本相似性数据集,适用于研究和模型训练。
This dataset is utilized for evaluating and training models to determine the semantic similarity between two sentences, i.e., whether they convey the same meaning. The dataset encompasses a variety of pre-existing text similarity datasets, suitable for research and model training.
创建时间:
2018-02-07
原始信息汇总
数据集概述
数据集目标
本数据集旨在收集和提供多种标准数据集及工具,用于训练和评估自然语言处理(NLP)中的语义文本相似度模型。这些模型主要用于判断两个句子之间的语义相似度,但也可用于其他任务,如分类、蕴含或主题相关性。
数据集内容
数据集包含多个任务相关的子数据集,主要包括:
-
"Paraphrasing" Task
- MSR Paraphrase Dataset
- AskUbuntu StackOverflow Similar Questions
-
"Semantic Text Similarity" Task
- SemEval STS Task
- SemEval SICK2014 Task
-
"Entailment" Task
- SemEval SICK2014 Task
- The Stanford Natural Language Inference (SNLI) Corpus
-
"Answer Sentence Selection" Task
- Answer Sentence Selection - original Wang dataset
- Answer Sentence Selection - YodaQA-based
- The Ubuntu Dialogue Corpus
-
"Hypothesis Evidencing" Task
- Argus Dataset
- AI2 8th Grade Science Questions
- Machine Comprehension Test (MCTest)
数据集使用
数据集中的大部分数据可用于研究目的,但需注意每个数据集的具体许可协议。鼓励用户通过Pull Request扩展数据集或添加重要评论、参考或归属信息。
软件工具
数据集配套提供了多种软件工具,包括Python模块pysts,用于数据集的加载、操作和评估,以及pysts/kerasts,用于使用Keras库快速原型化深度学习模型。此外,还有examples/、models/、**tasks/和tools/**目录,分别提供简单基线、强基线模型、模型独立接口和模型训练、评估工具。
许可证和归属
数据集的使用需遵守各数据集的许可证要求。本项目的默认许可证为代码使用ASLv2,数据使用CC-BY 4.0。项目部分工作得到Medialab基金会的赞助。
搜集汇总
数据集介绍

构建方式
该数据集的构建主要基于自然语言处理中的语义相似度任务,包含了多种独立文本对的语义相似度标注。构建过程中,选取了多个已有的文本相似度数据集,如SemEval STS任务的多年度数据、SICK2014任务数据等,同时还包括了一些原创数据集,用于训练和评估针对语义相似度函数的通用模型。
特点
Semantic Text Similarity Dataset的特点在于其多样性,涵盖了从句子对语义相似度到蕴含、问答等多种自然语言处理任务。数据集具有明确的相似度度量标准,例如为每个文本对分配0到5的相似度分数,以便于模型的训练和评估。此外,数据集还提供了多种基准模型和工具,以及适用于不同任务的模型独立接口。
使用方法
使用该数据集时,用户可以参考自带的工具和基准模型,例如Python模块pysts,以及KeraSTS等深度学习模型原型工具。用户可以根据具体任务选择合适的模型和工具,进行模型的训练、评估、调整和迁移。同时,数据集的README文件中提供了详细的数据集列表和使用说明,用户应仔细阅读并遵守相关数据集的许可协议。
背景与挑战
背景概述
Semantic Text Similarity Dataset(语义文本相似度数据集)是一个专注于文本对语义相似度评估的数据集集合。该数据集的创建旨在推动自然语言处理(NLP)领域中机器学习模型的训练与评估,尤其是那些能够处理句子对语义相似度任务(f_2)的模型。该数据集由多个预存的文本相似度数据集组成,部分数据集原创,由Petr Baudiš等研究人员在多个应用问题中积累形成。数据集涵盖多种任务类型,如语义文本相似度、蕴含、问答匹配等,并被多个研究机构用于模型训练与基准测试,对NLP领域的研究产生了积极影响。
当前挑战
数据集构建过程中的挑战主要包括:1)确保所包含的数据集在研究用途下的可重分发性,遵守各自的数据使用许可;2)构建通用的语义相似度评估模型,而非针对特定任务的定制模型;3)处理不同任务类型间的差异性,如语义文本相似度、蕴含、问答匹配等,需要设计相应的模型接口和评估标准;4)在数据集构建与模型训练中,考虑到数据集的多样性和复杂性,如何保证模型的泛化能力和准确性是一个持续的挑战。
常用场景
经典使用场景
语义文本相似度数据集(Semantic Text Similarity Dataset)广泛应用于自然语言处理领域,其经典使用场景在于训练和评估能够对句子对进行语义相似度评级的模型。这些模型能够判断两个句子在语义上是否表达相同或相似的内容,这对于诸如文本匹配、问答系统、语义搜索等任务至关重要。
实际应用
在实际应用中,该数据集可用于开发智能客服系统,通过对用户查询和已知回答进行相似度匹配,快速提供准确的答复。此外,在信息检索系统中,利用该数据集训练的模型可以改进搜索结果的排序,使最相关的信息优先展示给用户。
衍生相关工作
基于该数据集,衍生出了一系列相关工作,包括但不限于文本匹配算法研究、多任务学习框架的探索以及针对特定任务的深度学习模型设计。这些工作推动了自然语言处理领域的进步,为相关任务提供了新的研究视角和技术路径。
以上内容由遇见数据集搜集并总结生成



