paraphrase-dataset

github2023-09-22 更新2024-05-31 收录

下载链接：

https://github.com/lanwuwei/paraphrase-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个大规模的句子级释义数据集，包含大量的释义对及其人工标注。数据集用于训练和测试，每对句子由6名亚马逊Mechanical Turk工人进行标注，根据标注结果判断是否为释义。

This is a large-scale sentence-level paraphrase dataset, encompassing a vast number of paraphrase pairs along with their manual annotations. The dataset is utilized for both training and testing purposes, with each pair of sentences annotated by six Amazon Mechanical Turk workers to determine whether they constitute paraphrases.

创建时间：

2017-08-12

原始信息汇总

数据集概述

数据集名称

Paraphrase-dataset

数据集内容

包含3个月的原始数据样本。
提供1年URL数据，共2,869,657个候选对。

数据获取方式

目前下载链接不可用，需通过电子邮件lwwscc@gmail.com获取数据。
可通过paraphrase website下载数据集。

数据集用途

用于研究，特别是与论文《A Continuously Growing Dataset of Sentential Paraphrases》相关。

数据集引用信息

@inproceedings{lan2017continuously, author = {Lan, Wuwei and Qiu, Siyu and He, Hua and Xu, Wei}, title = {A Continuously Growing Dataset of Sentential Paraphrases}, booktitle = {Proceedings of The 2017 Conference on Empirical Methods on Natural Language Processing (EMNLP)}, year = {2017}, publisher = {Association for Computational Linguistics}, pages = {1235--1245}, location = {Copenhagen, Denmark}, url = {http://aclweb.org/anthology/D17-1127} }

数据集格式

训练和测试文件为带有标注的原始数据子集。
每行格式：sentence1 ab sentence2 ab (n,6) ab url。
每对句子由6名Amazon Mechanical Turk工人标注，n表示认为该对是同义改写的工人数量。

数据集处理规则

若n<=2，视为非同义改写。
若n>=4，视为同义改写。
若n==3，则丢弃。

数据集规模

训练集：42200个样本。
测试集：9334个样本。

许可证

非商业用途下，根据CC BY-NC-SA 3.0许可证发布。
使用数据需遵守Twitter服务条款和开发者政策。

搜集汇总

数据集介绍

构建方式

paraphrase-dataset的构建基于Twitter平台上的公开数据，通过自动化的数据爬取技术收集了大量的句子对。这些句子对随后通过Amazon Mechanical Turk平台进行人工标注，标注者需判断句子对是否为同义句。标注结果经过严格筛选，仅保留至少4名标注者认定为同义句的句子对，以确保数据的准确性和可靠性。

使用方法

使用paraphrase-dataset时，研究者需首先配置Twitter API密钥，并修改相关代码以适应本地环境。数据集提供了训练和测试文件，每行包含两个句子及其标注结果。研究者可以利用这些数据进行同义句检测模型的训练和评估。数据集的使用需遵循CC BY-NC-SA 3.0许可协议，并遵守Twitter的服务条款和开发者政策。

背景与挑战

背景概述

paraphrase-dataset是由Lan Wuwei等研究人员于2017年发布的一个持续增长的句子复述数据集，旨在为自然语言处理领域提供丰富的复述资源。该数据集最初在2017年EMNLP会议上发布，包含了从Twitter等社交媒体平台收集的大量句子对，并通过Amazon Mechanical Turk进行人工标注。其核心研究问题在于如何通过大规模数据提升复述检测和生成的准确性，进而推动机器翻译、问答系统等相关领域的发展。该数据集因其规模和质量，已成为复述研究领域的重要基准之一，对自然语言处理的研究产生了深远影响。

当前挑战

paraphrase-dataset在构建和应用过程中面临多重挑战。首先，复述检测本身是一个复杂的任务，句子对之间的语义相似性难以通过简单的规则或模型准确捕捉，尤其是在面对多样化的语言表达时。其次，数据集的构建依赖于人工标注，尽管采用了多标注者机制以提高可靠性，但标注一致性问题仍然存在，尤其是在边缘案例（如n=3）的处理上。此外，数据来源的多样性和动态性也带来了挑战，社交媒体数据的噪声和时效性可能影响模型的泛化能力。最后，数据集的非商业使用限制可能限制了其在工业界的广泛应用。

常用场景

经典使用场景

在自然语言处理领域，paraphrase-dataset被广泛用于训练和评估文本复述模型。该数据集包含大量经过人工标注的句子对，这些句子对经过亚马逊Mechanical Turk工人的标注，确保了数据的可靠性。研究人员可以利用这些数据来训练模型，使其能够识别和生成语义相似的句子，从而提升机器翻译、文本摘要等任务的性能。

解决学术问题

paraphrase-dataset解决了自然语言处理中文本复述识别和生成的难题。通过提供大量经过标注的句子对，该数据集为研究人员提供了丰富的训练和测试资源，使得模型能够更好地理解句子的语义相似性。这不仅推动了复述检测技术的发展，还为机器翻译、问答系统等应用提供了坚实的基础。

实际应用

在实际应用中，paraphrase-dataset被广泛用于构建和优化智能对话系统、机器翻译引擎以及文本摘要工具。通过利用该数据集，开发者能够训练出更加精准的模型，从而提升系统的用户体验。例如，在智能客服系统中，复述识别技术可以帮助系统更好地理解用户的多样化表达，提供更加准确的回答。

数据集最近研究