humarin/chatgpt-paraphrases

Name: humarin/chatgpt-paraphrases
Creator: humarin
Published: 2023-04-05 16:27:16
License: 暂无描述

Hugging Face2023-04-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/humarin/chatgpt-paraphrases

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个由ChatGPT生成的释义数据集。数据集基于Quora释义问题、SQUAD 2.0和CNN新闻数据集，每个样本生成了5个释义，总共约有420k行数据。数据集的结构包括原始文本、释义列表、类别和来源。数据集的使用受到OpenAI的gpt-3.5-turbo使用条款的限制，禁止用于开发与OpenAI竞争的模型。

This is a paraphrase dataset generated by ChatGPT. It is based on the Quora Paraphrase Questions, SQuAD 2.0, and CNN News datasets. Five paraphrases were generated for each sample, resulting in a total of approximately 420,000 data rows. The dataset structure includes original text, paraphrase list, category, and source. The usage of this dataset is bound by the terms of service of OpenAI's gpt-3.5-turbo, and any use for developing models that compete with OpenAI is strictly prohibited.

提供机构：

humarin

原始信息汇总

数据集概述

基本信息

许可类型：openrail
任务类别：text2text-generation
语言：英语
数据集大小：100K<n<1M

数据集描述

创建目的：用于生成文本的同义句。
数据来源：基于Quora paraphrase问题、SQUAD 2.0和CNN新闻数据集。
数据处理：为每个样本生成5个同义句，总计约420k数据行。

数据集结构

text列：原始句子或问题。
paraphrases列：包含5个同义句的列表。
category列：标识数据为问题或句子。
source列：标识数据来源（quora、squad_2、cnn_news）。

数据集使用注意事项

使用此数据集训练模型时，不得与OpenAI竞争，因为数据基于OpenAI的gpt-3.5-turbo。

引用信息

bibtex @inproceedings{chatgpt_paraphrases_dataset, author={Vladimir Vorobev, Maxim Kuznetsov}, title={ChatGPT paraphrases dataset}, year={2023} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量的复述数据对于提升文本生成与理解模型的性能至关重要。本数据集通过整合Quora问答对、SQUAD 2.0以及CNN新闻数据集作为原始文本来源，利用ChatGPT模型（gpt-3.5-turbo）生成复述变体。具体构建过程中，针对每个原始样本，采用统一提示模板“生成5个相似复述”，以无注释的编号列表形式输出，最终形成约42万行数据，每行包含原始文本及其对应的5个复述版本，涵盖问题与句子两种类别，并标注了数据来源。

特点

本数据集的核心特点在于其规模与多样性，总计提供约1260万条训练对，覆盖问答与新闻等多种文本类型。数据条目清晰结构化，包含原始文本、复述列表、类别及来源字段，便于针对性训练与评估。复述内容由先进的大语言模型生成，确保了语言表达的流畅性与语义一致性，为复述生成、文本增强等任务提供了丰富资源。同时，数据来源公开可靠，增强了其在学术研究中的适用性。

使用方法

使用本数据集时，研究者可依据文本类别或来源进行筛选，以适配不同自然语言处理任务，如复述生成模型训练、文本多样性增强或语义相似度计算。数据中的复述列表可直接用于构建训练对，支持有监督或对比学习范式。需要注意的是，基于OpenAI使用条款，利用本数据集训练的模型应避免与OpenAI形成竞争关系。建议用户在学术或实验环境中合理使用，并引用提供的BibTeX条目以尊重作者贡献。

背景与挑战

背景概述

在自然语言处理领域，文本复述生成作为文本到文本转换的核心任务之一，对于提升机器翻译、问答系统及内容生成模型的鲁棒性与多样性具有关键意义。2023年，研究人员Vladimir Vorobev与Maxim Kuznetsov基于OpenAI的GPT-3.5-turbo模型，构建了名为'humarin/chatgpt-paraphrases'的大规模复述数据集。该数据集整合了Quora问答对、SQUAD 2.0阅读理解文本及CNN新闻语料，通过结构化提示生成每个原始文本的五种复述变体，共计约42万条数据，旨在为文本生成与语义相似性研究提供高质量、多样化的训练资源，推动了生成式模型在复述任务上的可扩展应用。

当前挑战

该数据集致力于解决文本复述生成中的语义一致性与表达多样性平衡问题，其核心挑战在于确保生成变体在保留原意的同时避免模式化表达。构建过程中，研究人员需克服多源数据整合带来的领域差异与噪声干扰，例如Quora的问题形式、SQUAD的上下文依赖及CNN的新闻文体均对生成一致性构成考验；同时，依赖大型语言模型自动生成复述，可能引入潜在偏见或错误，且受限于OpenAI的使用条款，模型应用范围面临合规性约束，限制了其在竞争性商业场景中的部署。

常用场景

经典使用场景

在自然语言处理领域，文本复述任务旨在生成语义一致但表达多样的句子，以增强模型的泛化能力。humarin/chatgpt-paraphrases数据集通过ChatGPT生成大规模复述对，为文本生成和语义相似性研究提供了高质量资源。该数据集广泛应用于训练和评估复述模型，尤其在基于Transformer的架构如T5中，能够有效提升模型对语言变体的理解和生成多样性，成为文本复述任务中的基准数据集之一。

解决学术问题

该数据集主要解决了文本复述研究中数据稀缺和质量不均的学术挑战。通过整合Quora、SQUAD 2.0和CNN新闻等多源文本，并利用ChatGPT生成高质量复述，它为语义保持和表达多样性提供了可靠基准。这不仅促进了复述生成模型的性能提升，还推动了语义相似性度量、数据增强及对抗样本检测等研究方向，对自然语言理解的深度发展具有显著意义。

衍生相关工作

基于该数据集，研究者开发了如humarin/chatgpt_paraphraser_on_T5_base等经典模型，这些工作进一步优化了复述生成的效率和准确性。衍生研究包括探索多语言复述扩展、低资源场景下的迁移学习，以及结合对抗训练提升模型鲁棒性。这些成果不仅丰富了文本复述领域的理论框架，还为后续的预训练和微调策略提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集