botp/RyokoAI_ShareGPT52K

Name: botp/RyokoAI_ShareGPT52K
Creator: botp
Published: 2023-08-18 01:03:22
License: 暂无描述

Hugging Face2023-08-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/botp/RyokoAI_ShareGPT52K

下载链接

链接失效反馈

官方服务：

资源简介：

ShareGPT 90K Conversations数据集是一个包含约90,000条通过ShareGPT API收集的对话的集合，这些对话包括用户提示和OpenAI的ChatGPT的回复。数据集主要用于文本生成任务，支持多种语言，主要是英语和其他西方语言。数据集的创建目的是为研究社区提供大量真实的人机对话数据。数据集可能包含个人敏感信息，但预计数量较少。使用该数据集时需要注意过滤掉不理想的信息，如原始HTML和固定回复。

ShareGPT 90K Conversations dataset is a collection of approximately 90,000 dialogues collected via the ShareGPT API, which encompass user prompts and responses from OpenAI's ChatGPT. This dataset is primarily utilized for text generation tasks, supports multiple languages, with English and other Western languages as its dominant linguistic types. The core purpose of constructing this dataset is to provide the research community with a large-scale corpus of real human-machine dialogue data. It may contain personal sensitive information, yet the volume of such content is expected to be relatively small. When utilizing this dataset, precautions should be taken to filter out undesirable content such as raw HTML and canned responses.

提供机构：

botp

原始信息汇总

数据集卡片 for ShareGPT 90K 对话

数据集描述

数据集概述

这个数据集是从ShareGPT API关闭前收集的大约90,000个对话的集合。这些对话包括用户的提示和OpenAI的ChatGPT的响应。

支持的任务和排行榜

文本生成

语言

这个数据集主要包含英语和其他西方语言的消息。

数据集结构

数据实例

json { "id": "2wtLdZm", "conversations": [ { "from": "human", "value": "Are you familiar with the SAS programming language?" }, { "from": "gpt", "value": "<div class="markdown prose w-full break-words dark:prose-invert light"><p>Yes, I am familiar with the SAS programming language. SAS is a statistical software suite that is widely used in data analysis, data management, and business intelligence applications. It has its own programming language, which is used to manipulate and analyze data, generate reports, and automate data-driven workflows. The language is known for its ease of use and powerful capabilities, and it is commonly used in industries such as healthcare, finance, and government.</p></div>" }, { "from": "human", "value": "Can you write a SAS proc that imports a dataset from a CSV saved on my local machine?" } ] }

数据字段

id: 对话ID
conversations: 对话会话数组
- from: ChatGPT ("gpt") 或用户 ("human")
- value: 消息内容为原始HTML

数据集创建

数据集来源

初始数据收集和规范化

这些数据是通过ShareGPT API收集的。

源语言生产者

ShareGPT用户和OpenAI ChatGPT。

个人和敏感信息

这个数据集可能包含个人信息，如果ShareGPT用户向ChatGPT发送了此类信息。ChatGPT警告用户不要向其提交个人信息，因此我们相信这个数据集应该包含很少或没有个人信息。

使用数据的注意事项

数据集的社会影响

这个数据集可能用于训练与OpenAI的ChatGPT竞争的模型。请先过滤这个数据集，因为它可能包含罐头响应、原始HTML和其他不希望的信息。

讨论偏见

这个数据集展示了OpenAI的ChatGPT模型（GPT-3.5和GPT-4）以及上传对话的用户的所有偏见。

附加信息

数据集许可信息

CC0: 无版权保留。

机器学习算法的输出在美国和其他司法管辖区是不可版权的。此外，OpenAI的服务条款不适用于这个数据集，因为使用这个数据集的用户没有访问OpenAI服务。

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，大规模对话数据对于训练先进的生成模型至关重要。该数据集通过ShareGPT API在服务关闭前系统性地采集了约九万条真实对话记录，涵盖了用户与ChatGPT之间的互动内容。数据采集过程遵循自动化爬取原则，未经人工标注，保留了原始HTML格式的对话文本，确保了数据来源的真实性与多样性。

特点

作为对话生成研究的重要资源，该数据集的核心特点在于其规模庞大且内容覆盖广泛，涉及英语及其他西方语言的多轮对话。数据实例呈现了人类与AI之间的自然交互模式，同时不可避免地继承了ChatGPT模型本身的语言偏见及用户群体的表达习惯。值得注意的是，数据中可能包含未经过滤的HTML标签及预设回复，需在使用前进行清洗处理。

使用方法

在文本生成任务的应用中，该数据集适用于训练或微调对话系统模型。研究者可依据对话结构中的'human'与'gpt'标签区分角色，提取纯文本内容进行模型训练。鉴于数据可能包含敏感信息或噪声，建议在使用前实施严格的过滤与去重流程，并注意遵守CC0许可协议，确保研究过程的合规性与伦理性。

背景与挑战

背景概述

在人工智能对话系统迅猛发展的背景下，大规模、高质量的人类与AI交互数据成为推动模型训练与评估的关键资源。由Ronsor Labs于2023年整理的botp/RyokoAI_ShareGPT52K数据集，源自ShareGPT平台用户与OpenAI ChatGPT的实际对话记录，涵盖了约九万条多语言会话。该数据集的核心研究问题在于为文本生成任务，特别是对话模型的强化学习与人类反馈对齐（RLHF）提供真实世界的语料支持，对开源社区构建竞争性对话系统产生了显著影响，促进了模型在多样化语境下的泛化能力研究。

当前挑战

该数据集旨在应对对话生成领域中的模型对齐与真实性挑战，即如何使AI生成内容更贴合人类价值观与语境需求。然而，其构建过程面临多重困难：数据来源于匿名网络爬取，缺乏严格的伦理审查与用户知情同意，可能隐含个人隐私泄露风险；原始对话包含大量未处理的HTML标记与标准化响应，需额外清洗以提升数据质量；同时，数据集继承了ChatGPT模型固有的偏见以及用户群体的文化倾向，这为公平性与中立性评估带来复杂性。

常用场景

经典使用场景

在自然语言处理领域，对话数据集常被用于训练和评估生成式语言模型。该数据集汇集了约九万条真实用户与ChatGPT的交互记录，为研究者提供了丰富的多轮对话样本。这些数据能够模拟人类与AI的日常交流模式，成为开发对话系统时不可或缺的基准资源，尤其在微调预训练模型以提升其对话流畅性和上下文理解能力方面，展现出显著价值。

解决学术问题

该数据集有效应对了对话生成研究中高质量、大规模训练数据稀缺的挑战。通过提供真实场景下的用户-模型交互实例，它助力学者深入探究指令跟随、多轮对话一致性以及人类偏好对齐等关键问题。其存在促进了基于人类反馈的强化学习（RLHF）技术的演进，为构建更安全、可控的对话模型奠定了数据基础，推动了人机交互研究的实证化发展。

衍生相关工作

基于此类开源对话数据，研究社区已催生了一系列经典工作。例如，众多团队利用其进行大语言模型的指令微调，显著提升了模型在开放域对话中的表现。它也被广泛用于构建对话评估基准，以及训练奖励模型以优化RLHF流程。这些衍生研究不仅推动了Alpaca、Vicuna等知名开源模型的迭代，也深化了学术界对模型安全性与对齐技术的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集