ShareGPT90K

Hugging Face2023-04-01 更新2025-02-10 收录

下载链接：

https://huggingface.co/datasets/RyokoAI/ShareGPT52K

下载链接

链接失效反馈

资源简介：

ShareGPT90K数据集包含了来自ShareGPT的约9万段对话。该数据集主要以英语为主，反映了用户与模型之间的真实互动。

The ShareGPT90K dataset comprises approximately 90,000 dialogues sourced from ShareGPT. Predominantly in English, this dataset captures authentic real-world interactions between end-users and AI models.

提供机构：

RyokoAI

创建时间：

2023-04-01

原始信息汇总

Dataset Card for ShareGPT 90K

数据集描述

数据集名称: ShareGPT 90K Conversations
数据集大小: 约90,000次对话
语言: 英语和其他西方语言
许可证: CC0-1.0
任务类别: 文本生成
标签: 对话、RLHF、ChatGPT、GPT-3.5
数据规模: 10K < n < 100K

数据集结构

数据实例

json { "id": "2wtLdZm", "conversations": [ { "from": "human", "value": "Are you familiar with the SAS programming language?" }, { "from": "gpt", "value": "<div class="markdown prose w-full break-words dark:prose-invert light"><p>Yes, I am familiar with the SAS programming language. SAS is a statistical software suite that is widely used in data analysis, data management, and business intelligence applications. It has its own programming language, which is used to manipulate and analyze data, generate reports, and automate data-driven workflows. The language is known for its ease of use and powerful capabilities, and it is commonly used in industries such as healthcare, finance, and government.</p></div>" }, { "from": "human", "value": "Can you write a SAS proc that imports a dataset from a CSV saved on my local machine?" } ] }

数据字段

id: 对话ID
conversations: 对话会话数组
- from: ChatGPT ("gpt") 或用户 ("human")
- value: 消息内容（原始HTML）

数据拆分

N/A

数据集创建

策划动机

这是一个相当大的、真实的、人类与AI对话的数据集，相信对研究社区是有用的。

数据源

初始数据收集与规范化

这些数据是通过ShareGPT API收集的。

数据源语言生产者

ShareGPT用户和OpenAI ChatGPT。

注释

注释过程

N/A

注释者

N/A

个人和敏感信息

这个数据集可能包含个人信息，如果ShareGPT用户向ChatGPT发送了此类信息。然而，由于ChatGPT警告用户不要提交个人信息，因此我们相信这个数据集应该含有很少或没有个人数据。

使用数据的注意事项

数据的社会影响

这个数据集可能被用来训练与OpenAI的ChatGPT相竞争的模型。请先过滤这个数据集，因为它可能包含预设的回复、原始HTML和其他不需要的信息。

偏见讨论

这个数据集展示了OpenAI的ChatGPT模型（GPT-3.5和GPT-4）的所有偏见，以及上传对话的用户的偏见。

其他已知局限性

N/A

额外信息

数据策展人

N/A

许可信息

CC0: 无权利保留。

在美国和其他司法管辖区，机器学习算法的输出是无版权的。此外，OpenAI的服务条款不适用于这个数据集，因为使用这个数据集的用户不是在访问OpenAI服务。

引用信息

TODO

贡献

这些对话据称是由一个匿名用户在4chan上抓取的。

90K版本来源于这个帖子。感谢匿名用户！

搜集汇总

数据集介绍

构建方式

ShareGPT90K数据集的构建基于对ShareGPT API的抓取，该API在关闭前收集了大约90,000场对话。这些对话涵盖了用户发起的提示以及OpenAI的ChatGPT产生的回应。数据集的构建旨在为研究社区提供一份较大规模、贴近实际的人机对话数据。

使用方法

在使用该数据集时，用户需首先注意数据可能包含的预设回应、原始HTML以及其他不希望的信息，因此在使用前进行筛选是必要的。此外，由于数据集可能反映OpenAI ChatGPT模型以及上传对话用户的双重偏见，使用时应对此有所考量。数据集采用CC0协议，意味着用户可以自由使用和分享这些数据，不受版权限制。

背景与挑战

背景概述

ShareGPT 90K数据集是一个汇聚了约90,000场通过ShareGPT API抓取的对话的集合，这些对话涵盖了用户提示和OpenAI的ChatGPT生成的回应。该数据集的构建旨在为研究社区提供一份相当规模的实际人类与AI交流记录，其创建时间虽未明确记载，但可推测是在ShareGPT API停止服务之前。数据集的创建并非由特定机构或研究人员主导，而是由一个匿名用户在4chan论坛上共享。此数据集的诞生，体现了当前自然语言处理领域对于高质量对话数据的迫切需求，对于推动AI对话系统的研究与开发具有重要价值。

当前挑战

尽管ShareGPT 90K数据集为对话系统的训练提供了丰富的资源，但也面临着一系列挑战。首先，数据集可能包含个人隐私信息，尽管ChatGPT警告用户不要提交个人信息，但数据集的隐私安全性仍需进一步评估。其次，数据集可能反映了OpenAI的ChatGPT模型以及上传对话用户的各种偏见，这可能对模型的公平性和无偏见性带来影响。此外，数据集的来源和收集方式缺乏透明度，可能影响数据的可靠性和可用性。在使用该数据集时，还需考虑其可能的社会影响，例如，训练出的模型可能与OpenAI的ChatGPT形成竞争，因此在使用前需进行适当筛选和预处理。

常用场景

经典使用场景

在自然语言处理领域，ShareGPT 90K数据集因其庞大的会话样本而被广泛应用于文本生成任务中，尤其是模拟人机对话。该数据集收集了通过ShareGPT API抓取的约90,000个会话，其中包含了用户提示和ChatGPT的响应，为研究者提供了一个丰富多样且贴近实际应用场景的对话数据源。

解决学术问题

ShareGPT 90K数据集解决了自然语言处理中对话系统训练数据不足的问题，有助于改进模型对复杂语境的理解和响应能力。同时，它也促进了对话生成模型中的偏差检测与校正，提高了模型输出的质量与可靠性。

实际应用

实际应用中，ShareGPT 90K数据集可用于训练和优化聊天机器人，提升其在实际对话中的表现，从而在客户服务、教育辅助和虚拟助手等领域发挥重要作用。

数据集最近研究