botp/RyokoAI_ShareGPT52K
收藏数据集卡片 for ShareGPT 90K 对话
数据集描述
数据集概述
这个数据集是从ShareGPT API关闭前收集的大约90,000个对话的集合。这些对话包括用户的提示和OpenAI的ChatGPT的响应。
支持的任务和排行榜
- 文本生成
语言
这个数据集主要包含英语和其他西方语言的消息。
数据集结构
数据实例
json { "id": "2wtLdZm", "conversations": [ { "from": "human", "value": "Are you familiar with the SAS programming language?" }, { "from": "gpt", "value": "<div class="markdown prose w-full break-words dark:prose-invert light"><p>Yes, I am familiar with the SAS programming language. SAS is a statistical software suite that is widely used in data analysis, data management, and business intelligence applications. It has its own programming language, which is used to manipulate and analyze data, generate reports, and automate data-driven workflows. The language is known for its ease of use and powerful capabilities, and it is commonly used in industries such as healthcare, finance, and government.</p></div>" }, { "from": "human", "value": "Can you write a SAS proc that imports a dataset from a CSV saved on my local machine?" } ] }
数据字段
- id: 对话ID
- conversations: 对话会话数组
- from: ChatGPT ("gpt") 或用户 ("human")
- value: 消息内容为原始HTML
数据集创建
数据集来源
初始数据收集和规范化
这些数据是通过ShareGPT API收集的。
源语言生产者
ShareGPT用户和OpenAI ChatGPT。
个人和敏感信息
这个数据集可能包含个人信息,如果ShareGPT用户向ChatGPT发送了此类信息。ChatGPT警告用户不要向其提交个人信息,因此我们相信这个数据集应该包含很少或没有个人信息。
使用数据的注意事项
数据集的社会影响
这个数据集可能用于训练与OpenAI的ChatGPT竞争的模型。请先过滤这个数据集,因为它可能包含罐头响应、原始HTML和其他不希望的信息。
讨论偏见
这个数据集展示了OpenAI的ChatGPT模型(GPT-3.5和GPT-4)以及上传对话的用户的所有偏见。
附加信息
数据集许可信息
CC0: 无版权保留。
机器学习算法的输出在美国和其他司法管辖区是不可版权的。此外,OpenAI的服务条款不适用于这个数据集,因为使用这个数据集的用户没有访问OpenAI服务。




