ShareGPT90K
收藏Dataset Card for ShareGPT 90K
数据集描述
- 数据集名称: ShareGPT 90K Conversations
- 数据集大小: 约90,000次对话
- 语言: 英语和其他西方语言
- 许可证: CC0-1.0
- 任务类别: 文本生成
- 标签: 对话、RLHF、ChatGPT、GPT-3.5
- 数据规模: 10K < n < 100K
数据集结构
数据实例
json { "id": "2wtLdZm", "conversations": [ { "from": "human", "value": "Are you familiar with the SAS programming language?" }, { "from": "gpt", "value": "<div class="markdown prose w-full break-words dark:prose-invert light"><p>Yes, I am familiar with the SAS programming language. SAS is a statistical software suite that is widely used in data analysis, data management, and business intelligence applications. It has its own programming language, which is used to manipulate and analyze data, generate reports, and automate data-driven workflows. The language is known for its ease of use and powerful capabilities, and it is commonly used in industries such as healthcare, finance, and government.</p></div>" }, { "from": "human", "value": "Can you write a SAS proc that imports a dataset from a CSV saved on my local machine?" } ] }
数据字段
- id: 对话ID
- conversations: 对话会话数组
- from: ChatGPT ("gpt") 或用户 ("human")
- value: 消息内容(原始HTML)
数据拆分
N/A
数据集创建
策划动机
这是一个相当大的、真实的、人类与AI对话的数据集,相信对研究社区是有用的。
数据源
初始数据收集与规范化
这些数据是通过ShareGPT API收集的。
数据源语言生产者
ShareGPT用户和OpenAI ChatGPT。
注释
注释过程
N/A
注释者
N/A
个人和敏感信息
这个数据集可能包含个人信息,如果ShareGPT用户向ChatGPT发送了此类信息。然而,由于ChatGPT警告用户不要提交个人信息,因此我们相信这个数据集应该含有很少或没有个人数据。
使用数据的注意事项
数据的社会影响
这个数据集可能被用来训练与OpenAI的ChatGPT相竞争的模型。请先过滤这个数据集,因为它可能包含预设的回复、原始HTML和其他不需要的信息。
偏见讨论
这个数据集展示了OpenAI的ChatGPT模型(GPT-3.5和GPT-4)的所有偏见,以及上传对话的用户的偏见。
其他已知局限性
N/A
额外信息
数据策展人
N/A
许可信息
CC0: 无权利保留。
在美国和其他司法管辖区,机器学习算法的输出是无版权的。此外,OpenAI的服务条款不适用于这个数据集,因为使用这个数据集的用户不是在访问OpenAI服务。
引用信息
TODO
贡献
这些对话据称是由一个匿名用户在4chan上抓取的。
90K版本来源于这个帖子。感谢匿名用户!




