RyokoAI/ShareGPT52K
收藏数据集概述
数据集描述
数据集总结
- 名称: ShareGPT 90K Conversations
- 大小: 约90,000次对话
- 内容: 包含用户提示和OpenAI ChatGPT的响应
- 来源: 通过ShareGPT API收集
支持的任务
- text-generation
语言
- 主要包含英语和其他西方语言
数据集结构
数据实例
json { "id": "2wtLdZm", "conversations": [ { "from": "human", "value": "Are you familiar with the SAS programming language?" }, { "from": "gpt", "value": "<div class="markdown prose w-full break-words dark:prose-invert light"><p>Yes, I am familiar with the SAS programming language. SAS is a statistical software suite that is widely used in data analysis, data management, and business intelligence applications. It has its own programming language, which is used to manipulate and analyze data, generate reports, and automate data-driven workflows. The language is known for its ease of use and powerful capabilities, and it is commonly used in industries such as healthcare, finance, and government.</p></div>" }, { "from": "human", "value": "Can you write a SAS proc that imports a dataset from a CSV saved on my local machine?" } ] }
数据字段
- id: 对话ID
- conversations: 对话会话数组
- from: 发送者("gpt" 或 "human")
- value: 消息内容,格式为原始HTML
数据集创建
来源数据
- 收集方式: 使用ShareGPT API
- 语言生产者: ShareGPT用户和OpenAI ChatGPT
个人信息和敏感信息
- 可能包含: 个人信息
- 警告: ChatGPT已警告用户不要提交个人信息
使用数据注意事项
社会影响
- 潜在用途: 训练与OpenAI ChatGPT竞争的模型
- 建议: 使用前需过滤,可能包含预设响应、原始HTML等不理想信息
偏见讨论
- 存在偏见: 包括OpenAI ChatGPT模型(GPT-3.5和GPT-4)的偏见以及上传对话的用户偏见
附加信息
许可证信息
- 许可证: CC0-1.0(公共领域贡献声明)
- 版权声明: 机器学习算法的输出在美国和其他司法管辖区不可版权化
贡献者
- 来源: 据称由4chan上的匿名用户收集
- 90K版本来源: 此帖子




