five

RyokoAI/ShareGPT52K

收藏
Hugging Face2023-04-02 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RyokoAI/ShareGPT52K
下载链接
链接失效反馈
官方服务:
资源简介:
ShareGPT 90K Conversations数据集是一个包含大约90,000个通过ShareGPT API抓取的对话的集合,这些对话包括用户提示和OpenAI的ChatGPT的响应。数据集主要用于文本生成任务,并包含多种语言,主要是英语和其他西方语言。数据集的创建目的是为研究社区提供一个大型的人类与AI对话数据集。数据集中可能包含个人敏感信息,但ChatGPT会警告用户不要提交此类信息。数据集的使用可能对社会产生影响,例如训练与ChatGPT竞争的模型。数据集的偏见反映了OpenAI的ChatGPT模型和上传对话的用户的偏见。
提供机构:
RyokoAI
原始信息汇总

数据集概述

数据集描述

数据集总结

  • 名称: ShareGPT 90K Conversations
  • 大小: 约90,000次对话
  • 内容: 包含用户提示和OpenAI ChatGPT的响应
  • 来源: 通过ShareGPT API收集

支持的任务

  • text-generation

语言

  • 主要包含英语和其他西方语言

数据集结构

数据实例

json { "id": "2wtLdZm", "conversations": [ { "from": "human", "value": "Are you familiar with the SAS programming language?" }, { "from": "gpt", "value": "<div class="markdown prose w-full break-words dark:prose-invert light"><p>Yes, I am familiar with the SAS programming language. SAS is a statistical software suite that is widely used in data analysis, data management, and business intelligence applications. It has its own programming language, which is used to manipulate and analyze data, generate reports, and automate data-driven workflows. The language is known for its ease of use and powerful capabilities, and it is commonly used in industries such as healthcare, finance, and government.</p></div>" }, { "from": "human", "value": "Can you write a SAS proc that imports a dataset from a CSV saved on my local machine?" } ] }

数据字段

  • id: 对话ID
  • conversations: 对话会话数组
    • from: 发送者("gpt" 或 "human")
    • value: 消息内容,格式为原始HTML

数据集创建

来源数据

  • 收集方式: 使用ShareGPT API
  • 语言生产者: ShareGPT用户和OpenAI ChatGPT

个人信息和敏感信息

  • 可能包含: 个人信息
  • 警告: ChatGPT已警告用户不要提交个人信息

使用数据注意事项

社会影响

  • 潜在用途: 训练与OpenAI ChatGPT竞争的模型
  • 建议: 使用前需过滤,可能包含预设响应、原始HTML等不理想信息

偏见讨论

  • 存在偏见: 包括OpenAI ChatGPT模型(GPT-3.5和GPT-4)的偏见以及上传对话的用户偏见

附加信息

许可证信息

  • 许可证: CC0-1.0(公共领域贡献声明)
  • 版权声明: 机器学习算法的输出在美国和其他司法管辖区不可版权化

贡献者

  • 来源: 据称由4chan上的匿名用户收集
  • 90K版本来源: 此帖子
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作