five

ar852/scraped-chatgpt-conversations

收藏
Hugging Face2023-04-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ar852/scraped-chatgpt-conversations
下载链接
链接失效反馈
官方服务:
资源简介:
scraped-chatgpt-conversations数据集包含约10万条用户与ChatGPT的对话,这些对话是从Reddit、Twitter和ShareGPT上在线分享的内容中抓取的。对于ShareGPT,对话直接从网站抓取;对于Reddit和Twitter,对话通过下载图像、分割图像并通过OCR管道处理获得。数据集支持多语言,但部分文件仅包含英语。

scraped-chatgpt-conversations数据集包含约10万条用户与ChatGPT的对话,这些对话是从Reddit、Twitter和ShareGPT上在线分享的内容中抓取的。对于ShareGPT,对话直接从网站抓取;对于Reddit和Twitter,对话通过下载图像、分割图像并通过OCR管道处理获得。数据集支持多语言,但部分文件仅包含英语。
提供机构:
ar852
原始信息汇总

数据集概述

数据集描述

数据集总结

  • 名称: scraped-chatgpt-conversations
  • 内容: 包含约100,000条用户与chatgpt之间的对话,这些对话来自Reddit、Twitter或ShareGPT平台。
  • 数据来源:
    • ShareGPT: 直接从网站上抓取对话。
    • Reddit和Twitter: 下载提交的图片,进行分割并通过OCR处理以获取对话列表。
  • 文件结构: 每个JSON文件的结构详见json_guides.md

语言

  • 多语言: Twitter 1, Twitter 2, 和ShareGPT的JSON文件。
  • 英语: Reddit和Twitter 2的JSON文件。

数据集结构

  • 详细结构参考json_guide.txt

数据集创建

  • 创建方法: 通过Twitter、Reddit和ShareGPT.com的API抓取图片,使用过滤器检查图片是否包含chatgpt对话,然后通过OCR处理获取对话文本。
  • 源数据:
    • Twitter.com
    • Reddit.com
    • Sharegpt.com

使用数据时的注意事项

  • 由于多种原因,从Reddit和Twitter图片解析得到的字典可能存在解析错误。

许可证信息

  • [待补充]

贡献

  • [待补充]
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作