ar852/scraped-chatgpt-conversations
收藏Hugging Face2023-04-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ar852/scraped-chatgpt-conversations
下载链接
链接失效反馈官方服务:
资源简介:
scraped-chatgpt-conversations数据集包含约10万条用户与ChatGPT的对话,这些对话是从Reddit、Twitter和ShareGPT上在线分享的内容中抓取的。对于ShareGPT,对话直接从网站抓取;对于Reddit和Twitter,对话通过下载图像、分割图像并通过OCR管道处理获得。数据集支持多语言,但部分文件仅包含英语。
scraped-chatgpt-conversations数据集包含约10万条用户与ChatGPT的对话,这些对话是从Reddit、Twitter和ShareGPT上在线分享的内容中抓取的。对于ShareGPT,对话直接从网站抓取;对于Reddit和Twitter,对话通过下载图像、分割图像并通过OCR管道处理获得。数据集支持多语言,但部分文件仅包含英语。
提供机构:
ar852
原始信息汇总
数据集概述
数据集描述
数据集总结
- 名称: scraped-chatgpt-conversations
- 内容: 包含约100,000条用户与chatgpt之间的对话,这些对话来自Reddit、Twitter或ShareGPT平台。
- 数据来源:
- ShareGPT: 直接从网站上抓取对话。
- Reddit和Twitter: 下载提交的图片,进行分割并通过OCR处理以获取对话列表。
- 文件结构: 每个JSON文件的结构详见
json_guides.md。
语言
- 多语言: Twitter 1, Twitter 2, 和ShareGPT的JSON文件。
- 英语: Reddit和Twitter 2的JSON文件。
数据集结构
- 详细结构参考
json_guide.txt。
数据集创建
- 创建方法: 通过Twitter、Reddit和ShareGPT.com的API抓取图片,使用过滤器检查图片是否包含chatgpt对话,然后通过OCR处理获取对话文本。
- 源数据:
- Twitter.com
- Reddit.com
- Sharegpt.com
使用数据时的注意事项
- 由于多种原因,从Reddit和Twitter图片解析得到的字典可能存在解析错误。
许可证信息
- [待补充]
贡献
- [待补充]



