ar852/scraped-chatgpt-conversations

Name: ar852/scraped-chatgpt-conversations
Creator: ar852
Published: 2023-04-05 21:45:07
License: 暂无描述

Hugging Face2023-04-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ar852/scraped-chatgpt-conversations

下载链接

链接失效反馈

官方服务：

资源简介：

scraped-chatgpt-conversations数据集包含约10万条用户与ChatGPT的对话，这些对话是从Reddit、Twitter和ShareGPT上在线分享的内容中抓取的。对于ShareGPT，对话直接从网站抓取；对于Reddit和Twitter，对话通过下载图像、分割图像并通过OCR管道处理获得。数据集支持多语言，但部分文件仅包含英语。

提供机构：

ar852

原始信息汇总

数据集概述

数据集描述

数据集总结

名称: scraped-chatgpt-conversations
内容: 包含约100,000条用户与chatgpt之间的对话，这些对话来自Reddit、Twitter或ShareGPT平台。
数据来源:
- ShareGPT: 直接从网站上抓取对话。
- Reddit和Twitter: 下载提交的图片，进行分割并通过OCR处理以获取对话列表。
文件结构: 每个JSON文件的结构详见json_guides.md。

语言

多语言: Twitter 1, Twitter 2, 和ShareGPT的JSON文件。
英语: Reddit和Twitter 2的JSON文件。

数据集结构

详细结构参考json_guide.txt。

数据集创建

创建方法: 通过Twitter、Reddit和ShareGPT.com的API抓取图片，使用过滤器检查图片是否包含chatgpt对话，然后通过OCR处理获取对话文本。
源数据:
- Twitter.com
- Reddit.com
- Sharegpt.com

使用数据时的注意事项

由于多种原因，从Reddit和Twitter图片解析得到的字典可能存在解析错误。

许可证信息

[待补充]

贡献

[待补充]

5,000+

优质数据集

54 个

任务类型

进入经典数据集