betteruncensored/ultrachat
收藏Hugging Face2024-03-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/betteruncensored/ultrachat
下载链接
链接失效反馈官方服务:
资源简介:
UltraChat是一个开源的大规模多轮对话数据集,通过Turbo API生成。考虑到隐私保护等因素,未直接使用互联网上的数据作为提示。为确保生成质量,采用了两个独立的ChatGPT Turbo API,一个生成查询,另一个生成响应。数据集分为三个部分:关于世界的问题、写作与创作、以及对现有材料的辅助。每个数据条目都是一个包含对话数据的JSON字典。
UltraChat是一个开源的大规模多轮对话数据集,通过Turbo API生成。考虑到隐私保护等因素,未直接使用互联网上的数据作为提示。为确保生成质量,采用了两个独立的ChatGPT Turbo API,一个生成查询,另一个生成响应。数据集分为三个部分:关于世界的问题、写作与创作、以及对现有材料的辅助。每个数据条目都是一个包含对话数据的JSON字典。
提供机构:
betteruncensored
原始信息汇总
数据集概述
基本信息
- 许可证: MIT
- 任务类别:
- 文本生成
- 其他
- 语言: 英语
- 数据集大小: 1M<n<10M
- 美观名称: UltraChat Better Uncensored
数据集描述
- 处理流程: UltraChat数据集经过Better Uncensored处理,约40%样本在处理过程中被移除。
- 数据来源: 数据集不直接使用互联网上的任何数据作为提示,以保护隐私。
- 生成方法: 使用两个独立的ChatGPT Turbo API进行对话生成,一个模拟用户生成查询,另一个生成响应。
- 数据集构成:
- 世界问题: 涵盖广泛的主题,如科技、艺术、创业等。
- 写作与创作: 包括从电子邮件撰写到叙事和剧本创作等任务。
- 现有材料协助: 基于现有材料,包括重写、续写、总结和推理等。
数据集结构
- 文件格式: 每个下载的数据文件中的每一行是一个包含数据ID和对话数据的JSON字典。
- 示例内容: 包含对话的多个回合,每个回合作为列表中的一个元素。
引用信息
bibtex @misc{UltraChat, author = {Ding, Ning and Chen, Yulin and Xu, Bokai and Hu, Shengding and Qin, Yujia and Liu, Zhiyuan and Sun, Maosong and Zhou, Bowen}, title = {UltraChat: A Large-scale Auto-generated Multi-round Dialogue Data}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/thunlp/ultrachat}}, }



