five

betteruncensored/ultrachat

收藏
Hugging Face2024-03-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/betteruncensored/ultrachat
下载链接
链接失效反馈
官方服务:
资源简介:
UltraChat是一个开源的大规模多轮对话数据集,通过Turbo API生成。考虑到隐私保护等因素,未直接使用互联网上的数据作为提示。为确保生成质量,采用了两个独立的ChatGPT Turbo API,一个生成查询,另一个生成响应。数据集分为三个部分:关于世界的问题、写作与创作、以及对现有材料的辅助。每个数据条目都是一个包含对话数据的JSON字典。

UltraChat是一个开源的大规模多轮对话数据集,通过Turbo API生成。考虑到隐私保护等因素,未直接使用互联网上的数据作为提示。为确保生成质量,采用了两个独立的ChatGPT Turbo API,一个生成查询,另一个生成响应。数据集分为三个部分:关于世界的问题、写作与创作、以及对现有材料的辅助。每个数据条目都是一个包含对话数据的JSON字典。
提供机构:
betteruncensored
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 任务类别:
    • 文本生成
    • 其他
  • 语言: 英语
  • 数据集大小: 1M<n<10M
  • 美观名称: UltraChat Better Uncensored

数据集描述

  • 处理流程: UltraChat数据集经过Better Uncensored处理,约40%样本在处理过程中被移除。
  • 数据来源: 数据集不直接使用互联网上的任何数据作为提示,以保护隐私。
  • 生成方法: 使用两个独立的ChatGPT Turbo API进行对话生成,一个模拟用户生成查询,另一个生成响应。
  • 数据集构成:
    • 世界问题: 涵盖广泛的主题,如科技、艺术、创业等。
    • 写作与创作: 包括从电子邮件撰写到叙事和剧本创作等任务。
    • 现有材料协助: 基于现有材料,包括重写、续写、总结和推理等。

数据集结构

  • 文件格式: 每个下载的数据文件中的每一行是一个包含数据ID和对话数据的JSON字典。
  • 示例内容: 包含对话的多个回合,每个回合作为列表中的一个元素。

引用信息

bibtex @misc{UltraChat, author = {Ding, Ning and Chen, Yulin and Xu, Bokai and Hu, Shengding and Qin, Yujia and Liu, Zhiyuan and Sun, Maosong and Zhou, Bowen}, title = {UltraChat: A Large-scale Auto-generated Multi-round Dialogue Data}, year = {2023}, publisher = {GitHub}, journal = {GitHub repository}, howpublished = {url{https://github.com/thunlp/ultrachat}}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作