five

stingning/ultrachat

收藏
Hugging Face2024-02-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stingning/ultrachat
下载链接
链接失效反馈
官方服务:
资源简介:
UltraChat是一个开源的、大规模的、多轮对话数据集,使用了Turbo API生成数据。为了保护隐私,没有直接使用互联网上的数据作为提示。生成对话时,使用了两个独立的ChatGPT Turbo API,一个模拟用户生成查询,另一个生成响应。生成的对话经过后处理和过滤。数据集包含三个部分:关于世界的问题、写作与创作、对现有材料的辅助。

UltraChat is an open-source, large-scale multi-turn dialogue dataset generated using the Turbo API. To protect privacy, no data from the public internet was directly used as prompts. During dialogue generation, two independent ChatGPT Turbo APIs were employed: one simulates users to generate queries, while the other generates responses. The generated dialogues undergo post-processing and filtering. The dataset consists of three components: questions about the world, writing and creation, and assistance with existing materials.
提供机构:
stingning
原始信息汇总

数据集概述

数据集描述

UltraChat是一个开源的大规模多轮对话数据集,由Turbo APIs驱动。该数据集不直接使用互联网上的数据作为提示,以保护隐私。数据生成过程中,采用两个ChatGPT Turbo APIs,一个模拟用户生成查询,另一个生成响应,并通过精心设计的提示来模拟人类用户行为。生成的对话经过进一步的后处理和过滤。

UltraChat包含三个主要部分:

  • Questions about the World: 涉及广泛的世界相关问题,涵盖科技、艺术、创业等多个领域。
  • Writing and Creation: 包括从零开始的写作和创作需求,如邮件撰写、叙事和剧本创作等。
  • Assistance on Existent Materials: 基于现有材料生成,包括重写、续写、总结和推理等。

数据集结构

数据集中的每一行是一个JSON字典,包含数据ID和对话数据列表。每个对话数据列表包含多个对话轮次。

许可证

数据集遵循MIT许可证。

引用信息

bibtex @article{ding2023enhancing, title={Enhancing Chat Language Models by Scaling High-quality Instructional Conversations}, author={Ding, Ning and Chen, Yulin and Xu, Bokai and Qin, Yujia and Zheng, Zhi and Hu, Shengding and Liu, Zhiyuan and Sun, Maosong and Zhou, Bowen}, journal={arXiv preprint arXiv:2305.14233}, year={2023} }

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
UltraChat是一个大规模、开源的英文多轮对话数据集,由OpenBMB通过两个ChatGPT Turbo API迭代生成,旨在模拟高质量人类对话行为。数据集包含约94.9万行JSON格式数据,涵盖世界问题、写作创作和现有材料辅助三大主题,广泛用于训练和微调文本生成模型,如聊天语言模型的增强。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作