HuggingFaceH4/ultrachat_200k|聊天机器人数据集|自然语言处理数据集

hugging_face2024-02-22 更新2024-03-04 收录

聊天机器人

自然语言处理

下载链接：

https://hf-mirror.com/datasets/HuggingFaceH4/ultrachat_200k

下载链接

链接失效反馈

资源简介：

UltraChat 200k数据集是从UltraChat数据集中经过严格筛选得到的，用于训练Zephyr-7B-β模型。处理过程包括数据子集选择、语法错误修正和删除不合适的对话内容。数据集分为四个部分，适用于监督微调和生成排名。每个部分的数据量和存储格式也进行了详细说明。

提供机构：

HuggingFaceH4

原始信息汇总

数据集概述

基本信息

名称: UltraChat 200k
语言: 英语
许可证: MIT
大小: 100K<n<1M
任务类型: 文本生成

数据集结构

配置:
- 默认配置
  - 训练数据: train_sft, train_gen
    - 路径: data/train_sft-*, data/train_gen-*
  - 测试数据: test_sft, test_gen
    - 路径: data/test_sft-*, data/test_gen-*
特征:
- prompt: 字符串类型
- prompt_id: 字符串类型
- messages: 列表类型
  - content: 字符串类型
  - role: 字符串类型
数据分割:
- train_sft: 207865个样本, 1397058554字节
- test_sft: 23110个样本, 154695659字节
- train_gen: 256032个样本, 1347396812字节
- test_gen: 28304个样本, 148276089字节
下载大小: 1624049723字节
数据集大小: 3047427114字节

使用场景

监督微调 (sft)
生成排名 (gen) 使用技术如拒绝采样或PPO

数据示例

json { "prompt": "...", "messages": [ { "content": "...", "role": "user" }, { "content": "...", "role": "assistant" } ], "prompt_id": "..." }

AI搜集汇总

数据集介绍

构建方式

UltraChat 200k数据集是对原始UltraChat数据集的深度筛选与优化，旨在为监督微调提供更快速、准确的数据基础。该数据集的构建过程包括对语料的子集选择，以加快微调速度；对数据执行Truecasing处理，以修正语法错误；并移除助手回复中包含无情感或无观点表述的对话，以提升模型在事实性提示下的表现。

特点

该数据集具有四个分割，分别适用于监督微调（sft）和生成排序（gen）等任务。存储格式为parquet，每条记录包含提示信息、消息列表（包括内容和角色）、以及提示ID。数据集涵盖207,865条训练微调数据、23,110条测试微调数据、256,032条训练生成数据以及28,304条测试生成数据，总计超过300万条数据实例，保证了模型的训练质量和多样性。

使用方法

用户可以通过HuggingFace的库直接加载该数据集，并根据不同的任务需求选择相应的数据分割。数据集以parquet格式存储，便于高效的数据处理和访问。用户在进行监督微调或生成排序任务时，可以根据具体的任务配置和数据集结构进行相应的预处理和模型训练。

背景与挑战

背景概述

UltraChat 200k数据集，源于对UltraChat原始数据集的深度筛选，旨在为Zephyr-7B-β这一先进的7b聊天模型提供训练资源。UltraChat 200k的构建，依托于ChatGPT产生的140万对话样本，覆盖了广泛的话题。该数据集的创建过程包括子集选择以加快监督微调、数据真值化以降低语法错误率、以及对包含特定回复的对话进行剔除。该数据集自推出以来，对聊天机器人模型训练领域产生了显著影响，被广泛应用于监督微调与生成排序任务中。

当前挑战

在数据集构建过程中，研究人员面临了多重挑战。首先，如何从庞大的原始数据集中筛选出高质量、适合微调的子集，确保数据既具有代表性又足够精确。其次，数据真值化的过程要求对语法错误进行细致的校对，这是一项费时且需高度注意力的任务。此外，对话数据中非期望回复的识别与移除，也要求复杂的数据处理策略。在研究领域中，如何有效利用该数据集进行模型训练，以及如何评估模型的生成质量，都是当前面临的挑战。

常用场景

经典使用场景

在自然语言处理领域，UltraChat 200k数据集的典型应用场景是用于训练和微调聊天机器人模型，以便生成更加自然、流畅的对话。该数据集提供了大量经过精心筛选和处理的对话示例，涵盖了广泛的话题，从而使得模型能够在多样化的语境中学习有效的交流策略。

解决学术问题

UltraChat 200k数据集解决了学术研究中如何提高聊天机器人响应质量和语境适应性的问题。通过使用该数据集，研究者能够训练出能够处理复杂对话情景的模型，进而提升机器人在实际交流中的表现，这对于自然语言理解和生成领域具有重要意义。

衍生相关工作

UltraChat 200k数据集衍生出的相关工作包括了对聊天机器人模型的性能评估、对话系统的优化策略研究以及对话生成中的伦理和隐私问题探讨等，推动了自然语言处理领域的研究进展和实践应用。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Materials Project 在线材料数据库

Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算，为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果，以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性，还涵盖了电子结构和热力学性质等详尽信息，为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。

超神经收录

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集，包含超过1.84亿条推文，覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档，可以完全重新构建，包括推文元数据且无缺失推文。数据集内容丰富，涵盖多种语言，主要用于情感分析和文本分类等任务。创建过程中，研究团队精心筛选了表情符号和表情，确保数据集的质量和多样性。该数据集的应用领域广泛，旨在解决社交媒体情感表达的长期变化问题，特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

CMU-MOSI Dataset

The Multimodal Corpus of Sentiment Intensity (CMU-MOSI) dataset is a collection of 2199 opinion video clips. Each opinion video is annotated with sentiment in the range [-3,3]. The dataset is rigorously annotated with labels for subjectivity, sentiment intensity, per-frame and per-opinion annotated visual features, and per-milliseconds annotated audio features.

paperswithcode.com 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录