allenai/tulu-v2-sft-mixture
收藏Hugging Face2024-05-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/allenai/tulu-v2-sft-mixture
下载链接
链接失效反馈官方服务:
资源简介:
Tulu V2 Mix数据集是一个混合了多个子集的数据集,主要用于训练语言模型以作为有用的助手。数据集包含来自FLAN、Open Assistant 1、ShareGPT、GPT4-Alpaca、Code-Alpaca、LIMA、WizardLM Evol Instruct、Open-Orca、Hardcoded和Science等子集的样本,总计326,154个训练样本。这些子集来自不同的开源项目,每个子集都有其特定的用途和许可证。数据集主要用于问答、对话和文本生成等NLP任务。数据集的许可证为ODC-BY,部分数据子集可能受到非商业使用的限制。
The Tulu V2 Mix dataset is a mixed multi-subset dataset primarily intended for training language models to serve as helpful assistants. It contains training samples from subsets including FLAN, Open Assistant 1, ShareGPT, GPT4-Alpaca, Code-Alpaca, LIMA, WizardLM Evol Instruct, Open-Orca, Hardcoded, and Science, with a total of 326,154 training samples. These subsets originate from various open-source projects, each with its own specific use case and license. The dataset is mainly used for NLP tasks such as question answering, conversation, and text generation. The dataset is licensed under ODC-BY, while some of its data subsets may be restricted to non-commercial use.
提供机构:
allenai
原始信息汇总
数据集概述
数据集名称
- Tulu V2 Mix
数据集特征
- dataset: 数据集名称,数据类型为字符串。
- id: 样本ID,数据类型为字符串。
- messages: 消息列表,包含以下子特征:
- role: 角色,数据类型为字符串。
- content: 内容,数据类型为字符串。
数据集划分
- train: 训练集,包含326,154个样本,总大小为1,239,293,363字节。
数据集大小
- 下载大小: 554,561,769字节
- 数据集总大小: 1,239,293,363字节
许可协议
- ODC-BY
任务类别
- 问答
- 对话
- 文本生成
语言
- 英语
大小类别
- 100K<n<1M
数据集组成
- FLAN: 使用50,000个样本,其中50,000个来自CoT子集。
- Open Assistant 1: 使用7,708个样本。
- ShareGPT: 使用114,046个样本。
- GPT4-Alpaca: 使用20,000个样本。
- Code-Alpaca: 使用20,022个样本。
- LIMA: 使用1,030个样本。
- WizardLM Evol Instruct: 使用30,000个样本。
- Open-Orca: 使用30,000个样本。
- Hardcoded: 包含140个样本。
- Science: 包含7,544个样本。
数据集使用
- Tulu V2作为单一训练集提供。
搜集汇总
数据集介绍

构建方式
Tulu V2数据集的构建,采取了集成多个子数据集的方式,其中包括FLAN、Open Assistant 1、ShareGPT、GPT4-Alpaca、Code-Alpaca、LIMA、WizardLM Evol Instruct、Open-Orca等多个来源的数据。这些数据集经过精心筛选和混合,旨在训练出能够作为有益助手的语言模型,包含了多样化的对话和文本生成示例,以及硬编码的提示和科学文档理解任务的例子。整个数据集以单一的训练划分呈现,为模型的训练提供了丰富的语料库。
特点
该数据集的特点在于其多样性和综合性,不仅包含了不同来源和类型的数据,如对话、问题回答、事实核查、总结和信息提取等,而且还涵盖了从公开可用的数据到合成和人工数据等多种形式。此外,数据集遵循ODC-BY许可,部分数据具有非商业用途的限制。数据集的长度分布广泛,为模型训练提供了不同长度的文本样本。
使用方法
使用Tulu V2数据集时,用户需要遵守ODC-BY许可和Common Crawl的使用条款。在训练模型时,用户可以根据需要选择使用整个数据集或其子集。需要注意的是,数据集中存在一些空对话轮次,用户在训练模型时可以选择性地过滤这些样本,以保证模型的性能和可重复性。数据集的多样性和丰富性使其适用于多种自然语言处理任务的模型训练。
背景与挑战
背景概述
Tulu V2数据集,作为语言模型训练的重要资源,其创建旨在发展能够提供助人为乐服务的语言模型。该数据集成立于近期,由Allen AI团队主导开发,融合了多个子数据集,包括FLAN、Open Assistant 1、ShareGPT等,涵盖了从科学文档理解到日常对话的多种任务类型。Tulu V2数据集的构建,不仅丰富了语言模型训练的数据多样性,也为研究者在question-answering、conversational、text-generation等任务类别上提供了宝贵的研究资源,对推动自然语言处理领域的发展具有重要意义。
当前挑战
尽管Tulu V2数据集在构建上具有创新性,但在实际应用中仍面临一些挑战。首先,数据集混合了不同来源和许可的子数据集,这要求使用者在遵守ODC-BY等不同许可规定的同时,还需注意子数据集的版权问题。其次,数据集中存在一些样本质量问题,如空对话轮次,这可能会影响模型训练的效果。此外,科学数据部分存在的索引错误虽对性能影响较小,但依然需要在未来版本中进行修正。这些挑战要求研究者在使用该数据集时,必须仔细处理数据清洗和合规性问题。
常用场景
经典使用场景
在自然语言处理领域,Tulu V2数据集的混合特性使其成为训练多技能语言模型的重要资源。该数据集的典型应用场景包括构建能够进行问题回答、对话生成以及文本生成的智能助手。通过结合来自不同来源的数据,Tulu V2能够帮助模型学习到多样化的语言表达和复杂的推理能力,进而提升模型在多种任务上的表现。
实际应用
在实际应用中,Tulu V2数据集为开发智能对话系统和自动化问答系统提供了强有力的数据支持。其多样化的数据来源使得模型能够在多种场景下表现出色,如在线客服、教育辅助、科研查询等,极大地提升了用户体验和服务效率。
衍生相关工作
基于Tulu V2数据集,研究者们已经开展了一系列相关工作,包括但不限于对数据集进行深入分析、开发新的训练策略以及构建更加高效的语言模型。这些衍生工作进一步推动了自然语言处理领域的发展,并促进了语言模型的商业化应用。
以上内容由遇见数据集搜集并总结生成



