five

TigerResearch/sft_en

收藏
Hugging Face2023-12-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/TigerResearch/sft_en
下载链接
链接失效反馈
资源简介:
--- license: apache-2.0 language: - en --- [Tigerbot](https://github.com/TigerResearch/TigerBot) 开源项目中微调英文sft-en数据合集 本合集涵盖本组织下开源的其他中文sft-英文-数据集,不需要重复下载 <p align="center" width="40%"> ## Usage ```python import datasets ds_sft = datasets.load_dataset('TigerResearch/sft_en') ``` ## 文件细分 | 类型 | 语言 | 数据集文件 | 数量 | | ------------ | ---- | -------------------------------------------------------------------------------------------------------------------------------- | ----------- | | alpaca 英文 | 英文 | [tigerbot-alpaca-en-50k](https://huggingface.co/datasets/TigerResearch/sft_en/blob/main/tigerbot-alpaca-en-50k.json) | 50k | | 头脑风暴 | 英文 | [tigerbot-dolly-Brainstorming-en-1.7k](https://huggingface.co/datasets/TigerResearch/sft_en/blob/main/tigerbot-dolly-Brainstorming-en-1.7k.json) | 1.7k | | 分类 | 英文 | [tigerbot-dolly-Classification-en-2k](https://huggingface.co/datasets/TigerResearch/sft_en/blob/main/tigerbot-dolly-Classification-en-2k.json) | 2k | | 代码 | 英文 | [tigerbot-kaggle-leetcodesolutions-en-2k](https://huggingface.co/datasets/TigerResearch/sft_en/blob/main/tigerbot-kaggle-leetcodesolutions-en-2k.json) | 2k | | 食谱生成 | 英文 | [tigerbot-kaggle-recipes-en-2k](https://huggingface.co/datasets/TigerResearch/sft_en/blob/main/tigerbot-kaggle-recipes-en-2k.json) | 2k | | 病历生成 | 英文 | [tigerbot-mt-note-generation-en](https://huggingface.co/datasets/TigerResearch/sft_en/blob/main/tigerbot-mt-note-generation-en.json) | 450 | | 多轮对话 | 英文 | [tigerbot-OIG-multichat-en-50k](https://huggingface.co/datasets/TigerResearch/sft_en/blob/main/tigerbot-OIG-multichat-en-50k.json) | 50k | | 综合问答 | 英文 | [tigerbot-stackexchange-qa-en-0.5m](https://huggingface.co/datasets/TigerResearch/sft_en/blob/main/tigerbot-stackexchange-qa-en-0.5m.json) | 0.5m | | wiki 问答 | 英文 | [tigerbot-wiki-qa-bart-en-10k](https://huggingface.co/datasets/TigerResearch/sft_en/blob/main/tigerbot-wiki-qa-bart-en-10k.json) | 10k | | 如何做类教程 | 英文 | [tigerbot-youtube-howto-en-50k](https://huggingface.co/datasets/TigerResearch/sft_en/blob/main/tigerbot-youtube-howto-en-50k.json) | 50k |
提供机构:
TigerResearch
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 语言: 英文

数据集内容

  • 来源: 来自Tigerbot开源项目,专为英文sft-en数据集微调。

数据集细分

类型 语言 数据集文件 数量
alpaca 英文 英文 tigerbot-alpaca-en-50k 50k
头脑风暴 英文 tigerbot-dolly-Brainstorming-en-1.7k 1.7k
分类 英文 tigerbot-dolly-Classification-en-2k 2k
代码 英文 tigerbot-kaggle-leetcodesolutions-en-2k 2k
食谱生成 英文 tigerbot-kaggle-recipes-en-2k 2k
病历生成 英文 tigerbot-mt-note-generation-en 450
多轮对话 英文 tigerbot-OIG-multichat-en-50k 50k
综合问答 英文 tigerbot-stackexchange-qa-en-0.5m 0.5m
wiki 问答 英文 tigerbot-wiki-qa-bart-en-10k 10k
如何做类教程 英文 tigerbot-youtube-howto-en-50k 50k
搜集汇总
数据集介绍
构建方式
在自然语言处理领域,高质量指令微调数据对于提升模型性能至关重要。TigerResearch/sft_en数据集通过系统整合多个开源英文数据集构建而成,其构建过程体现了模块化与专业化的设计理念。该数据集汇集了来自Alpaca、Dolly、Stack Exchange等知名数据源的子集,涵盖头脑风暴、分类任务、代码生成、食谱与病历撰写、多轮对话及综合问答等多样化场景。每个子集均经过独立筛选与格式化处理,确保数据的一致性与可用性,最终形成一个统一且便于访问的英文指令微调数据合集,为研究者提供了全面而结构化的训练资源。
特点
该数据集的核心特征在于其广泛的主题覆盖与精细的任务划分,充分展现了其在指令微调任务中的实用价值。数据集包含超过五十万条英文样本,内容横跨开放问答、技术讨论、生活指南及专业生成等多个维度,如代码解决方案、医疗记录和教程类文本。各子集均标注明确的任务类型与语言标识,支持针对特定领域或技能进行定向训练。这种多源异构数据的有机整合,不仅丰富了训练样本的多样性,也为探索模型在不同语境下的泛化能力提供了扎实的数据基础。
使用方法
为便利研究社区的使用,该数据集已集成于Hugging Face生态系统,可通过标准接口直接加载。用户仅需调用datasets库中的load_dataset函数,指定'TigerResearch/sft_en'作为参数,即可获取完整的微调数据。加载后的数据集可直接用于训练大型语言模型,尤其适用于监督式微调场景。研究者可根据任务需求,灵活选用特定子集或组合不同数据源,以优化模型在问答、对话或生成任务上的表现。这种即插即用的设计极大降低了数据预处理成本,加速了实验迭代与模型开发流程。
背景与挑战
背景概述
在人工智能领域,特别是大语言模型(LLM)的监督微调(SFT)阶段,高质量指令数据的构建是提升模型遵循人类指令能力的关键。TigerResearch/sft_en数据集由TigerBot研究团队于其开源项目中整合发布,旨在为英文大语言模型提供多领域、高质量的指令微调数据。该数据集汇集了来自Alpaca、Dolly、Stack Exchange等多个知名开源项目的子集,覆盖了头脑风暴、分类、代码生成、多轮对话等多样化任务,总计超过60万条数据。其核心研究问题在于如何通过精心构建的指令数据,有效引导模型理解并执行复杂的人类指令,从而推动开源社区在指令微调技术上的进步,对促进对话式AI的实用化发展具有显著影响力。
当前挑战
该数据集致力于解决大语言模型在指令遵循与泛化能力方面的核心挑战,即如何让模型精准理解多样化的用户指令,并生成准确、有用、无害的回应。具体挑战体现在任务类型的广泛性与复杂性上,例如代码生成需要严谨的逻辑,多轮对话需维持连贯的上下文,而开放域问答则要求庞大的知识储备。在构建过程中,团队面临多重挑战:首要挑战是数据的整合与去重,需将来自不同源头、格式各异的数据进行标准化清洗与合并,确保整体质量与一致性;其次是数据质量的把控,需过滤噪声、纠正错误,并保证指令与回答对的准确性与实用性;最后是任务覆盖的平衡性,需在有限规模内合理分配不同任务的数据比例,以避免模型在特定任务上过拟合,从而保障其泛化性能。
常用场景
经典使用场景
在自然语言处理领域,指令微调数据集是提升大型语言模型遵循人类指令能力的关键资源。TigerResearch/sft_en数据集作为英文指令微调数据的集合,其经典使用场景在于为各类语言模型提供高质量的监督微调训练样本。通过整合Alpaca格式的指令数据、多轮对话记录以及涵盖代码生成、分类任务、问答交互等多种类型的英文语料,该数据集能够系统性地训练模型理解并执行复杂的自然语言指令,从而优化模型在开放域对话和任务导向型交互中的表现。
解决学术问题
该数据集有效应对了指令微调研究中高质量、多样化训练数据稀缺的挑战。它通过汇集大规模、多来源的英文指令数据,为学术界提供了研究模型指令遵循能力、泛化性能以及多任务学习机制的标准化基准。其意义在于促进了指令微调技术的可复现性研究,帮助学者深入探索模型如何从人类反馈中学习,并为评估模型在零样本或少样本场景下的适应性提供了数据支撑,推动了对话式人工智能向更精准、更可靠的方向发展。
衍生相关工作
围绕此类指令微调数据,衍生出了一系列重要的研究工作。例如,基于Alpaca数据格式的改进与扩展催生了更多专注于指令数据质量评估与筛选的方法。同时,结合多轮对话数据的研究推动了对话状态跟踪与上下文一致性建模的进展。数据集中分类、代码生成等特定任务数据,也常被用于构建多任务学习框架或评估模型的领域迁移能力。这些工作共同构成了当前指令微调与对齐技术演进的重要基石,持续影响着开源大模型社区的开发范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作