five

wenbopan/Fusang-v1

收藏
Hugging Face2024-03-20 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/wenbopan/Fusang-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Fusang-V1是一个多样化的指令调优数据集,专注于提升双语和长上下文语言模型的能力。数据集包含超过120万条基础样本和14万条长样本,涵盖数学、代码、角色扮演、函数调用等多种任务。数据集支持中英双语,并包含专门用于长上下文建模的`long`部分,样本长度通常超过4K。`base`部分主要来源于OpenHermes-2.5及其中文翻译版本,以及其他增强双语和工具使用能力的数据集。`long`部分则包含高质量的长上下文数据集,平均标记长度约为18K。

Fusang-V1是一个多样化的指令调优数据集,专注于提升双语和长上下文语言模型的能力。数据集包含超过120万条基础样本和14万条长样本,涵盖数学、代码、角色扮演、函数调用等多种任务。数据集支持中英双语,并包含专门用于长上下文建模的`long`部分,样本长度通常超过4K。`base`部分主要来源于OpenHermes-2.5及其中文翻译版本,以及其他增强双语和工具使用能力的数据集。`long`部分则包含高质量的长上下文数据集,平均标记长度约为18K。
提供机构:
wenbopan
原始信息汇总

数据集概述

数据集名称: Fusang-V1

语言: 中文、英文

许可证: Apache-2.0

大小分类: 1M<n<10M

任务分类: 文本生成

数据集特征

基本特征

  • system_prompt: 字符串
  • id: 字符串
  • origin_idx: 无符号32位整数
  • name_str: 字符串
  • avatarUrl: 字符串
  • topic: 字符串
  • custom_instruction: 字符串
  • views: 32位整数
  • hash: 字符串列表
  • idx: 字符串
  • source: 字符串
  • conversations: 列表,包含:
    • from: 字符串
    • value: 字符串
    • weight: 8位整数
  • title: 字符串
  • category: 字符串
  • skip_prompt_formatting: 布尔值
  • model: 字符串
  • language: 字符串
  • total_input_tok_len: 32位整数
  • total_output_tok_len: 32位整数

数据集配置

  • base:
    • 训练集: 1197792个样本,2329677556字节
    • 下载大小: 1122940740字节
    • 数据集大小: 2329677556字节
  • default:
    • 下载大小: 2056593730字节
    • 数据集大小: 4247645405字节
  • long:
    • 训练集: 142954个样本,1918053558字节
    • 下载大小: 933750027字节
    • 数据集大小: 1918053558字节

数据集来源

Fusang-v1-base

Fusang-v1-long

引用信息

@misc{Fusang-V1, title = {Fusang-V1: A large curation of instruction-tuning datasets for better bilingual and long-range LLMs}, author = {Wenbo Pan}, year = {2024}, publisher = {HuggingFace}, url = {https://huggingface.co/datasets/wenbopan/Fusang-v1} }

搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,指令微调数据集对于提升大语言模型的多任务处理能力至关重要。Fusang-v1数据集的构建采用了精心的多源集成策略,其基础版本主要融合了OpenHermes-2.5及其部分中文翻译版本,并引入了RefGPT-Fact-v2以增强事实检索对话能力,以及glaive-function-calling-v2来提升模型的外部工具调用功能。针对长上下文建模需求,数据集专门设立了长文本版本,该版本汇集了多个高质量的长文本数据集,例如经过扩展的RefGPT-Fact-v2-8x、LongAlign-10k和LongAlpaca-12k,并辅以反干草堆测试样本,旨在全面覆盖不同长度和复杂度的语言理解场景。
特点
该数据集在指令微调领域展现出鲜明的特色,其核心优势在于卓越的双语支持与广泛的任务覆盖。数据集内中英文内容比例均衡,确保了模型在跨语言场景下的稳健表现。同时,它涵盖了数学推理、代码生成、角色扮演及函数调用等多样化任务,样本总量超过百万,为模型提供了丰富的学习素材。尤为突出的是,数据集专门设计了长上下文分割版本,其中样本的平均输入标记长度显著,旨在推动模型处理长达数万标记的序列,从而满足对长文档理解和信息定位的高级需求。
使用方法
为有效利用该数据集进行模型训练,研究者需根据具体目标选择相应的数据分割。对于通用的指令微调任务,建议使用基础版本,该版本样本量充足且任务类型全面,适用于提升模型的基础双语与多任务能力。若研究重点在于增强模型的长上下文处理性能,则应加载长文本分割版本,但在使用前需确认模型架构本身支持长序列输入,理想情况是具备32K或以上的上下文处理能力。数据集以标准化的对话列表格式组织,每条记录包含系统提示、多轮对话内容及丰富的元数据,便于直接集成到主流的大语言模型训练框架中。
背景与挑战
背景概述
在大型语言模型(LLM)指令微调领域,数据集的多样性与语言覆盖范围是提升模型性能的关键。Fusang-v1数据集由研究员Wenbo Pan于2024年构建并发布,其核心研究问题聚焦于增强模型的双语处理能力与长上下文理解。该数据集以OpenHermes-2.5为基础,通过整合多源高质量数据,旨在为中文与英文任务提供均衡的指令样本,覆盖数学、编程、角色扮演及函数调用等多种领域。Fusang-v1的推出,为开发具备更强泛化能力与长序列处理能力的双语模型提供了重要的数据支撑,推动了跨语言自然语言处理技术的发展。
当前挑战
Fusang-v1数据集致力于解决指令微调中模型双语适应性与长上下文建模的挑战。在领域问题层面,如何确保中英文数据在各类任务中的平衡分布,以及如何有效提升模型在超长文本中的信息定位与推理能力,是该数据集面临的核心难题。在构建过程中,挑战主要体现于多源数据的融合与质量控制,例如对RefGPT-Fact-v2等数据集的过滤与降采样以维持整体平衡,同时需处理长上下文数据的高复杂度与存储开销,确保数据格式的统一性与模型训练的可扩展性。
常用场景
经典使用场景
在大型语言模型指令微调的研究领域中,Fusang-v1数据集以其大规模、多任务覆盖和双语平衡的特性,成为训练具备通用对话与复杂任务处理能力模型的核心资源。该数据集通过整合数学推理、代码生成、角色扮演及函数调用等多种任务类型,为模型提供了丰富且结构化的学习样本,尤其适用于提升模型在中文与英文语境下的指令理解与生成质量。其经典应用场景在于作为基础训练数据,驱动模型在多样化、真实世界对话场景中实现精准、连贯的响应。
解决学术问题
Fusang-v1数据集有效应对了当前大语言模型研究中的若干关键挑战,特别是双语能力不均衡与长上下文建模不足的问题。通过精心平衡中英文样本比例,该数据集促进了模型在跨语言任务中的泛化性能,缓解了单一语言依赖导致的偏差。同时,其专门的长上下文分割(long split)为模型处理超长文本输入提供了训练支持,解决了传统模型在信息提取、文档理解等任务中因上下文长度限制而表现不佳的学术难题,推动了长序列建模技术的发展。
衍生相关工作
围绕Fusang-v1数据集,研究社区衍生了一系列经典工作,主要集中在双语模型优化与长上下文能力增强方向。例如,基于其双语平衡数据,后续研究提出了改进的跨语言对齐训练策略,提升了模型在低资源语言任务上的表现。在长上下文建模方面,该数据集与LongAlign、LongAlpaca等方法结合,催生了新型的位置编码与注意力机制优化方案。同时,其整合的RefGPT-Fact-v2与glaive-function-calling-v2等组件,也推动了工具调用与事实检索对话系统的专项研究,形成了多任务学习与领域自适应的重要基准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作