five

moss-003-sft-plugin-data|多轮对话数据集|插件增强数据集

收藏
github2024-07-16 更新2025-01-17 收录
多轮对话
插件增强
下载链接:
https://github.com/OpenMOSS/MOSS
下载链接
链接失效反馈
资源简介:
moss-moon-003-sft-plugin所使用的插件增强的多轮对话数据,包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约30万条多轮对话数据。已开源所有数据。
提供机构:
复旦大学
创建时间:
2024-07-16
原始信息汇总

MOSS 数据集概述

数据集简介

MOSS 是一个支持中英双语和多种插件的开源对话语言模型,具有160亿参数。该模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练,具备多轮对话能力及使用多种插件的能力。

数据集内容

模型

  • moss-moon-003-base: 基座模型,预训练语料包含约700B单词。
  • moss-moon-003-sft: 基座模型在约110万多轮对话数据上微调得到。
  • moss-moon-003-sft-plugin: 基座模型在约110万多轮对话数据和约30万插件增强的多轮对话数据上微调得到。
  • moss-moon-003-sft-int4: 4bit量化版本的moss-moon-003-sft模型。
  • moss-moon-003-sft-int8: 8bit量化版本的moss-moon-003-sft模型。
  • moss-moon-003-sft-plugin-int4: 4bit量化版本的moss-moon-003-sft-plugin模型。
  • moss-moon-003-sft-plugin-int8: 8bit量化版本的moss-moon-003-sft-plugin模型。
  • moss-moon-003-pm: 偏好模型,将在近期开源。
  • moss-moon-003: 最终模型,将在近期开源。
  • moss-moon-003-plugin: 插件增强的最终模型,将在近期开源。

数据

  • moss-002-sft-data: MOSS-002所使用的多轮对话数据,包含约57万条英文对话和59万条中文对话。
  • moss-003-sft-data: moss-moon-003-sft所使用的多轮对话数据,约含110万条对话数据。
  • moss-003-sft-plugin-data: moss-moon-003-sft-plugin所使用的插件增强的多轮对话数据,包含约30万条多轮对话数据。
  • moss-003-pm-data: 偏好数据,将在近期开源。

工程方案

  • MOSS Vortex: MOSS部署和推理方案。
  • MOSS WebSearchTool: MOSS搜索引擎插件部署方案。
  • MOSS Frontend: 基于flutter实现的MOSS-003前端界面。
  • MOSS Backend: 基于Go实现的MOSS-003后端。

数据集特点

  • 多语言支持: 支持中英双语。
  • 插件支持: 支持使用搜索引擎、文生图、计算器、解方程等插件。
  • 量化模型: 提供4bit和8bit量化版本,降低推理成本。

数据集局限性

  • 事实性错误: 可能生成包含事实性错误的误导性回复。
  • 有害内容: 可能生成包含偏见/歧视的有害内容。

数据集使用示例

  • 单卡部署: 适用于A100/A800显卡。
  • 多卡部署: 适用于两张或以上NVIDIA 3090显卡。
  • 模型量化: 在显存受限的场景下使用量化模型。
  • 插件增强: 使用插件版MOSS进行多轮对话。

数据集开源协议

  • 代码协议: Apache 2.0。
  • 数据协议: CC BY-NC 4.0。
  • 模型协议: GNU AGPL 3.0。

数据集未来计划

  • 模型开源: 计划开源moss-moon-003-pmmoss-moon-003moss-moon-003-plugin模型。
  • 数据开源: 计划开源moss-003-pm-data数据。
AI搜集汇总
数据集介绍
main_image_url
构建方式
moss-003-sft-plugin-data数据集构建于MOSS-002内测阶段采集的用户输入数据基础上,结合`gpt-3.5-turbo`模型生成的多轮对话数据,进一步扩展了插件增强的多轮对话内容。该数据集包含了约30万条支持搜索引擎、文生图、计算器、解方程等四种插件的多轮对话数据,旨在提升模型在复杂任务中的表现。
使用方法
使用moss-003-sft-plugin-data数据集时,研究人员可以通过加载数据集并调用相应的插件接口来模拟多轮对话场景。数据集的使用方法包括加载对话数据、调用插件接口并生成插件调用结果,最后将结果反馈给模型以生成完整的对话回复。通过这种方式,研究人员可以评估模型在复杂任务中的表现,并进一步优化模型的插件使用能力。
背景与挑战
背景概述
MOSS-003-SFT-Plugin-Data数据集由复旦大学自然语言处理实验室(OpenLMLab)开发,旨在支持多轮对话语言模型的插件增强学习。该数据集构建于2023年,主要基于MOSS-002内测阶段采集的用户输入数据,并结合GPT-3.5-turbo生成的多轮对话数据。数据集包含约30万条插件增强的多轮对话数据,涵盖搜索引擎、文生图、计算器、解方程等四种插件功能。该数据集的发布推动了对话模型在插件使用和意图理解能力上的进步,为多模态交互和任务导向型对话系统的研究提供了重要支持。
当前挑战
MOSS-003-SFT-Plugin-Data数据集在构建和应用中面临多重挑战。首先,插件增强的多轮对话数据需要精确标注插件调用指令和结果,这对数据质量和一致性提出了极高要求。其次,模型在生成插件调用指令时需具备强大的意图理解能力,以避免生成错误或冗余的指令。此外,数据集的多样性和覆盖范围仍需扩展,以应对更复杂的用户场景和插件功能。最后,如何在保证模型高效推理的同时,降低插件调用带来的计算开销,也是实际应用中的一大难题。
常用场景
经典使用场景
moss-003-sft-plugin-data数据集广泛应用于自然语言处理领域,特别是在多轮对话系统的开发与优化中。该数据集通过包含约30万条插件增强的多轮对话数据,支持搜索引擎、文生图、计算器、解方程等四种插件的使用,能够有效提升对话模型的意图理解能力和插件调用能力。研究人员可以利用该数据集进行模型微调,进一步提升对话系统的实用性和智能化水平。
解决学术问题
moss-003-sft-plugin-data数据集解决了多轮对话系统中插件调用与意图理解的难题。通过提供丰富的插件增强对话数据,该数据集帮助研究人员更好地训练模型,使其能够准确识别用户意图并调用相应的插件完成任务。这不仅提升了对话系统的功能性,还为多模态交互和复杂任务处理提供了新的研究方向,推动了自然语言处理领域的技术进步。
实际应用
在实际应用中,moss-003-sft-plugin-data数据集被广泛用于智能客服、虚拟助手和教育工具的开发。通过该数据集训练的模型能够处理复杂的用户请求,例如通过搜索引擎获取实时信息、使用计算器进行数学运算或生成图像。这些功能显著提升了用户体验,使得智能助手能够更好地满足用户的多样化需求,广泛应用于电商、教育、娱乐等多个行业。
数据集最近研究
最新研究方向
近年来,随着对话式人工智能的快速发展,MOSS数据集在自然语言处理领域的研究方向主要集中在多轮对话系统的优化与插件增强学习上。通过对约110万条多轮对话数据的微调,MOSS模型不仅提升了指令遵循能力,还增强了多轮对话的连贯性和实用性。特别是在插件增强学习方面,MOSS模型通过集成搜索引擎、文生图、计算器等插件,显著扩展了其功能边界,使其能够处理更加复杂的任务。此外,量化技术的引入进一步降低了模型的推理成本,使得MOSS能够在资源受限的环境中高效运行。这些研究方向的推进,不仅提升了MOSS模型的实际应用价值,也为未来对话式人工智能的发展提供了新的思路和技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

DAT

DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。

github 收录

NuminaMath-CoT

数据集包含约86万道数学题目,每道题目的解答都采用思维链(Chain of Thought, CoT)格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。

huggingface 收录