moss-003-sft-plugin-data|多轮对话数据集|插件增强数据集
收藏MOSS 数据集概述
数据集简介
MOSS 是一个支持中英双语和多种插件的开源对话语言模型,具有160亿参数。该模型在约七千亿中英文以及代码单词上预训练得到,后续经过对话指令微调、插件增强学习和人类偏好训练,具备多轮对话能力及使用多种插件的能力。
数据集内容
模型
- moss-moon-003-base: 基座模型,预训练语料包含约700B单词。
- moss-moon-003-sft: 基座模型在约110万多轮对话数据上微调得到。
- moss-moon-003-sft-plugin: 基座模型在约110万多轮对话数据和约30万插件增强的多轮对话数据上微调得到。
- moss-moon-003-sft-int4: 4bit量化版本的
moss-moon-003-sft
模型。 - moss-moon-003-sft-int8: 8bit量化版本的
moss-moon-003-sft
模型。 - moss-moon-003-sft-plugin-int4: 4bit量化版本的
moss-moon-003-sft-plugin
模型。 - moss-moon-003-sft-plugin-int8: 8bit量化版本的
moss-moon-003-sft-plugin
模型。 - moss-moon-003-pm: 偏好模型,将在近期开源。
- moss-moon-003: 最终模型,将在近期开源。
- moss-moon-003-plugin: 插件增强的最终模型,将在近期开源。
数据
- moss-002-sft-data: MOSS-002所使用的多轮对话数据,包含约57万条英文对话和59万条中文对话。
- moss-003-sft-data:
moss-moon-003-sft
所使用的多轮对话数据,约含110万条对话数据。 - moss-003-sft-plugin-data:
moss-moon-003-sft-plugin
所使用的插件增强的多轮对话数据,包含约30万条多轮对话数据。 - moss-003-pm-data: 偏好数据,将在近期开源。
工程方案
- MOSS Vortex: MOSS部署和推理方案。
- MOSS WebSearchTool: MOSS搜索引擎插件部署方案。
- MOSS Frontend: 基于flutter实现的MOSS-003前端界面。
- MOSS Backend: 基于Go实现的MOSS-003后端。
数据集特点
- 多语言支持: 支持中英双语。
- 插件支持: 支持使用搜索引擎、文生图、计算器、解方程等插件。
- 量化模型: 提供4bit和8bit量化版本,降低推理成本。
数据集局限性
- 事实性错误: 可能生成包含事实性错误的误导性回复。
- 有害内容: 可能生成包含偏见/歧视的有害内容。
数据集使用示例
- 单卡部署: 适用于A100/A800显卡。
- 多卡部署: 适用于两张或以上NVIDIA 3090显卡。
- 模型量化: 在显存受限的场景下使用量化模型。
- 插件增强: 使用插件版MOSS进行多轮对话。
数据集开源协议
- 代码协议: Apache 2.0。
- 数据协议: CC BY-NC 4.0。
- 模型协议: GNU AGPL 3.0。
数据集未来计划
- 模型开源: 计划开源
moss-moon-003-pm
、moss-moon-003
和moss-moon-003-plugin
模型。 - 数据开源: 计划开源
moss-003-pm-data
数据。

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
UniProt
UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。
www.uniprot.org 收录
DAT
DAT是一个统一的跨场景跨领域基准,用于开放世界无人机主动跟踪。它提供了24个视觉复杂的场景,以评估算法的跨场景和跨领域泛化能力,并具有高保真度的现实机器人动力学建模。
github 收录
NuminaMath-CoT
数据集包含约86万道数学题目,每道题目的解答都采用思维链(Chain of Thought, CoT)格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。
huggingface 收录