five

ticoAg/moss-003-sft-data

收藏
Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ticoAg/moss-003-sft-data
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集可用于中文多轮对话指令微调,包含110万中英文多轮对话数据。该数据集来自MOSS项目中的moss-003-sft-data数据集。在原数据集的基础上,我们去除了冗余信息,仅提取出有效的对话信息,并且调整数据格式,以便在训练中更加灵活地组织数据格式。数据格式从多轮对话转为包含指令、输入、输出和历史对话的JSON格式。
提供机构:
ticoAg
原始信息汇总

moss-003-sft-data 数据集概述

数据集描述

  • 用途:适用于中文多轮对话指令微调。
  • 数据量:包含110万中英文多轮对话数据。
  • 来源:来自MOSS项目中的moss-003-sft-data数据集。

数据处理

  • 处理内容:在原数据集的基础上,去除了冗余信息,仅提取出有效的对话信息。
  • 数据格式调整:调整数据格式,以便在训练中更加灵活地组织数据格式。

数据格式示例

json [ { "instruction": "听起来很不错。人工智能可能在哪些方面面临挑战呢?", "input": "", "output": "人工智能面临的挑战包括数据隐私、安全和道德方面的问题,以及影响就业机会的自动化等问题。", "history": [ ["你好,你能帮我解答一个问题吗?", "当然,请问有什么问题?"], ["我想了解人工智能的未来发展方向,你有什么想法吗?", "人工智能在未来的发展方向可能包括更强大的机器学习算法,更先进的自然语言处理技术,以及更加智能的机器人。"] ] } ]

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作