ticoAg/moss-003-sft-data
收藏Hugging Face2023-08-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ticoAg/moss-003-sft-data
下载链接
链接失效反馈官方服务:
资源简介:
本数据集可用于中文多轮对话指令微调,包含110万中英文多轮对话数据。该数据集来自MOSS项目中的moss-003-sft-data数据集。在原数据集的基础上,我们去除了冗余信息,仅提取出有效的对话信息,并且调整数据格式,以便在训练中更加灵活地组织数据格式。数据格式从多轮对话转为包含指令、输入、输出和历史对话的JSON格式。
提供机构:
ticoAg
原始信息汇总
moss-003-sft-data 数据集概述
数据集描述
- 用途:适用于中文多轮对话指令微调。
- 数据量:包含110万中英文多轮对话数据。
- 来源:来自MOSS项目中的moss-003-sft-data数据集。
数据处理
- 处理内容:在原数据集的基础上,去除了冗余信息,仅提取出有效的对话信息。
- 数据格式调整:调整数据格式,以便在训练中更加灵活地组织数据格式。
数据格式示例
json [ { "instruction": "听起来很不错。人工智能可能在哪些方面面临挑战呢?", "input": "", "output": "人工智能面临的挑战包括数据隐私、安全和道德方面的问题,以及影响就业机会的自动化等问题。", "history": [ ["你好,你能帮我解答一个问题吗?", "当然,请问有什么问题?"], ["我想了解人工智能的未来发展方向,你有什么想法吗?", "人工智能在未来的发展方向可能包括更强大的机器学习算法,更先进的自然语言处理技术,以及更加智能的机器人。"] ] } ]
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



