five

DeL-TaiseiOzaki/Tengentoppa-sft-v1.0

收藏
Hugging Face2024-12-10 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/DeL-TaiseiOzaki/Tengentoppa-sft-v1.0
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个大规模的日语指令数据集,整合了16个不同的日语指令数据集,用于监督学习。数据集格式为JSON,每个数据点包含instruction、input和output三个字段。数据集涵盖了多种任务和对话形式,数据来源多样。所有数据集都统一为相同的格式(instruction/input/output),如果原始数据中没有input字段,则处理为null。对话形式的数据将第一个用户消息作为instruction,后续消息作为input。使用该数据集时需要注意各源数据集的许可证、数据质量、可能的掩码处理以及对话数据转换时可能丢失的上下文信息。

This dataset is a large-scale supervised learning dataset created by integrating 16 Japanese instruction-following datasets. It consists of diverse data sources including various tasks and dialogue formats. The data format is unified to JSON, with each data point structured to include instruction, input, and output fields.
提供机构:
DeL-TaiseiOzaki
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作