five

Aratako/Synthetic-JP-EN-Coding-Dataset-567k

收藏
Hugging Face2024-07-14 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/Aratako/Synthetic-JP-EN-Coding-Dataset-567k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个包含567,077条日英混合代码SFT用合成数据的数据集,其中日语数据173,849条,英语数据393,228条。数据集基于[Aratako/Synthetic-JP-EN-Coding-Dataset-Magpie-69k](https://huggingface.co/datasets/Aratako/Synthetic-JP-EN-Coding-Dataset-Magpie-69k),使用Evol-Instruct技术生成多个指令和响应进行扩展。创建原始指令的模型包括nvidia/Nemotron-4-340B-Instruct、microsoft/Phi-3-medium-4k-instruct、mistralai/Mixtral-8x22B-Instruct-v0.1和cyberagent/calm3-22b-chat。数据集创建过程中使用了DeepInfra平台,且未进行事后过滤处理,因此可能包含质量较低的记录。

This dataset is a synthetic dataset for code SFT containing 567,077 mixed Japanese and English entries, with 173,849 in Japanese and 393,228 in English. It is based on [Aratako/Synthetic-JP-EN-Coding-Dataset-Magpie-69k](https://huggingface.co/datasets/Aratako/Synthetic-JP-EN-Coding-Dataset-Magpie-69k) and expanded using Evol-Instruct techniques to generate multiple instructions and responses. The models used to create the original instructions include nvidia/Nemotron-4-340B-Instruct, microsoft/Phi-3-medium-4k-instruct, mistralai/Mixtral-8x22B-Instruct-v0.1, and cyberagent/calm3-22b-chat. The dataset was created using the DeepInfra platform and has not undergone post-creation filtering, so it may contain lower quality records.
提供机构:
Aratako
原始信息汇总

Synthetic-JP-EN-Coding-Dataset-567k

概述

  • 数据集名称: Synthetic-JP-EN-Coding-Dataset-567k
  • 数据集类型: 合成数据集
  • 数据集用途: 代码SFT(Supervised Fine-Tuning)
  • 数据集规模: 567,077条记录
  • 语言分布:
    • 日本語: 173,849条
    • 英語: 393,228条

数据生成

数据质量

  • 数据处理: 未进行事后过滤处理
  • 注意事项: 可能包含质量较低的记录

数据集来源

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作