five

Aratako/Synthetic-JP-Coding-Dataset-Magpie-Nemotron-4-10k

收藏
Hugging Face2024-07-06 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/Aratako/Synthetic-JP-Coding-Dataset-Magpie-Nemotron-4-10k
下载链接
链接失效反馈
官方服务:
资源简介:
Synthetic-JP-Coding-Dataset-Magpie-Nemotron-4-10k是一个包含约10000条日语编程对话的数据集,通过将Magpie的方法应用于nvidia/Nemotron-4-340B-Instruct模型生成。数据生成过程中使用了DeepInfra平台,并且相关的代码已在GitHub上公开。需要注意的是,数据集未经过滤处理,可能包含质量较低的记录。

A dataset of approximately 10,000 Japanese coding dialogue data created by applying the Magpie method to the nvidia/Nemotron-4-340B-Instruct model. The dataset was created using the DeepInfra platform, and the related code has been made public on GitHub. The dataset has not undergone post-filtering processing, so it may contain records of low quality.
提供机构:
Aratako
原始信息汇总

Synthetic-JP-Coding-Dataset-Magpie-Nemotron-4-10k

概述

  • 数据集名称: Synthetic-JP-Coding-Dataset-Magpie-Nemotron-4-10k
  • 数据集类型: 日本語のコーディング用対話データセット
  • 数据量: 約10000件
  • 语言: 日本語
  • 任务类别: 文本生成
  • 标签: code
  • 许可证: Apache 2.0
  • 数据集大小: 10K<n<100K

数据集来源

数据集特点

  • 未经过滤: 特に事後的なフィルタ処理は加えていないため、クオリティの低いレコードが含まれている可能性があります。

相关资源

  • 代码公开: このリポジトリでデータセット作成に用いたコードを公開しています。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作