five

Aratako/Synthetic-JP-EN-Coding-Dataset-Magpie-69k

收藏
Hugging Face2024-07-11 更新2024-07-13 收录
下载链接:
https://hf-mirror.com/datasets/Aratako/Synthetic-JP-EN-Coding-Dataset-Magpie-69k
下载链接
链接失效反馈
官方服务:
资源简介:
Synthetic-JP-EN-Coding-Dataset-Magpie-69k是一个包含约69000条日语和英语编码对话的数据集,通过应用Magpie方法到多个模型上生成。创建过程中使用了nvidia/Nemotron-4-340B-Instruct、microsoft/Phi-3-medium-4k-instruct、mistralai/Mixtral-8x22B-Instruct-v0.1和cyberagent/calm3-22b-chat等模型。数据集创建过程中没有进行事后过滤,因此可能包含质量较低的记录。

Synthetic-JP-EN-Coding-Dataset-Magpie-69k is a dataset containing approximately 69,000 Japanese and English coding dialogues, generated by applying the Magpie method to multiple models. The models used in the creation process include nvidia/Nemotron-4-340B-Instruct, microsoft/Phi-3-medium-4k-instruct, mistralai/Mixtral-8x22B-Instruct-v0.1, and cyberagent/calm3-22b-chat. No post-hoc filtering was applied during the dataset creation, so it may contain low-quality records.
提供机构:
Aratako
原始信息汇总

Synthetic-JP-EN-Coding-Dataset-Magpie-69k

概述

  • 数据集名称: Synthetic-JP-EN-Coding-Dataset-Magpie-69k
  • 数据集大小: 约69000条记录
  • 语言: 日语、英语
  • 任务类别: 文本生成
  • 标签: 代码
  • 许可证: Apache 2.0

数据集详情

  • 生成方法: 使用Magpie方法生成
  • 生成模型:
    • nvidia/Nemotron-4-340B-Instruct
    • microsoft/Phi-3-medium-4k-instruct
    • mistralai/Mixtral-8x22B-Instruct-v0.1
    • cyberagent/calm3-22b-chat
  • 生成平台: DeepInfra
  • 代码公开: 数据集生成代码公开于此仓库

注意事项

  • 数据集未经过事后过滤处理,可能包含质量较低的记录。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作