five

chargoddard/coedit-reworded

收藏
Hugging Face2023-09-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chargoddard/coedit-reworded
下载链接
链接失效反馈
官方服务:
资源简介:
coedit-reworded数据集是Grammarly的coedit数据集,被解析为Alpaca风格的instruction、input和output行。原始的instruction值被替换为更多样化的程序生成的指令,包含23930个独特的instruction值,相比原来的144个。数据集的语言为英语,大小类别为10K<n<100K。
提供机构:
chargoddard
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • task: 字符串类型
    • id: 字符串类型
    • original_instruction: 字符串类型
    • instruction: 字符串类型
    • input: 字符串类型
    • output: 字符串类型
  • 分割:
    • train: 24317220 字节, 82466 样本
  • 下载大小: 12064503 字节
  • 数据集大小: 24317220 字节
  • 配置:
    • default: 数据文件路径为 data/train-*
  • 许可证: Apache-2.0
  • 任务类别: 文本生成
  • 语言: 英语
  • 大小类别: 10K<n<100K

数据集描述

  • 该数据集是 Grammarly 的 coedit 数据集,转换为 Alpaca 风格的 instruction, input, 和 output 行,原始 instruction 值被替换为更多样化的程序生成的指令。包含 23930 个独特的 instruction 值,而原始数据集只有 144 个。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作