five

pszemraj/fleece2instructions-codealpaca

收藏
Hugging Face2023-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/fleece2instructions-codealpaca
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从GitHub仓库[sahil280114/codealpaca]下载并解析为text2text格式,用于生成指令。数据集在下载时遵循了Creative Commons Attribution-NonCommercial 4.0 International Public License。原始数据集中的`inputs`和`instruction`列被聚合在一起,并添加了特殊标记`<instruction>`和`<inputs>`以便模型理解和后续的正则表达式分离。数据集包含训练集、测试集和验证集,分别有18014、1000和1002行数据,每行数据包含`instructions_inputs`和`output`两个特征。

该数据集是从GitHub仓库[sahil280114/codealpaca]下载并解析为text2text格式,用于生成指令。数据集在下载时遵循了Creative Commons Attribution-NonCommercial 4.0 International Public License。原始数据集中的`inputs`和`instruction`列被聚合在一起,并添加了特殊标记`<instruction>`和`<inputs>`以便模型理解和后续的正则表达式分离。数据集包含训练集、测试集和验证集,分别有18014、1000和1002行数据,每行数据包含`instructions_inputs`和`output`两个特征。
提供机构:
pszemraj
原始信息汇总

数据集概述

基本信息

  • 许可证: Creative Commons Attribution-NonCommercial 4.0 International Public License (cc-by-nc-4.0)
  • 任务类别:
    • text2text-generation
    • text-generation
  • 语言: 英语 (en)
  • 数据集大小: 10K<n<100K
  • 标签:
    • instructions
    • domain adaptation

数据集结构

  • 训练集: 包含18014条记录,特征为[instructions_inputs, output]
  • 测试集: 包含1000条记录,特征为[instructions_inputs, output]
  • 验证集: 包含1002条记录,特征为[instructions_inputs, output]

数据处理

  • 原始数据集中的inputsinstruction列已合并为instructions_inputs,每条记录前添加特殊标记<instruction><inputs>,以便模型理解和后续的正则表达式分离。

示例

  • 约60%的数据记录不包含inputs,示例展示了这些记录的格式,使用特殊标记区分不同类型的文本。
搜集汇总
背景与挑战
背景概述
该数据集是从GitHub仓库'sahil280114/codealpaca'转换而来的text2text格式数据集,专门用于指令生成任务,遵循Creative Commons Attribution-NonCommercial 4.0 International Public License许可。数据集包含训练集、测试集和验证集,分别有18014、1000和1002行数据,每行数据由'instructions_inputs'和'output'两个特征组成,便于模型学习和正则表达式处理。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作