pszemraj/fleece2instructions-codealpaca
收藏Hugging Face2023-03-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/fleece2instructions-codealpaca
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从GitHub仓库[sahil280114/codealpaca]下载并解析为text2text格式,用于生成指令。数据集在下载时遵循了Creative Commons Attribution-NonCommercial 4.0 International Public License。原始数据集中的`inputs`和`instruction`列被聚合在一起,并添加了特殊标记`<instruction>`和`<inputs>`以便模型理解和后续的正则表达式分离。数据集包含训练集、测试集和验证集,分别有18014、1000和1002行数据,每行数据包含`instructions_inputs`和`output`两个特征。
该数据集是从GitHub仓库[sahil280114/codealpaca]下载并解析为text2text格式,用于生成指令。数据集在下载时遵循了Creative Commons Attribution-NonCommercial 4.0 International Public License。原始数据集中的`inputs`和`instruction`列被聚合在一起,并添加了特殊标记`<instruction>`和`<inputs>`以便模型理解和后续的正则表达式分离。数据集包含训练集、测试集和验证集,分别有18014、1000和1002行数据,每行数据包含`instructions_inputs`和`output`两个特征。
提供机构:
pszemraj
原始信息汇总
数据集概述
基本信息
- 许可证: Creative Commons Attribution-NonCommercial 4.0 International Public License (cc-by-nc-4.0)
- 任务类别:
- text2text-generation
- text-generation
- 语言: 英语 (en)
- 数据集大小: 10K<n<100K
- 标签:
- instructions
- domain adaptation
数据集结构
- 训练集: 包含18014条记录,特征为[instructions_inputs, output]
- 测试集: 包含1000条记录,特征为[instructions_inputs, output]
- 验证集: 包含1002条记录,特征为[instructions_inputs, output]
数据处理
- 原始数据集中的
inputs和instruction列已合并为instructions_inputs,每条记录前添加特殊标记<instruction>或<inputs>,以便模型理解和后续的正则表达式分离。
示例
- 约60%的数据记录不包含
inputs,示例展示了这些记录的格式,使用特殊标记区分不同类型的文本。
搜集汇总
背景与挑战
背景概述
该数据集是从GitHub仓库'sahil280114/codealpaca'转换而来的text2text格式数据集,专门用于指令生成任务,遵循Creative Commons Attribution-NonCommercial 4.0 International Public License许可。数据集包含训练集、测试集和验证集,分别有18014、1000和1002行数据,每行数据由'instructions_inputs'和'output'两个特征组成,便于模型学习和正则表达式处理。
以上内容由遇见数据集搜集并总结生成



