five

ewof/code-alpaca-instruct-unfiltered

收藏
Hugging Face2023-05-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ewof/code-alpaca-instruct-unfiltered
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是HuggingFaceH4/CodeAlpaca_20K的未过滤版本,移除了36个明显的对齐实例,保留了19986条指令。数据集通过parquet2json工具将所有文件合并为code_alpaca_data.jsonl,并运行clean.py脚本进行清理,最终重命名为.json文件。正常的去重脚本未发现重复数据。该数据集的灵感来源于ehartford/WizardLM_alpaca_evol_instruct_70k_unfiltered数据集,并使用了anon8231489123的清理脚本进行适配。
提供机构:
ewof
原始信息汇总

数据集概述

数据集名称

  • 名称: HuggingFaceH4/CodeAlpaca_20K

数据集描述

  • 原始数据量: 20000条指令
  • 处理后数据量: 19986条指令
  • 数据处理: 移除了36条明显不相关的实例

数据集文件

数据集处理

  • 数据转换: 使用parquet2json工具将所有文件合并为code_alpaca_data.jsonl,并转换为code_alpaca_data.json
  • 去重处理: 使用dedupe.py脚本未发现重复数据
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作