ewof/code-alpaca-instruct-unfiltered
收藏Hugging Face2023-05-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ewof/code-alpaca-instruct-unfiltered
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是HuggingFaceH4/CodeAlpaca_20K的未过滤版本,移除了36个明显的对齐实例,保留了19986条指令。数据集通过parquet2json工具将所有文件合并为code_alpaca_data.jsonl,并运行clean.py脚本进行清理,最终重命名为.json文件。正常的去重脚本未发现重复数据。该数据集的灵感来源于ehartford/WizardLM_alpaca_evol_instruct_70k_unfiltered数据集,并使用了anon8231489123的清理脚本进行适配。
提供机构:
ewof
原始信息汇总
数据集概述
数据集名称
- 名称: HuggingFaceH4/CodeAlpaca_20K
数据集描述
- 原始数据量: 20000条指令
- 处理后数据量: 19986条指令
- 数据处理: 移除了36条明显不相关的实例
数据集文件
- 测试集文件: test-00000-of-00001.parquet
- 训练集文件: train-00000-of-00001.parquet
数据集处理
- 数据转换: 使用
parquet2json工具将所有文件合并为code_alpaca_data.jsonl,并转换为code_alpaca_data.json - 去重处理: 使用
dedupe.py脚本未发现重复数据



