five

ed001/ds-coder-instruct-v2

收藏
Hugging Face2024-01-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ed001/ds-coder-instruct-v2
下载链接
链接失效反馈
官方服务:
资源简介:
DS Coder Instruct v2数据集是一个专注于数据科学领域的指令微调数据集,包含Python代码示例。数据集由(input, instruction, output)三元组组成,其中instruction提供数据科学领域的任务,output包含解决任务的代码。数据集还包含Alpaca风格的输入文本字段,以及编程语言和主题的元数据。数据集通过过滤和预处理现有的公开数据集创建,主要包含与数据科学相关的代码,如使用Matplotlib、Sklearn、PyTorch等库的代码。数据集还进行了去重和进一步的过滤,以确保样本的质量。

DS Coder Instruct v2数据集是一个专注于数据科学领域的指令微调数据集,包含Python代码示例。数据集由(input, instruction, output)三元组组成,其中instruction提供数据科学领域的任务,output包含解决任务的代码。数据集还包含Alpaca风格的输入文本字段,以及编程语言和主题的元数据。数据集通过过滤和预处理现有的公开数据集创建,主要包含与数据科学相关的代码,如使用Matplotlib、Sklearn、PyTorch等库的代码。数据集还进行了去重和进一步的过滤,以确保样本的质量。
提供机构:
ed001
原始信息汇总

数据集卡片 for DS Coder Instruct v2 数据集

数据集详情

数据集描述

DS Coder instruct 数据集包含 (输入, 指令, 输出) 三元组。指令提供数据科学领域的任务,输出包含解决该任务的代码。如果可用,还包含 文本 字段,持有 Alpaca 风格的输入。元数据,如编程语言 (lang) 和主题 (topics) 也被提供。topics 列出了代码中使用的概念(例如 ML、神经网络、绘图等)。这是根据代码使用的库类型确定的。此字段可用于获取特定任务的数据子集,例如数据可视化。

此外,原始数据源在 dataset 字段下提供。

数据集来源

DS Coder 是从 HuggingFace 上的公开可用数据集集合中筛选和预处理的。所有来源及其相应链接如下:

  • nickrosh/Evol-Instruct-Code-80k-v1: https://huggingface.co/datasets/nickrosh/Evol-Instruct-Code-80k-v1
  • TokenBender/code_instructions_122k_alpaca_style: https://huggingface.co/datasets/TokenBender/code_instructions_122k_alpaca_style
  • theblackcat102/evol-codealpaca-v1: https://huggingface.co/datasets/theblackcat102/evol-codealpaca-v1
  • ise-uiuc/Magicoder-OSS-Instruct-75K: https://huggingface.co/datasets/ise-uiuc/Magicoder-OSS-Instruct-75K
  • WizardLM/WizardLM_evol_instruct_V2_196k: https://huggingface.co/datasets/ise-uiuc/WizardLM_evol_instruct_V2_196k

请在使用此数据集时确保引用上述提到的来源。您应该访问这些页面并查找特定的使用说明(如果有)。

数据集创建

DS Coder 是通过筛选和处理现有的公开 (指令, 代码) 数据集对创建的。源数据被筛选以仅保留与数据科学应用相关的代码。筛选是通过使用正则表达式来收集使用流行数据科学库(例如 Matplotlib、Sklearn、PyTorch 等)的代码来完成的。然后,数据进一步处理以过滤掉代码非常长或非常短的样本。代码输出中包含大量注释和少量代码的样本被过滤掉。此外,指令非常长或非常短的样本也被移除。

筛选后,基于输出代码和输入指令进行精确去重。经过此过程,大约剩下 16K 样本。

筛选

筛选过程的第一步是从源数据集中收集所有与数据科学应用相关的代码样本。为此,对 代码指令 应用正则表达式筛选。正则表达式筛选主要寻找流行数据科学库的导入和使用,例如 Pandas 或 PyTorch。收集了 Python 和 R 中的数据科学代码。

收集相关代码样本后,基于行长度、指令长度、字母数字比率和注释与代码比率进行进一步筛选。代码筛选类似于 BigCode。筛选参数如下所示,源自那里。此阶段确保移除非常短、非常长和不具信息的样本。筛选脚本可以在本仓库中找到 Ea0011/wrangler。您可以使用筛选脚本来处理其他数据集或调整参数。

筛选参数如下:

  • line_max: 允许的最大行长度为 1000 个字符。
  • line_mean: 允许的最大平均行长度为 100 个字符。
  • alpha_frac: 允许的最小字母数字字符比率为 25%。
  • min_inst_size: 最小指令大小为 5 个单词。
  • max_inst_size: 最大指令大小为 1000 个单词。
  • max_threshold_comments: 注释与代码比率的最大阈值为 80%。
  • min_threshold_comments: 注释与代码比率的最小阈值为 1%。

数据分析

本节提供了数据集的一些分析。代码长度和数据科学任务的分布显示了概念在代码中使用的分布。一些领域,如绘图,与其他领域相比代表性不足。您可以使用主题列来选择特定任务的样本。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作