five

Wanfq/Explore_Instruct_Math_10k

收藏
Hugging Face2023-10-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Wanfq/Explore_Instruct_Math_10k
下载链接
链接失效反馈
官方服务:
资源简介:
Explore-Instruct数据集旨在通过主动探索增强特定领域的指令覆盖范围。数据集包含头脑风暴、重写和数学三个领域的数据,每个领域都有基础和扩展两个版本。基础版本包含10k条指令调优数据,扩展版本分别包含16k、32k和64k条指令调优数据。数据集以JSON格式存储,每个数据条目包含指令、输入(可选)和输出字段。
提供机构:
Wanfq
原始信息汇总

数据集概述

概述

Explore-Instruct 是一种增强特定领域指令覆盖率的新方法。该方法假设领域空间本质上是结构化的,类似于认知科学的本体论。通过结合经典搜索算法的精髓和大型语言模型(LLMs)的力量,Explore-Instruct 能够主动遍历领域空间并生成指令调优数据,无需预定义的树结构。具体来说,Explore-Instruct 采用两种策略操作:前瞻和回溯探索:

  • 前瞻:深入探索多个潜在的细粒度子任务,从而绘制出复杂的任务网络。
  • 回溯:寻找替代分支以扩大搜索边界,从而扩展领域范围。

数据发布

Explore-Instruct 数据集在 brainstorming、rewriting 和 math 领域发布于 🤗 Huggingface Datasets。每个领域包括两个版本的数据集:基础版本和扩展版本。基础版本包含 10k 指令调优数据,扩展版本包含 16k、32k 和 64k 指令调优数据。每个数据集是 JSON 格式的结构化数据文件,包含以下字段:

  • instruction: str,描述模型应执行的任务。
  • input: str,任务的上下文或输入(可选)。
  • output: str,任务和输入文本的地面真实输出文本。

数据生成过程

生成领域特定指令调优数据的步骤如下:

领域空间探索

bash python3 generate_instruction.py --action extend --save_dir ./en_data/demo_domain --out_dir ./en_data/demo_domain_exploration --lang en --domain demo_domain --extend_nums <TASK_NUMBER_DEPTH_0>,...,<TASK_NUMBER_DEPTH_MAX_DEPTH-1> --max_depth <MAX_DEPTH> --assistant_name openai

指令调优数据生成

bash python3 generate_instruction.py --action enrich --save_dir ./en_data/demo_domain_exploration --out_dir ./en_data/demo_domain_generation --lang en --domain demo_domain --enrich_nums <DATA_NUMBER_DEPTH_0>,...,<DATA_NUMBER_DEPTH_MAX_DEPTH> --enrich_batch_size <BATCH_SIZE> --assistant_name openai

任务修剪

bash python3 generate_instruction.py --action prune --save_dir ./en_data/demo_domain_generation --out_dir ./en_data/demo_domain_pruning --lang en --domain demo_domain --pruned_file ./en_data/demo_domain_pruning/pruned_subtasks_name.json --prune_threshold <PRUNE_THRESHOLD> --assistant_name openai

数据过滤

bash python3 generate_instruction.py --action filter --save_dir ./en_data/demo_domain_pruning --out_dir ./en_data/demo_domain_filtering --lang en --domain demo_domain --pruned_file ./en_data/demo_domain_pruning/pruned_subtasks_name.json --filter_threshold <FILTER_THRESHOLD> --assistant_name openai

数据采样

bash python3 generate_instruction.py --action sample --save_dir ./en_data/demo_domain_filtering --out_dir ./en_data/demo_domain_sampling --lang en --domain demo_domain --pruned_file ./en_data/demo_domain_filtering/pruned_subtasks_name.json --sample_example_num <SAMPLE_EXAMPLES_NUM> --sample_max_depth <SAMPLE_MAX_DEPTH> --sample_use_pruned --assistant_name openai

限制

Explore-Instruct 仍在开发中,需要大量改进。我们承认我们的工作侧重于增强领域特定指令覆盖率,并未解决其他方面的指令调优,如生成复杂和具有挑战性的指令或减轻有毒和有害指令。未来的工作需要在这些领域探索我们方法的潜力。

许可证

Explore-Instruct 仅供研究使用。数据集采用 CC BY NC 4.0 许可证(仅允许非商业使用),使用该数据集训练的模型不应用于研究以外的目的。Explore-LM 模型的权重也采用 CC BY NC 4.0 许可证(仅允许非商业使用)。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作