medicine-instruction-augmented-corpora

Hugging Face2024-06-24 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/instruction-pretrain/medicine-instruction-augmented-corpora

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含生物医学领域的指令增强语料库，用于支持论文'Instruction Pre-Training: Language Models are Supervised Multitask Learners'。通过一个高效的指令合成器，数据集生成了200M的指令-响应对，覆盖40多种任务类别，用于验证指令预训练的有效性。该预训练方法在从零开始的一般预训练和领域适应性持续预训练中均优于传统的预训练方法。

创建时间：

2024-06-23

原始信息汇总

数据集概述

基本信息

许可: other
任务类别:
- 文本分类
- 表格问答
- 问答
- 零样本分类
语言: 英语
标签: 化学, 生物学

数据集描述

数据集名称: Instruction-Augmented Corpora in the Biomedicine Domain
数据来源: 使用 instruction-synthesizer 将 the Pile 的 PubMed 子集转换为指令增强语料库。
数据规模: 合成指令-响应对达到 500M。
数据格式: JSONL

数据集资源

上下文基础指令合成器: instruction-synthesizer
合成器微调数据: ft-instruction-synthesizer-collection
通用模型预训练:
- InstructLM-500M
- InstructLM-1.3B
特定领域模型预训练:
- Finance-Llama3-8B
- Biomedicine-Llama3-8B
通用指令增强语料库: general-instruction-augmented-corpora
特定领域指令增强语料库: medicine-instruction-augmented-corpora

数据集使用

依赖设置: bash git clone https://github.com/microsoft/LMOps.git cd LMOps/instruction_pretrain pip install tqdm pip install "huggingface_hub[cli]"
文件下载: bash REPO="instruction-pretrain/medicine-instruction-augmented-corpora" LOCAL_DIR="/tmp/medicine-instruction-augmented-corpora/" huggingface-cli download --resume-download ${REPO} --local-dir ${LOCAL_DIR} --include "*00000.jsonl" --repo-type dataset
数据预处理: python from utils.read_compre import cook_pt_entries import glob from tqdm import tqdm import json

LOCAL_DIR = "/tmp/medicine-instruction-augmented-corpora/" data_paths=sorted(glob.glob(f{LOCAL_DIR}/part-/shard/))

all_entries = [] for path in tqdm(data_paths): with open(path, r, encoding=utf8) as f: jsonls = f.read().strip().split( ) for jsonl in jsonls: all_entries.append(json.loads(jsonl))

instruction_augmented_texts = [] for idx, entry in enumerate(all_entries): texts = cook_pt_entries(read_collection=entry, random_seed=idx) instruction_augmented_texts.extend(texts)

for idx, text in enumerate(instruction_augmented_texts[-2:]): print(f## Instruction-augmented Text {idx+1} {text} )

许可信息

PubMed Central: MIT License

搜集汇总

数据集介绍

构建方式

该数据集的构建基于生物医学领域的原始语料库，通过高效的指令合成器生成指令-响应对。具体而言，研究团队利用开源模型构建的指令合成器，将PubMed子集的原始文本转化为指令增强的语料库。这一过程不仅涵盖了40多个任务类别，还生成了超过2亿个指令-响应对，确保了数据集的多样性和广泛性。此外，数据集还结合了OpenOrca中的通用指令数据，以1:1的混合比例进行整合，进一步增强了其适用性。

使用方法

该数据集的使用方法相对简单且高效。用户可以通过Hugging Face的API下载数据集，并使用提供的脚本将数据转换为适合预训练的格式。具体步骤包括设置依赖项、下载文件、并将数据模板化为预训练所需的格式。用户还可以根据需求调整随机种子，以增加数据的多样性。此外，数据集的使用还支持与OpenOrca中的通用指令数据混合使用，进一步增强了其在不同任务中的适用性。

背景与挑战

背景概述

在生物医学领域，随着大规模语言模型的快速发展，如何有效利用领域特定数据进行预训练成为了一个关键问题。2024年，由微软研究院主导的研究团队提出了**Instruction Pre-Training**框架，旨在通过指令-响应对增强大规模原始语料库，以提升语言模型在生物医学领域的表现。该框架基于开源模型构建的高效指令合成器，生成了超过200M的指令-响应对，覆盖40多个任务类别。实验表明，**Instruction Pre-Training**不仅在从零开始的预训练中优于传统预训练方法，还在领域自适应持续预训练中表现出色，使得Llama3-8B模型在性能上接近甚至超越Llama3-70B。该研究为生物医学领域的自然语言处理任务提供了新的解决方案，并推动了领域特定语言模型的发展。

当前挑战

在构建**medicine-instruction-augmented-corpora**数据集时，研究团队面临了多重挑战。首先，生物医学领域的文本数据具有高度的专业性和复杂性，如何从PubMed等公开数据源中提取有效的指令-响应对，并确保其准确性和多样性，是一个关键问题。其次，指令合成器的设计需要兼顾效率与质量，以确保生成的指令-响应对能够覆盖广泛的生物医学任务类别。此外，数据集的构建还涉及与通用指令数据（如OpenOrca）的混合，如何在保持领域特定性的同时，兼顾通用性，也是一个重要的技术挑战。最后，数据集的规模扩展和预训练过程中的性能优化，进一步增加了构建的复杂性。这些挑战不仅考验了研究团队的技术能力，也为未来生物医学领域的数据集构建提供了宝贵的经验。

常用场景

经典使用场景

在生物医学领域，medicine-instruction-augmented-corpora数据集被广泛用于多任务预训练模型的开发。通过将PubMed子集中的原始文本转换为指令-响应对，该数据集为语言模型提供了丰富的监督信号，使其能够在生物医学文本理解、分类和问答等任务中表现出色。特别是在零样本分类和表格问答任务中，该数据集展现了其独特的优势。

解决学术问题

该数据集解决了生物医学领域语言模型预训练中的关键问题，即如何在大规模无监督数据中引入有效的监督信号。通过指令预训练框架，数据集成功提升了模型在生物医学任务中的泛化能力和适应性。实验表明，基于该数据集预训练的模型在从零开始的预训练和领域自适应持续预训练中均显著优于传统预训练方法，尤其是在Llama3-8B模型上的表现甚至超越了Llama3-70B。

实际应用

在实际应用中，medicine-instruction-augmented-corpora数据集为生物医学研究和临床决策支持系统提供了强大的语言模型支持。例如，在医学文献的自动摘要生成、疾病诊断辅助和药物研发中的知识提取等场景中，基于该数据集训练的模型能够高效处理复杂的生物医学文本，显著提升了相关任务的准确性和效率。

数据集最近研究