five

medicine-instruction-augmented-corpora

收藏
Hugging Face2024-06-24 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/instruction-pretrain/medicine-instruction-augmented-corpora
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集包含生物医学领域的指令增强语料库,用于支持论文'Instruction Pre-Training: Language Models are Supervised Multitask Learners'。通过一个高效的指令合成器,数据集生成了200M的指令-响应对,覆盖40多种任务类别,用于验证指令预训练的有效性。该预训练方法在从零开始的一般预训练和领域适应性持续预训练中均优于传统的预训练方法。
创建时间:
2024-06-23
原始信息汇总

数据集概述

基本信息

  • 许可: other
  • 任务类别:
    • 文本分类
    • 表格问答
    • 问答
    • 零样本分类
  • 语言: 英语
  • 标签: 化学, 生物学

数据集描述

  • 数据集名称: Instruction-Augmented Corpora in the Biomedicine Domain
  • 数据来源: 使用 instruction-synthesizerthe Pile 的 PubMed 子集转换为指令增强语料库。
  • 数据规模: 合成指令-响应对达到 500M。
  • 数据格式: JSONL

数据集资源

数据集使用

  • 依赖设置: bash git clone https://github.com/microsoft/LMOps.git cd LMOps/instruction_pretrain pip install tqdm pip install "huggingface_hub[cli]"

  • 文件下载: bash REPO="instruction-pretrain/medicine-instruction-augmented-corpora" LOCAL_DIR="/tmp/medicine-instruction-augmented-corpora/" huggingface-cli download --resume-download ${REPO} --local-dir ${LOCAL_DIR} --include "*00000.jsonl" --repo-type dataset

  • 数据预处理: python from utils.read_compre import cook_pt_entries import glob from tqdm import tqdm import json

    LOCAL_DIR = "/tmp/medicine-instruction-augmented-corpora/" data_paths=sorted(glob.glob(f{LOCAL_DIR}/part-/shard/))

    all_entries = [] for path in tqdm(data_paths): with open(path, r, encoding=utf8) as f: jsonls = f.read().strip().split( ) for jsonl in jsonls: all_entries.append(json.loads(jsonl))

    instruction_augmented_texts = [] for idx, entry in enumerate(all_entries): texts = cook_pt_entries(read_collection=entry, random_seed=idx) instruction_augmented_texts.extend(texts)

    for idx, text in enumerate(instruction_augmented_texts[-2:]): print(f## Instruction-augmented Text {idx+1} {text} )

许可信息

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建基于生物医学领域的原始语料库,通过高效的指令合成器生成指令-响应对。具体而言,研究团队利用开源模型构建的指令合成器,将PubMed子集的原始文本转化为指令增强的语料库。这一过程不仅涵盖了40多个任务类别,还生成了超过2亿个指令-响应对,确保了数据集的多样性和广泛性。此外,数据集还结合了OpenOrca中的通用指令数据,以1:1的混合比例进行整合,进一步增强了其适用性。
使用方法
该数据集的使用方法相对简单且高效。用户可以通过Hugging Face的API下载数据集,并使用提供的脚本将数据转换为适合预训练的格式。具体步骤包括设置依赖项、下载文件、并将数据模板化为预训练所需的格式。用户还可以根据需求调整随机种子,以增加数据的多样性。此外,数据集的使用还支持与OpenOrca中的通用指令数据混合使用,进一步增强了其在不同任务中的适用性。
背景与挑战
背景概述
在生物医学领域,随着大规模语言模型的快速发展,如何有效利用领域特定数据进行预训练成为了一个关键问题。2024年,由微软研究院主导的研究团队提出了**Instruction Pre-Training**框架,旨在通过指令-响应对增强大规模原始语料库,以提升语言模型在生物医学领域的表现。该框架基于开源模型构建的高效指令合成器,生成了超过200M的指令-响应对,覆盖40多个任务类别。实验表明,**Instruction Pre-Training**不仅在从零开始的预训练中优于传统预训练方法,还在领域自适应持续预训练中表现出色,使得Llama3-8B模型在性能上接近甚至超越Llama3-70B。该研究为生物医学领域的自然语言处理任务提供了新的解决方案,并推动了领域特定语言模型的发展。
当前挑战
在构建**medicine-instruction-augmented-corpora**数据集时,研究团队面临了多重挑战。首先,生物医学领域的文本数据具有高度的专业性和复杂性,如何从PubMed等公开数据源中提取有效的指令-响应对,并确保其准确性和多样性,是一个关键问题。其次,指令合成器的设计需要兼顾效率与质量,以确保生成的指令-响应对能够覆盖广泛的生物医学任务类别。此外,数据集的构建还涉及与通用指令数据(如OpenOrca)的混合,如何在保持领域特定性的同时,兼顾通用性,也是一个重要的技术挑战。最后,数据集的规模扩展和预训练过程中的性能优化,进一步增加了构建的复杂性。这些挑战不仅考验了研究团队的技术能力,也为未来生物医学领域的数据集构建提供了宝贵的经验。
常用场景
经典使用场景
在生物医学领域,medicine-instruction-augmented-corpora数据集被广泛用于多任务预训练模型的开发。通过将PubMed子集中的原始文本转换为指令-响应对,该数据集为语言模型提供了丰富的监督信号,使其能够在生物医学文本理解、分类和问答等任务中表现出色。特别是在零样本分类和表格问答任务中,该数据集展现了其独特的优势。
解决学术问题
该数据集解决了生物医学领域语言模型预训练中的关键问题,即如何在大规模无监督数据中引入有效的监督信号。通过指令预训练框架,数据集成功提升了模型在生物医学任务中的泛化能力和适应性。实验表明,基于该数据集预训练的模型在从零开始的预训练和领域自适应持续预训练中均显著优于传统预训练方法,尤其是在Llama3-8B模型上的表现甚至超越了Llama3-70B。
实际应用
在实际应用中,medicine-instruction-augmented-corpora数据集为生物医学研究和临床决策支持系统提供了强大的语言模型支持。例如,在医学文献的自动摘要生成、疾病诊断辅助和药物研发中的知识提取等场景中,基于该数据集训练的模型能够高效处理复杂的生物医学文本,显著提升了相关任务的准确性和效率。
数据集最近研究
最新研究方向
在生物医学领域,指令增强预训练(Instruction Pre-Training)框架的引入标志着语言模型训练方法的重大突破。该框架通过高效指令合成器生成大量指令-响应对,显著提升了模型在通用预训练和领域自适应持续预训练中的表现。特别是在Llama3-8B模型的持续预训练中,指令增强预训练使其性能接近甚至超越了Llama3-70B模型。这一进展不仅推动了生物医学文本处理技术的发展,还为多任务学习和领域自适应提供了新的研究思路。此外,多模态指令合成器的推出进一步扩展了该框架的应用范围,使其能够处理视觉指令任务,为跨模态学习开辟了新的可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作