AIReady
收藏arXiv2025-04-28 更新2025-05-13 收录
下载链接:
http://arxiv.org/abs/2504.19565v1
下载链接
链接失效反馈官方服务:
资源简介:
AIReady数据集由中国科学院计算机网络信息中心和中国科学院大学的研究人员创建,旨在解决现有开源科学语料库在生物医学研究中数量和质量不足的问题。该数据集包含超过23百万篇生物医学研究文章,通过一个多智能体框架从这些文章中自动提取、合成和评估高质量的文本数据。这些数据被用于训练大型语言模型,使其在生物医学问答任务中表现出色。数据集的创建过程涉及多个步骤,包括问题生成、上下文检索、问题评估和答案生成,所有这些步骤均通过多智能体协作完成,以确保数据与生物医学本体的一致性。AIReady数据集的主要应用领域是生物医学大型语言模型的训练,旨在解决生物医学问答任务中的挑战。
The AIReady Dataset was developed by researchers from the Computer Network Information Center of the Chinese Academy of Sciences and the University of Chinese Academy of Sciences, aiming to address the insufficient quantity and quality issues of existing open-source scientific corpora in biomedical research. This dataset contains over 23 million biomedical research articles, from which high-quality textual data is automatically extracted, synthesized, and evaluated via a multi-agent framework. These data are used to train large language models (LLMs) to achieve excellent performance on biomedical question answering tasks. The dataset creation process involves multiple steps, including question generation, context retrieval, question evaluation, and answer generation. All these steps are completed through multi-agent collaboration to ensure the consistency of the data with biomedical ontologies. The primary application scenario of the AIReady Dataset is the training of biomedical large language models, aiming to address the challenges in biomedical question answering tasks.
提供机构:
中国科学院计算机网络信息中心, 中国科学院大学, 北京, 中国
创建时间:
2025-04-28
搜集汇总
数据集介绍

构建方式
AIReady数据集的构建采用了知识驱动的多智能体框架m-KAILIN,该框架通过协同工作的多个专业化智能体从大规模生物医学文献中自动提取、合成和评估高质量文本数据。具体而言,框架中的问题生成智能体基于BioASQ QA数据集进行微调,生成候选问题;上下文检索智能体利用密集段落检索技术从PubMed文献库中匹配相关文档;问题评估智能体则依据医学主题词表(MeSH)的知识层次结构对问题-上下文对进行评分和筛选;最终由答案生成智能体生成高质量答案,形成完整的问答三元组。整个流程实现了从原始文献到结构化训练数据的全自动化蒸馏,显著减少了人工标注的需求。
特点
AIReady数据集的核心特点在于其知识层次驱动的构建机制与多智能体协同架构。数据集通过MeSH知识体系确保问题与生物医学本体论的高度一致性,同时利用异构智能体(通用领域与生物医学专用模型)的组合增强问题多样性。实验表明,基于该数据集训练的模型在PubMedQA等生物医学问答任务中表现优异,Llama3-70B甚至超越GPT-4等更大规模的专有模型。数据集覆盖23万篇生物医学文献,具有时序鲁棒性和学科广泛性,能有效捕捉生物医学领域的复杂术语和概念结构。
使用方法
AIReady数据集支持两阶段模型训练范式:持续预训练阶段使用问题-上下文对(Icpt)增强模型的基础生物医学知识,监督微调阶段采用问答三元组(Isft)优化答案生成能力。用户可通过直接偏好优化(DPO)进一步调整问题生成策略,或结合检索增强生成(RAG)框架提升上下文相关性。数据集已按MeSH分类和出版时间划分子集,便于开展跨学科及时序泛化性研究。对于特定应用场景,建议优先采用Top-4检索策略以平衡信息完整性与噪声控制。
背景与挑战
背景概述
AIReady数据集由中国科学院计算机网络信息中心的研究团队于2025年提出,旨在解决生物医学领域大型语言模型训练中高质量标注语料库稀缺的问题。该数据集基于m-KAILIN框架构建,通过多智能体协作机制从2300万篇生物医学研究文献中自动提炼问答对,其核心创新在于采用医学主题词表(MeSH)层级结构指导的评估机制,显著提升了生成数据的领域一致性和知识覆盖广度。作为首个完全自动化构建的生物医学领域训练语料库,AIReady使得Llama3-70B模型在生物医学问答任务上的表现超越了GPT-4等商业模型,为生物医学自然语言处理研究提供了重要的基础设施支持。
当前挑战
在解决生物医学问答任务时面临三大核心挑战:1)生物医学术语的复杂层级结构导致传统语言模型难以准确理解概念关系;2)科学文献中非结构化文本与标准问答格式之间存在显著鸿沟;3)跨学科知识整合需求与有限标注资源之间的矛盾。数据集构建过程中遭遇的挑战包括:1)基于MeSH的知识层级相似度计算需要平衡语义深度与计算效率;2)密集段落检索时域适应嵌入模型与通用嵌入模型的性能差异;3)多智能体协同工作中保持生成问题多样性与医学准确性的平衡。这些挑战通过知识驱动的冷启动标注方法和直接偏好优化技术得到有效缓解。
常用场景
经典使用场景
在生物医学领域的大型语言模型(LLM)训练中,AIReady数据集通过多智能体协作框架,从海量科学文献中自动提取高质量问答对,为模型提供丰富的训练数据。该数据集特别适用于生物医学问答任务,能够显著提升模型在复杂医学术语和概念结构上的理解和生成能力。
解决学术问题
AIReady数据集解决了生物医学领域高质量标注数据稀缺的问题,通过知识驱动的多智能体框架,自动生成与医学主题词表(MeSH)层级结构对齐的问答对。这一方法不仅减少了人工标注的依赖,还提升了数据集的覆盖范围和一致性,为生物医学LLM的训练提供了可靠的数据支持。
衍生相关工作
AIReady数据集的推出催生了一系列相关研究,如基于MeSH的知识层级引导方法、多智能体协作框架的优化等。这些工作进一步推动了生物医学领域数据蒸馏技术的发展,并为后续研究如BioMistral、PMC-LLaMA等模型的训练提供了重要参考。
以上内容由遇见数据集搜集并总结生成



