five

THUMedInfo/BIOS_v3

收藏
Hugging Face2025-10-10 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/THUMedInfo/BIOS_v3
下载链接
链接失效反馈
官方服务:
资源简介:
BIOS v3是一个基于深度学习和大量计算资源构建的生物医学知识图谱,旨在促进生物医学领域的数据交换、自然语言处理和AI建模。V3版本在中文术语优化、概念聚合优化和关系提取优化方面进行了改进。具体包括:使用新的生物医学翻译模型重新生成中文术语,提高了中文术语的质量;使用新的方法(CoRTEx)识别同义词,提高了同义词识别的准确性;使用大模型技术全面更新了关系提取和生成,使三元组更加准确。

BIOS v3 is a biomedical knowledge graph built on deep learning and extensive computational resources, aimed at promoting data exchange, natural language processing, and AI modeling in the biomedical field. The V3 version has been improved in terms of Chinese term optimization, concept aggregation optimization, and relation extraction optimization. Specifically, it includes: re-generating Chinese terms using a new biomedical translation model to improve the quality of Chinese terms; using a new method (CoRTEx) to identify synonymous terms, enhancing the accuracy of synonymous term identification; and thoroughly updating relation extraction and generation using large model technology to make the triplets more accurate.
提供机构:
THUMedInfo
搜集汇总
数据集介绍
main_image_url
构建方式
BIOS v3数据集的构建,依托前沿深度学习算法与强大计算力,对全球生物医学文献进行挖掘,形成了高质量、更新及时、规模庞大的结构化知识库。该数据集通过算法自动从文献中提取概念、关系及其对应的语义类型,从而构建起综合性的生物医学知识图谱。
特点
BIOS v3数据集的特点在于其内容的持续改进与扩展,伴随技术进步不断更新。它不仅包含了大量的概念、关系和语义类型,还特别对中文术语进行了优化,减少了术语数量,提高了质量。此外,采用CoRTEx方法增强了同义术语识别的准确性,关系提取也通过大型模型技术进行了全面更新,提高了三元组的准确性。
使用方法
用户可以通过访问BIOS官方提供的下载链接获取数据集。在使用时,可以依据数据集中的术语、概念和关系三元组进行数据交换、自然语言处理和人工智能建模等操作。此外,用户在引用BIOS数据集时,应遵循cc-by-nc-nd-4.0许可证规定,并在学术工作中正确引用相关文献。
背景与挑战
背景概述
BIOS v3,即生物医学信息学本体系统,是由Yu Sheng等研究人员开发的一种机器学习生成的全面生物医学知识图谱(KG)。该知识图谱借助前沿的深度学习算法和巨大的计算力,挖掘全球生物医学文献,提供顶级质量、最新且规模极大的结构化知识,以促进生物医学领域的数据交换、自然语言处理及人工智能建模。BIOS项目是一个长期承诺,其内容随着技术进步而不断改进和扩展,同时积极与科学界互动,推动社区编辑和反馈,致力于构建智能医疗的基础,并提升领域应用体验。
当前挑战
该数据集面临的挑战主要包括:如何在不断增长的海量生物医学文献中,确保知识图谱的实时更新与准确性;如何通过算法优化,提高中文术语的质量和概念聚合的精确度;以及如何进一步优化关系提取技术,提高关系三元组的准确性。此外,构建过程中遇到的挑战还包括处理大规模数据时的计算资源消耗和存储问题,以及知识图谱构建中的语义歧义和同义识别问题。
常用场景
经典使用场景
在生物医药领域的探索中,BIOS v3数据集以其全面的知识图谱结构,成为促进数据交换、自然语言处理及AI建模的重要资源。其经典使用场景主要在于为研究人员提供了一种高效的方式来检索和理解生物医学文献中的复杂概念及其关系。
解决学术问题
该数据集解决了学术研究中关于生物医学信息提取与整合的难题,通过高质量、大规模的结构化知识,促进了知识发现和学术研究的深度。它极大地提升了研究者在药物发现、疾病机理研究以及临床试验分析等领域的效率。
衍生相关工作
基于BIOS v3数据集,已经衍生出诸如CoRTEx等用于表示术语和解释对比学习的新方法,以及大量利用该知识图谱进行自然语言处理、生物信息学分析的经典工作,进一步推动了生物医药领域的智能化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作