CBLUE

github2024-05-18 更新2024-05-31 收录

下载链接：

https://github.com/zonghui0228/BioMedical-NLP-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

中文医疗信息处理挑战榜CBLUE是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起，由阿里云天池平台承办，并由医渡云（北京）技术有限公司、平安医疗科技、北京大学、郑州大学、鹏城实验室、哈尔滨工业大学(深圳）、同济大学、夸克、阿里巴巴达摩院等开展智慧医疗研究的单位共同协办，旨在推动中文医学NLP技术和社区的发展。榜单在设计上综合考虑了任务类型和任务难度两个维度，目标是建设一个任务类型覆盖广、同时也要保证任务的难度的benchmark，因此榜单在吸收往届CHIP学术评测的同时也适当增加了业界数据集，业务数据集的特点是数据真实且有噪音，对模型的鲁棒性提出了更高的要求。一期榜单任务包括医学文本信息抽取（实体识别、关系抽取）、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务。

The Chinese Biomedical Language Understanding Evaluation (CBLUE) is an initiative launched by the Medical Health and Bioinformatics Committee of the Chinese Information Processing Society of China under the principle of legal open sharing. Hosted by the Alibaba Cloud Tianchi Platform, it is co-organized by Yidu Cloud (Beijing) Technology Co., Ltd., Ping An Healthcare Technology, Peking University, Zhengzhou University, Peng Cheng Laboratory, Harbin Institute of Technology (Shenzhen), Tongji University, Quark, and Alibaba DAMO Academy, among other institutions engaged in smart healthcare research. The aim is to promote the development of Chinese medical NLP technology and its community. The leaderboard is designed with a comprehensive consideration of task types and difficulty levels, aiming to establish a benchmark that covers a wide range of task types while ensuring the difficulty of tasks. Therefore, while incorporating previous CHIP academic evaluations, the leaderboard has appropriately added industry datasets, which are characterized by real and noisy data, posing higher demands on the robustness of models. The first phase of the leaderboard includes five major categories of tasks with eight subtasks: medical text information extraction (entity recognition, relation extraction), medical terminology normalization, medical text classification, medical sentence relation judgment, and medical QA.

创建时间：

2020-10-07

原始信息汇总

数据集概述

数据集名称

Biomedical NLP Corpus Collection

数据集描述

专注于生物医学自然语言处理相关的数据集，资源来自论文和会议。

数据集内容

挑战极限

CBLUE: 中文医疗信息处理挑战榜，涵盖医学文本信息抽取、医学术语归一化、医学文本分类、医学句子关系判定和医学QA等任务。
BLURB: 生物医学语言理解和推理基准，包含生物医学自然语言处理资源。

信息抽取

命名实体识别
- 多个年份的数据集，包括基因、蛋白质、化学化合物、药物、临床医疗实体等的识别。
术语标准化
- 涉及基因、蛋白质、化学实体等的规范化任务。
关系抽取
- 包括基因-疾病关联、蛋白质-蛋白质交互、化学-蛋白质交互等关系抽取任务。
事件抽取
- 涉及生物过程、疾病机制、细菌生物环境等事件的抽取。
共指消解
- 主要针对蛋白质/基因的共指消解任务。

文本分析

文本分类
- 包括临床文本的分类任务，如患者吸烟状态的分类。
双句相似度分析
- 信息未详述。

文档检索

信息未详述。

问答系统

信息未详述。

知识图谱

信息未详述。

预训练语言模型

信息未详述。

其他

信息未详述。

数据集特点

数据集涵盖广泛，从基础的命名实体识别到复杂的事件抽取和共指消解，适用于多种生物医学NLP研究和应用。
多数数据集提供详细的任务描述和相关论文链接，便于深入研究和系统开发。

数据集应用

适用于生物医学领域的自然语言处理研究，包括但不限于信息抽取、文本分析、问答系统开发等。
可用于训练和评估生物医学NLP模型，提高模型在特定任务上的性能。

搜集汇总

数据集介绍

构建方式

CBLUE数据集的构建基于合法开放共享的理念，由中国中文信息学会医疗健康与生物信息处理专业委员会发起，并由多家知名机构协办，包括阿里云天池平台、医渡云、平安医疗科技等。该数据集的设计综合考虑了任务类型和任务难度，旨在建设一个任务类型覆盖广、难度适中的基准测试平台。数据集涵盖了医学文本信息抽取、术语归一化、文本分类、句子关系判定和问答系统等五大类任务，共包含8个子任务。数据来源包括学术评测数据和真实业务数据，确保了数据的多样性和真实性。

使用方法

CBLUE数据集适用于多种自然语言处理任务，包括命名实体识别、关系抽取、术语标准化、文本分类和问答系统等。用户可以通过访问CBLUE的GitHub页面或天池平台获取数据集，并根据提供的任务说明进行模型训练和评估。数据集提供了详细的任务描述和评估指标，用户可以根据具体任务选择合适的模型进行实验。此外，CBLUE还提供了预训练语言模型的支持，用户可以利用这些模型进行迁移学习，进一步提升模型的性能。

背景与挑战

背景概述

CBLUE（Chinese Biomedical Language Understanding Evaluation）是由中国中文信息学会医疗健康与生物信息处理专业委员会发起，并由阿里云天池平台承办的生物医学自然语言处理数据集。该数据集的创建旨在推动中文医学NLP技术和社区的发展，汇集了来自医渡云、平安医疗科技、北京大学等多家机构的研究力量。CBLUE的设计综合考虑了任务类型和难度，涵盖了医学文本信息抽取、术语归一化、文本分类、句子关系判定和医学问答等五大类任务，旨在构建一个任务类型广泛且具有挑战性的基准测试。

当前挑战

CBLUE数据集面临的挑战主要体现在两个方面：首先，医学文本的复杂性和专业性使得信息抽取任务（如命名实体识别、关系抽取等）变得尤为困难，尤其是在处理真实且带有噪音的业务数据时，模型的鲁棒性要求极高。其次，术语标准化任务需要将医学术语映射到标准词汇表，这一过程不仅依赖于丰富的医学知识，还要求模型具备强大的上下文理解能力。此外，医学文本分类和句子关系判定任务也因文本的多样性和复杂性而充满挑战，尤其是在处理多义词和长距离依赖关系时。

常用场景

经典使用场景

CBLUE数据集在生物医学自然语言处理领域中，广泛应用于医学文本的信息抽取任务，如命名实体识别、术语标准化、关系抽取和事件抽取等。其经典使用场景包括从医学文献中自动提取基因、蛋白质、药物等生物医学实体，并进行标准化处理，以便于进一步的分析和研究。此外，CBLUE还支持医学文本分类、句子相似度分析等任务，为医学文本的自动化处理提供了全面的解决方案。

解决学术问题

CBLUE数据集通过提供高质量的医学文本数据，解决了生物医学自然语言处理中的多个关键学术问题。例如，它通过命名实体识别任务，帮助研究人员从复杂的医学文本中提取出关键的生物医学实体，如基因、蛋白质和药物。术语标准化任务则解决了医学术语的歧义问题，提高了文本分析的准确性。此外，关系抽取和事件抽取任务有助于揭示生物医学实体之间的复杂关系，为生物医学研究提供了重要的数据支持。

实际应用

CBLUE数据集在实际应用中具有广泛的潜力，特别是在智慧医疗领域。例如，它可以用于构建自动化的医学文献分析系统，帮助医生快速获取和理解最新的医学研究成果。此外，CBLUE还可以应用于电子病历的自动化处理，如病历中的实体识别和标准化，从而提高医疗数据的利用效率。在药物研发领域，CBLUE的关系抽取和事件抽取任务可以帮助研究人员快速识别药物与疾病之间的关系，加速新药的研发进程。

数据集最近研究