CBLUE|医疗NLP数据集|信息处理挑战数据集

github2024-05-18 更新2024-05-31 收录

医疗NLP

信息处理挑战

下载链接：

https://github.com/zonghui0228/BioMedical-NLP-corpus

下载链接

链接失效反馈

资源简介：

中文医疗信息处理挑战榜CBLUE是中国中文信息学会医疗健康与生物信息处理专业委员会在合法开放共享的理念下发起，由阿里云天池平台承办，并由医渡云（北京）技术有限公司、平安医疗科技、北京大学、郑州大学、鹏城实验室、哈尔滨工业大学(深圳）、同济大学、夸克、阿里巴巴达摩院等开展智慧医疗研究的单位共同协办，旨在推动中文医学NLP技术和社区的发展。榜单在设计上综合考虑了任务类型和任务难度两个维度，目标是建设一个任务类型覆盖广、同时也要保证任务的难度的benchmark，因此榜单在吸收往届CHIP学术评测的同时也适当增加了业界数据集，业务数据集的特点是数据真实且有噪音，对模型的鲁棒性提出了更高的要求。一期榜单任务包括医学文本信息抽取（实体识别、关系抽取）、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务。

The Chinese Biomedical Language Understanding Evaluation (CBLUE) is an initiative launched by the Medical Health and Bioinformatics Committee of the Chinese Information Processing Society of China under the principle of legal open sharing. Hosted by the Alibaba Cloud Tianchi Platform, it is co-organized by Yidu Cloud (Beijing) Technology Co., Ltd., Ping An Healthcare Technology, Peking University, Zhengzhou University, Peng Cheng Laboratory, Harbin Institute of Technology (Shenzhen), Tongji University, Quark, and Alibaba DAMO Academy, among other institutions engaged in smart healthcare research. The aim is to promote the development of Chinese medical NLP technology and its community. The leaderboard is designed with a comprehensive consideration of task types and difficulty levels, aiming to establish a benchmark that covers a wide range of task types while ensuring the difficulty of tasks. Therefore, while incorporating previous CHIP academic evaluations, the leaderboard has appropriately added industry datasets, which are characterized by real and noisy data, posing higher demands on the robustness of models. The first phase of the leaderboard includes five major categories of tasks with eight subtasks: medical text information extraction (entity recognition, relation extraction), medical terminology normalization, medical text classification, medical sentence relation judgment, and medical QA.

创建时间：

2020-10-07

原始信息汇总

数据集概述

数据集名称

Biomedical NLP Corpus Collection

数据集描述

专注于生物医学自然语言处理相关的数据集，资源来自论文和会议。

数据集内容

挑战极限

CBLUE: 中文医疗信息处理挑战榜，涵盖医学文本信息抽取、医学术语归一化、医学文本分类、医学句子关系判定和医学QA等任务。
BLURB: 生物医学语言理解和推理基准，包含生物医学自然语言处理资源。

信息抽取

命名实体识别
- 多个年份的数据集，包括基因、蛋白质、化学化合物、药物、临床医疗实体等的识别。
术语标准化
- 涉及基因、蛋白质、化学实体等的规范化任务。
关系抽取
- 包括基因-疾病关联、蛋白质-蛋白质交互、化学-蛋白质交互等关系抽取任务。
事件抽取
- 涉及生物过程、疾病机制、细菌生物环境等事件的抽取。
共指消解
- 主要针对蛋白质/基因的共指消解任务。

文本分析

文本分类
- 包括临床文本的分类任务，如患者吸烟状态的分类。
双句相似度分析
- 信息未详述。

文档检索

信息未详述。

问答系统

信息未详述。

知识图谱

信息未详述。

预训练语言模型

信息未详述。

其他

信息未详述。

数据集特点

数据集涵盖广泛，从基础的命名实体识别到复杂的事件抽取和共指消解，适用于多种生物医学NLP研究和应用。
多数数据集提供详细的任务描述和相关论文链接，便于深入研究和系统开发。

数据集应用

适用于生物医学领域的自然语言处理研究，包括但不限于信息抽取、文本分析、问答系统开发等。
可用于训练和评估生物医学NLP模型，提高模型在特定任务上的性能。

AI搜集汇总

数据集介绍

构建方式

CBLUE数据集的构建基于合法开放共享的理念，由中国中文信息学会医疗健康与生物信息处理专业委员会发起，并由多家知名机构协办，包括阿里云天池平台、医渡云、平安医疗科技等。该数据集的设计综合考虑了任务类型和任务难度，旨在建设一个任务类型覆盖广、难度适中的基准测试平台。数据集涵盖了医学文本信息抽取、术语归一化、文本分类、句子关系判定和问答系统等五大类任务，共包含8个子任务。数据来源包括学术评测数据和真实业务数据，确保了数据的多样性和真实性。

使用方法

CBLUE数据集适用于多种自然语言处理任务，包括命名实体识别、关系抽取、术语标准化、文本分类和问答系统等。用户可以通过访问CBLUE的GitHub页面或天池平台获取数据集，并根据提供的任务说明进行模型训练和评估。数据集提供了详细的任务描述和评估指标，用户可以根据具体任务选择合适的模型进行实验。此外，CBLUE还提供了预训练语言模型的支持，用户可以利用这些模型进行迁移学习，进一步提升模型的性能。

背景与挑战

背景概述

CBLUE（Chinese Biomedical Language Understanding Evaluation）是由中国中文信息学会医疗健康与生物信息处理专业委员会发起，并由阿里云天池平台承办的生物医学自然语言处理数据集。该数据集的创建旨在推动中文医学NLP技术和社区的发展，汇集了来自医渡云、平安医疗科技、北京大学等多家机构的研究力量。CBLUE的设计综合考虑了任务类型和难度，涵盖了医学文本信息抽取、术语归一化、文本分类、句子关系判定和医学问答等五大类任务，旨在构建一个任务类型广泛且具有挑战性的基准测试。

当前挑战

CBLUE数据集面临的挑战主要体现在两个方面：首先，医学文本的复杂性和专业性使得信息抽取任务（如命名实体识别、关系抽取等）变得尤为困难，尤其是在处理真实且带有噪音的业务数据时，模型的鲁棒性要求极高。其次，术语标准化任务需要将医学术语映射到标准词汇表，这一过程不仅依赖于丰富的医学知识，还要求模型具备强大的上下文理解能力。此外，医学文本分类和句子关系判定任务也因文本的多样性和复杂性而充满挑战，尤其是在处理多义词和长距离依赖关系时。

常用场景

经典使用场景

CBLUE数据集在生物医学自然语言处理领域中，广泛应用于医学文本的信息抽取任务，如命名实体识别、术语标准化、关系抽取和事件抽取等。其经典使用场景包括从医学文献中自动提取基因、蛋白质、药物等生物医学实体，并进行标准化处理，以便于进一步的分析和研究。此外，CBLUE还支持医学文本分类、句子相似度分析等任务，为医学文本的自动化处理提供了全面的解决方案。

解决学术问题

CBLUE数据集通过提供高质量的医学文本数据，解决了生物医学自然语言处理中的多个关键学术问题。例如，它通过命名实体识别任务，帮助研究人员从复杂的医学文本中提取出关键的生物医学实体，如基因、蛋白质和药物。术语标准化任务则解决了医学术语的歧义问题，提高了文本分析的准确性。此外，关系抽取和事件抽取任务有助于揭示生物医学实体之间的复杂关系，为生物医学研究提供了重要的数据支持。

实际应用

CBLUE数据集在实际应用中具有广泛的潜力，特别是在智慧医疗领域。例如，它可以用于构建自动化的医学文献分析系统，帮助医生快速获取和理解最新的医学研究成果。此外，CBLUE还可以应用于电子病历的自动化处理，如病历中的实体识别和标准化，从而提高医疗数据的利用效率。在药物研发领域，CBLUE的关系抽取和事件抽取任务可以帮助研究人员快速识别药物与疾病之间的关系，加速新药的研发进程。

数据集最近研究

最新研究方向

CBLUE数据集在中文医学自然语言处理领域的前沿研究方向主要集中在医学文本信息抽取、术语标准化、文本分类、句子关系判定以及问答系统等任务上。随着智慧医疗的快速发展，CBLUE不仅为学术界提供了丰富的基准数据，还通过引入真实且带有噪音的业务数据，推动了模型鲁棒性的研究。特别是在医学实体识别与关系抽取方面，CBLUE的挑战性任务为研究者提供了深入探索的机会，促进了医学知识图谱的构建与应用。此外，CBLUE的开放共享理念也为全球医学NLP社区的协同发展提供了重要平台，推动了中文医学NLP技术的标准化与国际化进程。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

GME Data

关于2021年GameStop股票活动的数据，包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集：SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV，以及由国防科技大学团队开发的数据集，包括模拟陆基和太空基数据，以及真实手动标注的太空基数据。数据集包含具有各种目标形状（如点目标、斑点目标、扩展目标）、波长（如近红外、短波红外和热红外）、图像分辨率（如256、512、1024、3200等）的图像，以及不同的成像系统（如陆基、空基和太空基成像系统）。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录