CBLUE|医疗NLP数据集|信息处理挑战数据集
收藏数据集概述
数据集名称
- Biomedical NLP Corpus Collection
数据集描述
- 专注于生物医学自然语言处理相关的数据集,资源来自论文和会议。
数据集内容
挑战极限
- CBLUE: 中文医疗信息处理挑战榜,涵盖医学文本信息抽取、医学术语归一化、医学文本分类、医学句子关系判定和医学QA等任务。
- BLURB: 生物医学语言理解和推理基准,包含生物医学自然语言处理资源。
信息抽取
- 命名实体识别
- 多个年份的数据集,包括基因、蛋白质、化学化合物、药物、临床医疗实体等的识别。
- 术语标准化
- 涉及基因、蛋白质、化学实体等的规范化任务。
- 关系抽取
- 包括基因-疾病关联、蛋白质-蛋白质交互、化学-蛋白质交互等关系抽取任务。
- 事件抽取
- 涉及生物过程、疾病机制、细菌生物环境等事件的抽取。
- 共指消解
- 主要针对蛋白质/基因的共指消解任务。
文本分析
- 文本分类
- 包括临床文本的分类任务,如患者吸烟状态的分类。
- 双句相似度分析
- 信息未详述。
文档检索
- 信息未详述。
问答系统
- 信息未详述。
知识图谱
- 信息未详述。
预训练语言模型
- 信息未详述。
其他
- 信息未详述。
数据集特点
- 数据集涵盖广泛,从基础的命名实体识别到复杂的事件抽取和共指消解,适用于多种生物医学NLP研究和应用。
- 多数数据集提供详细的任务描述和相关论文链接,便于深入研究和系统开发。
数据集应用
- 适用于生物医学领域的自然语言处理研究,包括但不限于信息抽取、文本分析、问答系统开发等。
- 可用于训练和评估生物医学NLP模型,提高模型在特定任务上的性能。

Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
Breast Cancer Dataset
该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。
github 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录