five

bigbio/blurb

收藏
Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/blurb
下载链接
链接失效反馈
官方服务:
资源简介:
BLURB是一个用于生物医学自然语言处理的资源集合,旨在通过提供一个广泛的基准测试来加速生物医学预训练策略和任务特定方法的发展。它包括13个公开可用的数据集,涵盖6个不同的任务,并采用宏平均作为主要评分标准。BLURB的目标是降低生物医学NLP的入门门槛,并加速这一重要领域的发展。
提供机构:
bigbio
原始信息汇总

数据集概述:BLURB

基本信息

  • 语言: 英语
  • 许可证: 其他(MIXED)
  • 多语言性: 单语
  • PubMed可用性:
  • 公开性:
  • 主要任务: 命名实体识别(NER)

数据集描述

  • 主页: https://microsoft.github.io/BLURB/tasks.html
  • 任务详情: BLURB是一个生物医学自然语言处理的资源集合,包含十三个公开可用的数据集,涵盖六个不同的任务。为避免过度强调任务,如命名实体识别(NER),BLURB主要报告所有任务的宏观平均分数。

数据集组成

  • 数据集包含: 截至2022年10月6日,包含5个子任务,每个任务都有原始的训练集、开发集和测试集。

引用信息

@article{gu2021domain, title = {Domain-specific language model pretraining for biomedical natural language processing}, author = {Gu, Yu and Tinn, Robert and Cheng, Hao and Lucas, Michael and Usuyama, Naoto and Liu, Xiaodong and Naumann, Tristan and Gao, Jianfeng and Poon, Hoifung}, year = 2021, journal = {ACM Transactions on Computing for Healthcare (HEALTH)}, publisher = {ACM New York, NY}, volume = 3, number = 1, pages = {1--23} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作