five

nlpaueb/biomrc

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/nlpaueb/biomrc
下载链接
链接失效反馈
官方服务:
资源简介:
我们引入了BIOMRC,这是一个大规模的填空式生物医学机器阅读理解数据集。与之前的BIOREAD数据集相比,我们采取了措施来减少噪声。实验表明,简单的启发式方法在新数据集上表现不佳,而在BIOREAD上测试过的两个神经MRC模型在BIOMRC上表现更好,这表明新数据集确实减少了噪声,或者至少其任务更加可行。非专家的人类在新数据集上的表现也比在BIOREAD上更好,而生物医学专家的表现则更佳。我们还引入了一个新的基于BERT的MRC模型,其最佳版本在实验中显著优于所有其他测试方法,甚至在某些实验中达到或超过了生物医学专家的准确性。我们以三种不同的大小发布了新数据集,并提供了代码和排行榜。

我们引入了BIOMRC,这是一个大规模的填空式生物医学机器阅读理解数据集。与之前的BIOREAD数据集相比,我们采取了措施来减少噪声。实验表明,简单的启发式方法在新数据集上表现不佳,而在BIOREAD上测试过的两个神经MRC模型在BIOMRC上表现更好,这表明新数据集确实减少了噪声,或者至少其任务更加可行。非专家的人类在新数据集上的表现也比在BIOREAD上更好,而生物医学专家的表现则更佳。我们还引入了一个新的基于BERT的MRC模型,其最佳版本在实验中显著优于所有其他测试方法,甚至在某些实验中达到或超过了生物医学专家的准确性。我们以三种不同的大小发布了新数据集,并提供了代码和排行榜。
提供机构:
nlpaueb
原始信息汇总

数据集概述

数据集名称

  • 名称:BIOMRC
  • 别名:biomrc

数据集配置

配置名称 特征 数据分割(示例数) 下载大小 数据集大小
plain_text abstract, title, entities_list, answer train(700000), validation(50000), test(62707) 408.08 MB 1.92 GB
biomrc_large_A abstract, title, entities_list, answer train(700000), validation(50000), test(62707) 408.08 MB 1.92 GB
biomrc_large_B abstract, title, entities_list, answer train(700000), validation(50000), test(62707) 343.06 MB 1.54 GB
biomrc_small_A abstract, title, entities_list, answer train(87500), validation(6250), test(6250) 68.88 MB 236.32 MB
biomrc_small_B abstract, title, entities_list, answer train(87500), validation(6250), test(6250) 57.70 MB 189.62 MB
biomrc_tiny_A abstract, title, entities_list, answer test(30) 0.02 MB 0.07 MB
biomrc_tiny_B abstract, title, entities_list, answer test(30) 0.02 MB 0.06 MB

数据集特征

  • abstract: 字符串类型
  • title: 字符串类型
  • entities_list: 字符串序列列表
  • answer: 字符串类型

数据分割详情

配置名称 训练集示例数 验证集示例数 测试集示例数
plain_text 700000 50000 62707
biomrc_large_A 700000 50000 62707
biomrc_large_B 700000 50000 62707
biomrc_small_A 87500 6250 6250
biomrc_small_B 87500 6250 6250
biomrc_tiny_A - - 30
biomrc_tiny_B - - 30
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作