nlpaueb/biomrc
收藏Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/nlpaueb/biomrc
下载链接
链接失效反馈官方服务:
资源简介:
我们引入了BIOMRC,这是一个大规模的填空式生物医学机器阅读理解数据集。与之前的BIOREAD数据集相比,我们采取了措施来减少噪声。实验表明,简单的启发式方法在新数据集上表现不佳,而在BIOREAD上测试过的两个神经MRC模型在BIOMRC上表现更好,这表明新数据集确实减少了噪声,或者至少其任务更加可行。非专家的人类在新数据集上的表现也比在BIOREAD上更好,而生物医学专家的表现则更佳。我们还引入了一个新的基于BERT的MRC模型,其最佳版本在实验中显著优于所有其他测试方法,甚至在某些实验中达到或超过了生物医学专家的准确性。我们以三种不同的大小发布了新数据集,并提供了代码和排行榜。
我们引入了BIOMRC,这是一个大规模的填空式生物医学机器阅读理解数据集。与之前的BIOREAD数据集相比,我们采取了措施来减少噪声。实验表明,简单的启发式方法在新数据集上表现不佳,而在BIOREAD上测试过的两个神经MRC模型在BIOMRC上表现更好,这表明新数据集确实减少了噪声,或者至少其任务更加可行。非专家的人类在新数据集上的表现也比在BIOREAD上更好,而生物医学专家的表现则更佳。我们还引入了一个新的基于BERT的MRC模型,其最佳版本在实验中显著优于所有其他测试方法,甚至在某些实验中达到或超过了生物医学专家的准确性。我们以三种不同的大小发布了新数据集,并提供了代码和排行榜。
提供机构:
nlpaueb
原始信息汇总
数据集概述
数据集名称
- 名称:BIOMRC
- 别名:biomrc
数据集配置
| 配置名称 | 特征 | 数据分割(示例数) | 下载大小 | 数据集大小 |
|---|---|---|---|---|
| plain_text | abstract, title, entities_list, answer | train(700000), validation(50000), test(62707) | 408.08 MB | 1.92 GB |
| biomrc_large_A | abstract, title, entities_list, answer | train(700000), validation(50000), test(62707) | 408.08 MB | 1.92 GB |
| biomrc_large_B | abstract, title, entities_list, answer | train(700000), validation(50000), test(62707) | 343.06 MB | 1.54 GB |
| biomrc_small_A | abstract, title, entities_list, answer | train(87500), validation(6250), test(6250) | 68.88 MB | 236.32 MB |
| biomrc_small_B | abstract, title, entities_list, answer | train(87500), validation(6250), test(6250) | 57.70 MB | 189.62 MB |
| biomrc_tiny_A | abstract, title, entities_list, answer | test(30) | 0.02 MB | 0.07 MB |
| biomrc_tiny_B | abstract, title, entities_list, answer | test(30) | 0.02 MB | 0.06 MB |
数据集特征
- abstract: 字符串类型
- title: 字符串类型
- entities_list: 字符串序列列表
- answer: 字符串类型
数据分割详情
| 配置名称 | 训练集示例数 | 验证集示例数 | 测试集示例数 |
|---|---|---|---|
| plain_text | 700000 | 50000 | 62707 |
| biomrc_large_A | 700000 | 50000 | 62707 |
| biomrc_large_B | 700000 | 50000 | 62707 |
| biomrc_small_A | 87500 | 6250 | 6250 |
| biomrc_small_B | 87500 | 6250 | 6250 |
| biomrc_tiny_A | - | - | 30 |
| biomrc_tiny_B | - | - | 30 |



