BioMistral/BioInstructQA
收藏Hugging Face2024-02-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BioMistral/BioInstructQA
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
task_categories:
- question-answering
language:
- fr
- en
- de
- es
- pt
- zh
- ru
tags:
- medical
- biology
- BioMistral
pretty_name: ' BioInstructQA'
size_categories:
- 100K<n<1M
---
| | MMLU | MMLU | MMLU | MMLU | MMLU | MMLU | | | |
|:---------------------:|:--------------------:|:-------------------------:|:----------------:|:---------------------:|:------------------------:|:-------------------------:|:-------------------:|:------------------:|:---------------------:|
| | **Clinical KG** | **Medical Genetics** | **Anatomy** | **Pro Medicine** | **College Biology** | **College Medicine** | **MedQA** | **PubMedQA** | **MedMCQA** |
| **Answer options** | A / B / C / D | A / B / C / D | A / B / C / D | A / B / C / D | A / B / C / D | A / B / C / D | A / B / C / D / *(E)* | Yes / No / Maybe | A / B / C / D |
| **Train / Valid. / Test** | 0 / 0 / 265 | 0 / 0 / 100 | 0 / 0 / 135 | 0 / 0 / 272 | 0 / 0 / 144 | 0 / 0 / 173 | 10178 / 1272 / 1273 | 211269 / 500 / 500 | 146257 / 36565 / 4183 |
| **Words / Questions** | 11.09 | 12.34 | 13.65 | 105.46 | 22.40 | 48.84 | 118.16 | 13.08 | 14.05 |
| **Context** | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ✔️ | ❌ |
许可证:Apache-2.0
任务类别:
- 问答(Question Answering)
语言:
- 法语(fr)
- 英语(en)
- 德语(de)
- 西班牙语(es)
- 葡萄牙语(pt)
- 中文(zh)
- 俄语(ru)
标签:
- 医疗(medical)
- 生物学(biology)
- BioMistral
展示名:BioInstructQA
规模类别:
- 100K < 样本量 < 1M
| | MMLU | MMLU | MMLU | MMLU | MMLU | MMLU | | | |
|:---------------------:|:--------------------:|:-------------------------:|:----------------:|:---------------------:|:------------------------:|:-------------------------:|:-------------------:|:------------------:|:---------------------:|
| | **临床知识图谱(Clinical KG)** | **医学遗传学(Medical Genetics)** | **解剖学(Anatomy)** | **医学预科(Pro Medicine)** | **大学生物学(College Biology)** | **大学医学(College Medicine)** | **MedQA** | **PubMedQA** | **MedMCQA** |
| **答案选项** | A / B / C / D | A / B / C / D | A / B / C / D | A / B / C / D | A / B / C / D | A / B / C / D | A / B / C / D / *(E)* | 是 / 否 / 不确定 | A / B / C / D |
| **训练集 / 验证集 / 测试集** | 0 / 0 / 265 | 0 / 0 / 100 | 0 / 0 / 135 | 0 / 0 / 272 | 0 / 0 / 144 | 0 / 0 / 173 | 10178 / 1272 / 1273 | 211269 / 500 / 500 | 146257 / 36565 / 4183 |
| **单题平均词数** | 11.09 | 12.34 | 13.65 | 105.46 | 22.40 | 48.84 | 118.16 | 13.08 | 14.05 |
| **上下文** | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ✔️ | ❌ |
提供机构:
BioMistral
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 问答
- 语言: 法语、英语、德语、西班牙语、葡萄牙语、中文、俄语
- 标签: 医学、生物学、BioMistral
- 名称: BioInstructQA
- 大小类别: 100K<n<1M
详细信息
| Clinical KG | Medical Genetics | Anatomy | Pro Medicine | College Biology | College Medicine | MedQA | PubMedQA | MedMCQA | |
|---|---|---|---|---|---|---|---|---|---|
| Answer options | A / B / C / D | A / B / C / D | A / B / C / D | A / B / C / D | A / B / C / D | A / B / C / D | A / B / C / D / (E) | Yes / No / Maybe | A / B / C / D |
| Train / Valid. / Test | 0 / 0 / 265 | 0 / 0 / 100 | 0 / 0 / 135 | 0 / 0 / 272 | 0 / 0 / 144 | 0 / 0 / 173 | 10178 / 1272 / 1273 | 211269 / 500 / 500 | 146257 / 36565 / 4183 |
| Words / Questions | 11.09 | 12.34 | 13.65 | 105.46 | 22.40 | 48.84 | 118.16 | 13.08 | 14.05 |
| Context | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ✔️ | ❌ |
搜集汇总
数据集介绍

构建方式
BioMistral/BioInstructQA数据集的构建基于多语言的医学和生物学领域知识,旨在提供一个全面且多样化的问答资源。该数据集通过整合来自不同医学和生物学子领域的问答数据,如临床知识图谱、医学遗传学、解剖学等,确保了内容的广泛性和专业性。数据集的构建过程中,特别注重了问题的多样性和答案的准确性,以适应不同语言和不同层次的学习者需求。
使用方法
BioMistral/BioInstructQA数据集适用于多种问答任务,特别是在医学和生物学领域的应用。用户可以通过该数据集进行模型训练、验证和测试,以提升在特定领域内的问答能力。数据集的多语言特性使其适用于全球范围内的研究和教育活动,用户可以根据需要选择不同的语言版本进行学习和研究。
背景与挑战
背景概述
BioMistral/BioInstructQA数据集是由BioMistral团队开发,专注于医学和生物学领域的问答任务。该数据集创建于近期,旨在通过多语言支持(包括法语、英语、德语、西班牙语、葡萄牙语、中文和俄语)来提升医学和生物学领域的问答系统性能。主要研究人员和机构通过整合多个医学和生物学相关的子领域数据,如临床知识图谱、医学遗传学、解剖学等,构建了一个包含超过10万条数据的问答库。该数据集的发布对医学和生物学领域的研究具有重要意义,尤其是在多语言医学问答系统的开发和评估方面。
当前挑战
BioMistral/BioInstructQA数据集在构建过程中面临多项挑战。首先,多语言数据的整合与标准化是一个复杂的过程,需要确保不同语言之间的语义一致性和数据质量。其次,医学和生物学领域的专业性要求数据集中的问题和答案具有高度的准确性和专业性,这对数据标注和验证提出了严格的要求。此外,数据集的多样性和覆盖范围也是一个挑战,需要涵盖多个子领域和不同难度的问答任务,以确保数据集的广泛适用性和实用性。
常用场景
经典使用场景
BioMistral/BioInstructQA数据集在生物医学领域中,主要用于多语言的问答系统构建。其经典使用场景包括开发针对临床知识图谱、医学遗传学、解剖学等专业领域的智能问答系统。通过提供多语言支持,该数据集能够帮助研究人员和开发者构建跨语言的生物医学问答模型,从而提升全球范围内医疗信息获取的效率和准确性。
解决学术问题
该数据集解决了生物医学领域中多语言问答系统的构建难题,尤其是在处理复杂医学术语和专业知识时,如何确保问答系统的高准确性和跨语言适应性。通过提供丰富的多语言问答数据,BioInstructQA为学术界提供了一个标准化的测试平台,推动了多语言医学问答系统的研究进展,具有重要的学术意义和实际应用价值。
实际应用
在实际应用中,BioMistral/BioInstructQA数据集可用于开发智能医疗助手、在线医学教育平台以及跨语言的医疗咨询系统。这些应用场景能够帮助医生、学生和患者快速获取准确的医学信息,特别是在多语言环境下,提升医疗服务的普及性和可及性。此外,该数据集还可用于医学考试辅助系统,帮助考生进行模拟训练和知识巩固。
数据集最近研究
最新研究方向
在生物医学领域,BioMistral/BioInstructQA数据集的最新研究方向主要集中在多语言医学问答系统的开发与优化。该数据集涵盖了多种语言,如法语、英语、德语等,为跨语言医学知识的传播和应用提供了丰富的资源。研究者们正致力于利用这一数据集提升医学问答系统的准确性和适用性,特别是在临床知识图谱、医学遗传学和解剖学等细分领域。此外,该数据集的引入也为多语言医学教育资源的开发提供了新的可能性,有助于推动全球医学教育和研究的均衡发展。
以上内容由遇见数据集搜集并总结生成



