bluesky333/MedExQA
收藏Hugging Face2024-07-20 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/bluesky333/MedExQA
下载链接
链接失效反馈官方服务:
资源简介:
MedExQA是一个新颖的医学问答基准,旨在通过解释评估大型语言模型(LLMs)对医学知识的理解能力。该数据集包含五个不同的医学专业领域,分别是生物医学工程、临床实验室科学、临床心理学、职业治疗和言语病理学。每个领域都有一定数量的示例和解释相似性评分。数据文件以TSV格式提供,包含问题、选项、解释对和正确答案。该数据集填补了当前医学问答基准中缺乏对LLMs生成详细医学解释能力评估的空白。
MedExQA is a novel benchmark in medical question-answering, designed to evaluate large language models (LLMs) understanding of medical knowledge through explanations. The dataset includes examples from five distinct medical specialties: Biomedical Engineering, Clinical Laboratory Science, Clinical Psychology, Occupational Therapy, and Speech Language Pathology. Each example contains a question, multiple-choice options, explanation pairs, and the correct answer. The dataset aims to fill a major gap in current medical QA benchmarks by assessing LLMs ability to generate nuanced medical explanations and introduces a new medical model, MedPhi2. The dataset is licensed under CC-BY-NC-SA-4.0 and is available in English.
提供机构:
bluesky333
原始信息汇总
MedExQA 数据集概述
数据集结构
- 配置名称:
biomedical_engineerclinical_laboratory_scientistclinical_psychologistoccupational_therapistspeech_pathologist
- 数据文件:
dev和test两个拆分,分别对应开发集和测试集。- 每个配置包含两个数据文件:
dev文件路径:dev/{配置名称}_dev.tsvtest文件路径:test/{配置名称}_test.tsv
数据字段
- 列1:问题
- 列2-5:选项 A, B, C, D
- 列6-7:解释对
- 列8:正确答案选项
数据集统计
- 专业领域:
- Biomedical Engineering:148 个样本,解释相似度 75.8
- Clinical Laboratory Science:377 个样本,解释相似度 73.7
- Clinical Psychology:111 个样本,解释相似度 79.7
- Occupational Therapy:194 个样本,解释相似度 79.5
- Speech Language Pathology:135 个样本,解释相似度 80.5
- 总计:965 个样本,平均解释相似度 78.7
任务类别
- 多选题
- 文本生成
语言
- 英语
标签
- 医学
- 生物学
规模
- 样本数小于 1K
许可证
- CC BY-NC-SA 4.0
引用信息
bibtex @article{kim2024medexqa, title={MedExQA: Medical Question Answering Benchmark with Multiple Explanations}, author={Kim, Yunsoo and Wu, Jinge and Abdulle, Yusuf and Wu, Honghan}, journal={arXiv e-prints}, pages={arXiv--2406}, year={2024} }
搜集汇总
数据集介绍

背景与挑战
背景概述
MedExQA是一个医学问答基准数据集,包含965个示例,覆盖五个医学专业领域,特点是提供了多解释对的医学问答,旨在评估大型语言模型对医学知识的理解能力。
以上内容由遇见数据集搜集并总结生成



