HPAI-BSC/medmcqa-cot|医学数据集|问答系统数据集
收藏数据集概述
基本信息
- 名称: medmcqa-cot
- 许可证: Apache 2.0
- 任务类别:
- 问答
- 多选题
- 语言: 英语
- 标签:
- 医学
- 生物学
- 大小范围: 100K<n<1M
数据集描述
该数据集通过使用Mixtral-8x7B生成思维链(CoT)答案,增强了MedMCQA数据集的训练分割答案质量。数据集创建过程中,模型会重新表述和解释问题,并对每个选项进行解释,最终总结得出最终答案。对于模型未能正确生成答案的情况,会重新生成解决方案直至得到正确答案。
数据集来源
数据集创建
- 目的: 提供一个基于medmcqa的高质量、易于使用的指令调优数据集。
引用信息
-
BibTeX:
@misc{gururajan2024aloe, title={Aloe: A Family of Fine-tuned Open Healthcare LLMs}, author={Ashwin Kumar Gururajan and others}, year={2024}, eprint={2405.01886}, archivePrefix={arXiv}, primaryClass={cs.CL} } @InProceedings{pmlr-v174-pal22a, title = {MedMCQA: A Large-scale Multi-Subject Multi-Choice Dataset for Medical domain Question Answering}, author = {Pal, Ankit and others}, booktitle = {Proceedings of the Conference on Health, Inference, and Learning}, year = {2022}, publisher = {PMLR} }

COVID-19 Data Hub
COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。
covid19datahub.io 收录
望诊影像数据集及诊断文本数据集
中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张,舌诊图片的内容部分为舌头(属口颌系统),面诊图片的内容部分包括了面和唇(属其他系统)、眼睛部分做了脱敏处理,目诊图片的内容部分为眼睛(属感觉系统)。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息;以及面诊图像的唇色、唇形、面神的标注信息;目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。
国家人口健康科学数据中心 收录
China Air Quality Historical Data
该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。
www.cnemc.cn 收录
jojogo9/freshness
该数据集包含图像及其对应的标签,标签分为6类:腐烂的橙子、腐烂的香蕉、腐烂的苹果、新鲜的橙子、新鲜的香蕉、新鲜的苹果。数据集分为训练集和测试集,训练集包含10908个样本,测试集包含2705个样本。数据文件存储在指定的路径下。
hugging_face 收录
Materials Project 在线材料数据库
Materials Project 是一个由伯克利加州大学和劳伦斯伯克利国家实验室于 2011 年共同发起的大型开放式在线材料数据库。这个项目的目标是利用高通量第一性原理计算,为超过百万种无机材料提供全面的性能数据、结构信息和计算模拟结果,以此加速新材料的发现和创新过程。数据库中的数据不仅包括晶体结构和能量特性,还涵盖了电子结构和热力学性质等详尽信息,为研究人员提供了丰富的材料数据资源。相关论文成果为「Commentary: The Materials Project: A materials genome approach to accelerating materials innovation」。
超神经 收录