HPAI-BSC/pubmedqa-cot
收藏数据集概述
基本信息
- 数据集名称: pubmedqa-cot
- 许可证: Apache 2.0
- 语言: 英语
- 标签: 医学、生物学
- 大小分类: 100K<n<1M
- 任务分类: 多项选择、问答
数据集描述
该数据集通过使用Mixtral-8x7B生成链式思考(CoT)答案,增强了PubMedQA数据集的训练分割的答案质量。数据集创建了自定义提示和手工制作的少量示例,用于多选答案。模型在生成过程中还会得到解决方案和参考答案,对于未能生成正确响应的情况,会重新生成解决方案直至得到正确响应。
数据集来源
数据集创建
- 创建理由: 提供一个基于pubmedqa的高质量、易于使用的指令调优数据集。
引用信息
-
BibTeX:
@misc{gururajan2024aloe, title={Aloe: A Family of Fine-tuned Open Healthcare LLMs}, author={Ashwin Kumar Gururajan and others}, year={2024}, eprint={2405.01886}, archivePrefix={arXiv}, primaryClass={cs.CL} } @inproceedings{jin2019pubmedqa, title={PubMedQA: A Dataset for Biomedical Research Question Answering}, author={Jin, Qiao and others}, booktitle={Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)}, pages={2567--2577}, year={2019} }




