five

ali5341/pubmedqa-chat-format

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ali5341/pubmedqa-chat-format
下载链接
链接失效反馈
官方服务:
资源简介:
PubMedQA(聊天格式准备)数据集是基于qiaojin/PubMedQA原始数据集的聊天格式预处理版本,专为生物医学问答的监督微调(SFT)设计。该数据集包含训练集、验证集和统计文件,以及一个预处理脚本。原始数据集专注于生物医学研究问答,答案类型为yes/no/maybe,并基于摘要进行决策。预处理过程中采用了标签优先策略,确保监督数据的清洁性,并过滤了无效的最终决策行。数据集的格式为OpenAI风格的messages格式,每条记录包含用户指令、问题和上下文,以及助手的回答和元数据。

PubMedQA (Chat-Format Preparation) is a chat-format preparation of the original qiaojin/PubMedQA dataset for biomedical QA supervised fine-tuning (SFT). The dataset includes training and validation sets, a stats file, and a preparation script. The original dataset focuses on biomedical research QA with yes/no/maybe decisions based on abstracts. The preparation process follows a labeled-first policy for cleaner supervision and filters rows without valid final decisions. The dataset is formatted in the OpenAI-style messages format, with each record containing user instructions, questions, and context, along with assistant responses and metadata.
提供机构:
ali5341
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作