vestibular-gen_qa
收藏Hugging Face2026-02-08 更新2026-02-09 收录
下载链接:
https://huggingface.co/datasets/CEIA-POSITIVO/vestibular-gen_qa
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一个训练集,共6,417个样本,每个样本包含多个结构化字段。主要特征包括:原始问题(包含问题文本、备选答案A-E、正确答案、难度等级、学科类别和标签)、问答对(包含问题、推理过程和答案)、问题索引以及使用统计信息(包括模型名称、时间戳、token使用量等)。数据集总大小为52.6MB,下载大小为28MB。虽然缺乏明确的背景描述,但从数据结构推断,该数据集可能用于问答系统训练、教育领域的问题理解或相关NLP任务。
创建时间:
2026-02-06
原始信息汇总
数据集概述
基本信息
- 数据集名称: vestibular-gen_qa
- 发布者: CEIA-POSITIVO
- 平台: Hugging Face Datasets
- 详情页面地址: https://huggingface.co/datasets/CEIA-POSITIVO/vestibular-gen_qa
数据规模与结构
- 数据总量: 56,605,979 字节
- 下载大小: 30,125,893 字节
- 训练集样本数: 6,867 条
- 数据分割: 仅包含一个训练集(train)
数据特征(Features)
数据集包含以下四个主要字段:
-
original_question (结构体)
- alternatives (结构体): 包含选项 A、B、C、D、E,均为字符串类型。
- answer: 字符串,表示答案。
- dificuldade: 字符串,表示题目难度。
- question: 字符串,表示问题原文。
- subject: 字符串,表示所属学科。
- tags: 字符串,表示标签。
- titulo: 字符串,表示标题。
-
qa_pairs (列表)
- 列表中的每个元素是一个结构体,包含:
- pergunta: 字符串,表示问题。
- raciocinio: 字符串,表示推理过程。
- resposta: 字符串,表示答案。
- 列表中的每个元素是一个结构体,包含:
-
question_index: int64 类型,表示问题索引。
-
usage (结构体)
- completion_tokens: int64,表示完成令牌数。
- model: 字符串,表示使用的模型。
- prompt_tokens: int64,表示提示令牌数。
- response_id: 字符串,表示响应ID。
- timestamp: 字符串,表示时间戳。
- total_tokens: int64,表示总令牌数。
配置与访问
- 默认配置名称: default
- 数据文件路径:
data/train-*
搜集汇总
数据集介绍

构建方式
在医学教育领域,vestibular-gen_qa数据集通过系统整合巴西大学入学考试(Vestibular)的生物学试题构建而成。该数据集从公开的考试题库中提取原始问题,并利用先进的语言模型对每道题目进行解析与扩展,生成对应的问答对。构建过程中,模型不仅保留了原始试题的结构与答案选项,还添加了详细的推理步骤,从而形成多层次的教育资源。这种构建方式确保了数据在医学知识传递上的准确性与逻辑连贯性,为后续的教育应用奠定了坚实基础。
特点
该数据集的特点体现在其结构化的医学知识表示与丰富的元数据标注上。每个数据样本包含原始试题及其扩展的问答对,其中问题涵盖生物学多个子领域,并附有难度等级、主题标签和标题信息。问答对进一步提供了逐步推理过程,增强了教育解释性。此外,数据集记录了生成过程中的模型使用详情,如令牌消耗和时间戳,为研究提供了透明度。这种设计使得数据集既能支持直接的问答任务,又能促进医学教育中的推理分析与模型评估。
使用方法
使用vestibular-gen_qa数据集时,研究者可将其应用于医学教育技术的开发与评估。数据集可直接用于训练或微调语言模型,以提升其在生物学领域的问答与推理能力。通过解析qa_pairs中的推理步骤,可以构建教育辅助工具,帮助学生理解复杂概念。此外,元数据如难度和主题允许进行分层分析,以研究模型在不同知识领域的表现。在实际应用中,建议结合训练分割中的示例,确保模型学习到准确的医学知识逻辑,同时注意数据集的生成来源以维护学术严谨性。
背景与挑战
背景概述
在医学教育领域,专业知识的评估与传承依赖于高质量的问答数据集,以模拟真实临床决策场景。vestibular-gen_qa数据集应运而生,专注于前庭系统相关医学知识的问答任务,其构建旨在为医学人工智能模型提供结构化、多层次的训练资源。该数据集由专业医学教育机构或研究人员精心编制,通过涵盖解剖、生理、病理及治疗等多个主题,致力于提升模型在复杂医学推理中的表现,从而推动智能辅助诊断与教育工具的发展。
当前挑战
该数据集致力于解决医学问答系统中专业术语理解与多步推理的挑战,要求模型不仅掌握前庭系统的专业知识,还需在模糊或复杂的临床描述中做出准确判断。构建过程中,挑战主要源于医学数据的标注难度,需要领域专家确保问题与答案的临床准确性,同时平衡不同难度级别与主题的覆盖,以维持数据集的多样性与实用性。此外,整合结构化问答对与扩展推理链条,也对数据的一致性与逻辑连贯性提出了较高要求。
常用场景
经典使用场景
在医学教育领域,vestibular-gen_qa数据集为前庭系统相关知识的评估与教学提供了重要资源。该数据集包含大量结构化问答对,涵盖前庭生理、病理及临床诊断等多个主题,常用于训练和评估医学问答系统。研究人员利用其丰富的标注信息,如问题难度、学科标签和推理过程,构建智能辅导工具,以模拟医学考试环境,帮助医学生或专业人员进行自适应学习与知识巩固。
解决学术问题
该数据集有效解决了医学自然语言处理中专业领域知识表示与推理的挑战。通过提供高质量的前庭医学问答数据,它支持研究者探索复杂医学问题的自动理解与生成,促进模型在专业术语处理、多步推理和答案准确性方面的性能提升。其意义在于填补了前庭医学领域公开数据集的空白,为跨学科研究如计算语言学与临床医学的融合提供了实证基础,推动了智能医疗教育工具的发展。
衍生相关工作
围绕vestibular-gen_qa数据集,已衍生出多项经典研究工作,包括基于Transformer架构的医学问答模型优化,如针对前庭领域的BERT变体预训练。这些工作专注于利用数据集的推理链(raciocinio)字段进行可解释性分析,提升模型透明度。同时,研究者结合其难度标签开发了自适应学习算法,推动了个性化医学教育系统的演进,并在国际医学人工智能会议上发表了相关成果。
以上内容由遇见数据集搜集并总结生成



