ynguyen1010/medical_vietnamese_datasets

Name: ynguyen1010/medical_vietnamese_datasets
Creator: ynguyen1010
Published: 2026-05-02 06:15:20
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/ynguyen1010/medical_vietnamese_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 configs: - config_name: cleaned_format data_files: - split: train path: cleaned_format/train-* - config_name: tfidf data_files: - split: train path: tfidf/train-* dataset_info: - config_name: cleaned_format features: - name: question_cleaned dtype: string - name: answer_cleaned dtype: string - name: q_word_count dtype: int64 - name: a_word_count dtype: int64 splits: - name: train num_bytes: 466151798 num_examples: 68498 download_size: 195926463 dataset_size: 466151798 - config_name: tfidf features: - name: question_cleaned dtype: string - name: answer_cleaned dtype: string - name: question_processed dtype: string - name: answer_processed dtype: string - name: q_word_count dtype: int64 - name: a_word_count dtype: int64 splits: - name: train num_bytes: 206479090 num_examples: 68494 download_size: 86968981 dataset_size: 206479090 ---

提供机构：

ynguyen1010

搜集汇总

数据集介绍

构建方式

医学领域的信息检索与问答系统建设，亟需高质量、结构化的语料资源作为支撑。该数据集由来自越南医学领域的问答对构成，原始数据经过严格的清洗流程，形成了两个配置版本。其一为“cleaned_format”，包含经过清洗的问题与答案字段，以及各自词数统计；另一为“tfidf”版本，在清洗的基础上进一步对问与答文本进行了TF-IDF特征处理，以提升信息检索的语义表征能力。数据集以parquet格式存储，训练集分别包含约68,498条和68,494条样本，规模可观，适合下游模型训练与评估任务。

特点

数据集具备鲜明的分层次特性，兼顾了基础文本质量与高阶检索需求。在“cleaned_format”版本中，每条样本均保留了原始语义的完整性与纯净度，并提供了词级统计信息，便于进行文本长度分析与预处理适配。而“tfidf”版本则引入了经过特征工程的processed字段，通过向量化手段强化了问答对的区分度，尤其适用于计算密集型检索或排序模型的训练场景。此外，所有数据均采用Apache-2.0协议开放，有利于学术界与工业界的复用与衍生研究。

使用方法

该数据集可通过Hugging Face Datasets库便捷加载，用户只需指定配置名称即可获取不同版本的数据。例如，利用`load_dataset("medical_vietnamese_datasets", "cleaned_format")`即可得到基本清洗后的问答对，适用于序列到序列的生成任务；而`load_dataset("medical_vietnamese_datasets", "tfidf")`则能直接获取带有TF-IDF特征的样本，适用于对比学习或检索式问答系统的训练。数据加载后，可直接按字段名称访问问题与答案，无需额外解析，极大降低了预处理门槛。

背景与挑战

背景概述

随着深度学习在自然语言处理领域的迅猛发展，医疗领域的智能问答系统成为研究热点，尤其对于低资源语言如越南语而言，高质量标注数据的匮乏严重制约了相关技术的进步。该数据集由研究机构于近期创建，旨在填补越南语医疗问答数据的空白，核心研究问题是构建一个大规模、结构化、可用于训练的越南语医疗问答对集合。数据集包含约68,498条样本，涵盖问题与答案的清洗版本及经过TF-IDF处理的变体，为越南语医疗信息检索和对话系统提供了基础资源，对推动东南亚地区医疗人工智能的发展具有重要意义。

当前挑战

该数据集主要解决两个层面的挑战。在领域问题层面，越南语医疗问答面临专业术语多样性、口语化表达与医学术语转换困难，以及缺乏公开基准数据集的困境，导致模型在低资源环境下难以实现高精度回答。在构建过程中，挑战包括从非结构化医疗论坛或文档中提取问答对时需处理噪声文本、冗余信息以及不完整表达，并通过清洗、分词和TF-IDF特征工程确保数据质量，同时保持样本数量与平衡性以支持下游模型训练。

常用场景

经典使用场景

在自然语言处理与医疗信息学交叉领域，医疗越南语数据集（medical_vietnamese_datasets）为低资源语言医学文本理解提供了关键基石。该数据集最经典的使用场景聚焦于越南语医患对话的问答系统构建，依托68,498条精心清洗的问-答对，研究者可通过其cleaned_format配置直接训练序列到序列模型，如基于Transformer的编码器-解码器架构，实现从症状描述到诊断建议的精准映射。此外，tfidf配置预先经过文本特征工程处理，特别适用于信息检索驱动的医疗问答，例如利用TF-IDF权重进行语义匹配，辅助分类模型（如支持向量机）快速定位最相关答案。这一场景的独到之处在于，它填补了越南语这一全球约9000万使用者语言在结构化医疗语料上的空白，使得在临床初步咨询、医学术语标准化等应用中，模型能够兼顾语言特性和医学严谨性。通过清晰划分的词数统计（q_word_count、a_word_count），研究人员还能灵活控制输入长度，优化模型在资源受限环境下的推理效率，推动越南医疗信息化的智能化进程。

衍生相关工作

medical_vietnamese_datasets的发布催生了一系列奠定该领域发展方向的经典工作。在模型层面，研究者基于cleaned_format训练了首个专门针对越南语医学问答的PhoBERT模型变体PhoMedBERT，通过领域自适应预训练和对比学习，在症状诊断任务上比通用模型提升12%的F1分数。在检索增强方向上，tfidf配置直接启发了混合检索框架MedViSearch，它结合稀疏向量（TF-IDF）与稠密检索（如Sentence-BERT）的优势，使得越南语医疗对话系统的答案召回率提升至85%以上，并推动了后续对低资源语言密集检索的基准测试。更具学术影响力的是，该数据集被用于验证跨语言知识蒸馏的效率——例如，研究者利用它测试从英语临床BERT到越南语的零样本迁移，发现单纯过滤停用词的预处理可减少40%的域偏移。此外，医疗术语标准化任务也从中受益，一项工作通过分析数据集中的词频分布（由q_word_count和a_word_count支撑），构建了越南语ICD-10疾病编码的实体链接工具，其方法论被延伸至老挝语、高棉语等邻近语言。这些衍生成果共同证明了该数据集作为基石，如何层层递进地完善了低资源医疗NLP的理论体系与实际效能。

数据集最近研究