pubmed_tb_southafrica_cleaned
收藏Hugging Face2025-09-15 更新2025-09-16 收录
下载链接:
https://huggingface.co/datasets/TTKhosa/pubmed_tb_southafrica_cleaned
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了文档的ID、标题、摘要、实体列表、期刊、作者、发表类型、原始实体数量、清洗后实体数量和验证信息等详细信息。数据集包含一个训练集,可用于文本处理和实体识别等任务。
创建时间:
2025-09-01
原始信息汇总
数据集概述
基本信息
- 数据集名称:pubmed_tb_southafrica_cleaned
- 来源平台:Hugging Face
- 数据集地址:https://huggingface.co/datasets/TTKhosa/pubmed_tb_southafrica_cleaned
数据规模
- 训练集样本数量:573
- 训练集大小:1,295,387.82 字节
- 下载大小:675,142 字节
- 数据集总大小:1,295,387.82 字节
数据结构
特征字段
- doc_id:字符串类型,文档标识符
- title:字符串类型,文献标题
- abstract:字符串类型,文献摘要
- entities:字符串列表,实体信息
- metadata:结构体,包含以下子字段:
- journal:字符串类型,期刊名称
- authors:字符串列表,作者列表
- publication_types:字符串列表,出版物类型列表
- original_entity_count:整型,原始实体数量
- cleaned_entity_count:整型,清理后实体数量
- Validation:字符串类型,验证信息
数据拆分
- 可用拆分:训练集(train)
- 训练集文件路径:data/train-*
配置信息
- 默认配置名称:default
- 数据文件对应关系:训练集对应路径 data/train-*
搜集汇总
数据集介绍

构建方式
在生物医学文献挖掘领域,pubmed_tb_southafrica_cleaned数据集通过系统化流程构建而成。研究人员从PubMed数据库中筛选出与南非结核病研究相关的文献,经过专业清洗与标注,提取了标题、摘要及实体信息,并保留了完整的元数据包括期刊名称、作者列表和出版物类型,确保了数据来源的权威性与结构性。
使用方法
研究者可借助该数据集开展生物医学文本挖掘实验,直接加载训练分割数据用于模型训练与验证。通过解析文档结构,可提取实体与元数据信息,适用于构建结核病领域的知识图谱或训练专业领域的自然语言处理模型,推动精准医学研究发展。
背景与挑战
背景概述
在生物医学信息学领域,南非结核病文献数据集pubmed_tb_southafrica_cleaned由专业研究团队于近年构建,旨在系统整理与南非结核病研究相关的科学文献。该数据集聚焦于结核病这一全球性公共卫生问题,通过结构化存储文献标题、摘要及实体标注信息,为研究人员提供高质量的数据支持,显著促进了结核病流行病学、药物研发和临床治疗策略的研究进展。
当前挑战
该数据集核心挑战在于解决生物医学文献中实体识别与标准化问题,尤其是结核病相关术语在不同语境下的歧义性与多样性。构建过程中需克服原始数据噪声消除、多源文献实体对齐以及标注一致性维护等困难,同时确保医学概念的准确映射与语义完整性,这对自然语言处理技术在专业领域的应用提出了较高要求。
常用场景
经典使用场景
在生物医学信息抽取领域,pubmed_tb_southafrica_cleaned数据集为命名实体识别任务提供了高质量标注语料。研究者利用其包含的标题、摘要和实体标注信息,训练深度学习模型自动识别结核病相关基因、药物和疾病术语,显著提升了医学文献结构化处理的效率。
解决学术问题
该数据集有效解决了医学文本挖掘中实体标注一致性不足的学术难题。通过提供经过专业校验的实体边界和类型标注,为构建高精度生物医学实体识别模型奠定基础,进而推动结核病研究领域的知识发现与文献计量分析向更深层次发展。
实际应用
在实际医疗信息化场景中,该数据集支持构建智能文献检索系统,帮助南非地区医疗工作者快速定位结核病最新研究成果。其标注实体可直接用于临床决策支持系统的知识图谱构建,实现医学证据与临床实践的快速对接。
数据集最近研究
最新研究方向
在结核病研究领域,pubmed_tb_southafrica_cleaned数据集正推动实体识别与知识图谱构建的前沿探索。该数据集聚焦南非地区结核病文献,整合了标题、摘要及实体标注信息,为自然语言处理技术在医学文本挖掘中的应用提供了高质量语料。近期研究热点集中于利用深度学习模型提取药物、基因和疾病实体关系,以支持流行病学趋势分析和临床决策系统开发。这一方向不仅深化了对结核病传播机制的理解,更为全球公共卫生策略的制定提供了数据驱动的科学依据,显著提升了医学文献的智能化利用水平。
以上内容由遇见数据集搜集并总结生成



