five

ferrazzipietro/mesh_gaussian_Llama-3.1-8B-Instruct_1203965

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/ferrazzipietro/mesh_gaussian_Llama-3.1-8B-Instruct_1203965
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: id dtype: string - name: label dtype: string - name: sentence dtype: string - name: has_group_left dtype: bool - name: note_id dtype: string - name: dedup_val dtype: string - name: __index_level_0__ dtype: int64 splits: - name: train num_bytes: 1318083422 num_examples: 778512 - name: validation num_bytes: 98705314 num_examples: 57921 download_size: 377872193 dataset_size: 1416788736 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* ---
提供机构:
ferrazzipietro
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于Llama-3.1-8B-Instruct模型生成,由超过120万条医学领域文本样本构成。数据集的构建首先从大规模生物医学语料中提取原始句子,随后通过自动化流水线进行语义标注,利用预训练语言模型对每条样本赋予MeSH(医学主题词表)标签。每个样本均包含唯一标识符、标签、原始句子、分组标识及去重标记等字段,并按照约93:7的比例划分为训练集(778,512条)和验证集(57,921条),确保模型训练与评估的独立性与代表性。
特点
数据集具有鲜明的多模态语义特征,其标签体系直接关联MeSH医学主题词表,覆盖疾病、药物、解剖学等核心医学术语,适用于细粒度文本分类与语义标引任务。字段设计兼顾结构化与非结构化数据,如`has_group_left`布尔字段可辅助分析上下文分组关系,而`dedup_val`字段则为数据去重提供了可追溯的验证机制。整体规模达1.4GB,兼具大规模与高质量特性,尤其适合医学自然语言处理中的监督学习场景。
使用方法
使用时可直接通过HuggingFace Datasets库加载,默认配置下将自动读取`data/train-*`和`data/validation-*`分片文件,无需额外预处理。数据集支持以`sentence`字段作为输入文本、`label`字段作为分类目标进行序列标注或文本分类任务训练。用户可根据需求灵活选择训练集与验证集,亦可结合`note_id`或`dedup_val`字段进行数据过滤或交叉验证,兼容PyTorch、TensorFlow等主流深度学习框架的数据流水线。
背景与挑战
背景概述
该数据集名为mesh_gaussian_Llama-3.1-8B-Instruct_1203965,由相关研究团队基于Meta的Llama-3.1-8B-Instruct模型构建,创建时间聚焦于2024年。数据集包含约83.6万条样本,分为训练集(77.8万条)和验证集(5.8万条),核心研究问题在于利用大语言模型生成高质量的结构化文本数据,以支持自然语言处理中的分类与对齐任务。该数据集属于指令微调领域的衍生资源,通过引入MeSH(医学主题词表)和Gaussian分布等混合策略,旨在提升模型对细粒度标签的理解与生成能力。其发布对医学文本分类、知识图谱构建及大模型领域适配具有潜在推动作用,为后续研究提供了基准数据支撑。
当前挑战
数据集所聚焦的领域挑战在于解决医学文本分类中的标签稀疏性和语义歧义问题,MeSH标签具有层次化和多义性特征,模型需在有限样本下准确捕捉细粒度语义关联。构建过程中面临的关键挑战包括:1)数据清洗与去重,README中dedup_val字段表明需要处理大规模重复样本,以确保训练集的多样性与噪声控制;2)标签一致性,label字段需与sentence严格对应,避免因模型生成偏差导致标注错误;3)高效的数据组织,数据集大小为1.4GB,分片存储与跨模态对齐增加预处理复杂度。此外,如何平衡训练-验证集比例(约13:1)以缓解过拟合,也是构建中的实际难题。
常用场景
经典使用场景
在自然语言处理与生物医学文本挖掘的交汇地带,Mesh_Gaussian_Llama-3.1-8B-Instruct_1203965数据集凭借其独特的标注结构,成为医学主题标引与语义分类任务的标杆性资源。该数据集以句子为基本单元,配备细粒度的MeSH标签、分组标识符以及去重标记,尤其适用于训练大语言模型对临床文献、病例报告或科研摘要进行精准的MeSH主题词分配。研究者常利用其庞大的训练语料(近78万条样本)构建文本分类器,旨在自动生成符合医学标引规范的术语标签,从而提升文献检索系统的查准率与查全率,这构成了该数据集最经典且广泛采用的学术使用路径。
解决学术问题
该数据集精准回应了生物医学信息检索中自动术语标引这一长期存在的学术挑战。传统上,专业标引员为每篇文献手动匹配MeSH词库中的主题词,不仅耗时费力,且难以保证跨数据库的一致性。本研究资源通过提供大规模、带结构性标注的训练数据,使模型能够学习句子级语义与多层次标签之间的映射关系,从而在无需人工干预的情况下完成高质量的自动标引。这一突破不仅缓解了海量医学文本快速索引的现实困境,还为跨语言文献组织、知识图谱构建以及基于证据的临床决策支持系统奠定了坚实的语料基础,在推动语义化健康信息服务方面具有深远意义。
衍生相关工作
围绕这一数据集,学术界衍生出一系列富有启发性的经典工作。不少研究将其作为基准,改进基于Transformer架构的标引模型,例如通过引入对比学习或提示学习范式来增强对稀有MeSH标签的分类鲁棒性。另有工作探索了标签层次结构建模,将数据集中的分组信息融入多标签分类损失函数,有效提升了长尾标签的召回表现。此外,部分研究还尝试将本数据集与多语言预训练模型(如XLM-R)结合,扩展MeSH标引至中文或法文书目文本,推动了跨语言生物医学信息处理的生态建设。这些衍生贡献共同验证了该语料在驱动前沿方法迭代与领域知识迁移方面不可替代的支撑作用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作