five

HQ-GCM-RA-C1

收藏
arXiv2025-01-05 更新2025-01-08 收录
下载链接:
http://arxiv.org/abs/2501.02471v1
下载链接
链接失效反馈
官方服务:
资源简介:
HQ-GCM-RA-C1是由中医药广东实验室和南方科技大学联合创建的中医类风湿性关节炎(RA)数据集。该数据集涵盖了古代中医文献、现代临床研究、硕士和博士论文等多种来源,共计270,000条数据。数据集的内容包括问题-答案对、病理解释等,旨在为中医类风湿性关节炎的诊断和治疗提供全面的数据支持。数据集的创建过程包括从原始文献中提取信息、生成对话集、并通过滑动窗口方法增强上下文逻辑。该数据集的应用领域主要集中在中医类风湿性关节炎的诊断和治疗,旨在解决现有大语言模型在中医领域的数据稀缺问题,提升模型在中医诊断和治疗中的准确性和文化适应性。

HQ-GCM-RA-C1 is a Traditional Chinese Medicine (TCM) rheumatoid arthritis (RA) dataset jointly created by the Guangdong Laboratory of Traditional Chinese Medicine and Southern University of Science and Technology. This dataset covers multiple sources including ancient TCM literature, modern clinical studies, master's and doctoral dissertations, with a total of 270,000 data entries. Its content includes question-answer pairs, pathological explanations and other materials, aiming to provide comprehensive data support for the diagnosis and treatment of TCM rheumatoid arthritis. The dataset construction process includes extracting information from original documents, generating dialogue datasets, and enhancing contextual logic through the sliding window method. Its application fields mainly focus on the diagnosis and treatment of TCM rheumatoid arthritis, aiming to solve the data scarcity problem of existing Large Language Models (LLMs) in the TCM field, and improve the accuracy and cultural adaptability of models in TCM diagnosis and treatment.
提供机构:
中医药广东实验室, 南方科技大学
创建时间:
2025-01-05
搜集汇总
数据集介绍
main_image_url
构建方式
HQ-GCM-RA-C1数据集的构建基于对中医经典文献、现代临床研究以及国家级考试题目的系统性整理与整合。研究团队从大量古代中医典籍、近万篇硕士与博士论文中提取了与类风湿性关节炎(RA)相关的知识,并通过结构化处理将其转化为问答对、病理描述等多种形式的数据。数据集的构建过程中,采用了滑动窗口技术提取文本片段之间的关系,并通过模糊匹配等方法确保数据的准确性与完整性。此外,数据集还结合了中医诊断与治疗的逻辑链,增强了其在中医领域的适用性。
特点
HQ-GCM-RA-C1数据集的特点在于其专注于中医领域类风湿性关节炎的诊断与治疗,涵盖了从古代经典到现代研究的广泛知识。数据集不仅包含问答对和病理描述,还整合了国家级考试题目和临床案例,使其具有高度的专业性与实用性。此外,数据集通过结构化处理和滑动窗口技术,增强了文本片段之间的逻辑关系,使其能够更好地支持中医诊断与治疗的推理过程。数据集的多样性与专业性使其成为训练中医领域大语言模型的理想资源。
使用方法
HQ-GCM-RA-C1数据集的使用方法主要包括将其用于训练和微调中医领域的大语言模型,如Hengqin-RA-v1。研究人员可以通过数据集中提供的问答对、病理描述和临床案例,构建模型的中医诊断与治疗逻辑。此外,数据集还可用于生成中医诊断报告、推荐治疗方案等任务。在使用过程中,建议结合滑动窗口技术和模糊匹配方法,进一步优化模型的推理能力与准确性。数据集的结构化设计使其能够灵活应用于多种自然语言处理任务,为中医领域的研究与应用提供了有力支持。
背景与挑战
背景概述
HQ-GCM-RA-C1数据集是由中国医学广东实验室和南方科技大学的研究团队于2025年推出的首个专注于类风湿性关节炎(RA)的中医(TCM)语料库。该数据集的创建旨在解决大语言模型(LLMs)在中医领域,尤其是类风湿性关节炎诊断与治疗中的局限性。数据集涵盖了古代中医文献、现代临床研究以及国家级考试题目,形成了一个综合性的资源库,用于训练和优化中医领域的语言模型。该数据集的推出不仅填补了中医领域高质量中文语料库的空白,还为中医智能诊断系统的发展提供了重要支持。
当前挑战
HQ-GCM-RA-C1数据集在构建和应用过程中面临多重挑战。首先,中医领域的语言和文化背景复杂,古代文献中的术语和表达方式与现代医学存在显著差异,导致数据预处理和语义理解的难度增加。其次,类风湿性关节炎的诊断与治疗涉及多种中医理论和实践,数据集的构建需要精确提取和整合这些信息,以确保模型的准确性和可靠性。此外,数据集的规模和质量要求极高,尤其是在缺乏现成的高质量中文医学语料库的情况下,数据收集、清洗和标注的工作量巨大。最后,如何将现代医学数据与中医理论有机结合,进一步提升模型的诊断和治疗能力,也是该数据集面临的核心挑战之一。
常用场景
经典使用场景
HQ-GCM-RA-C1数据集在类风湿性关节炎(RA)的中医诊断与治疗领域具有广泛的应用。该数据集通过整合古代中医文献、现代临床研究及经典文本,为中医语言模型提供了丰富的训练素材。其经典使用场景包括中医诊断推理、治疗方案推荐以及中医知识的自动化问答系统。通过该数据集,模型能够生成符合中医理论的高质量诊断与治疗建议,显著提升了中医智能化系统的表现。
实际应用
在实际应用中,HQ-GCM-RA-C1数据集被广泛用于中医智能化系统的开发,特别是在类风湿性关节炎的诊断与治疗中。通过该数据集训练的模型能够为患者提供个性化的中医治疗方案,辅助医生进行诊断决策。此外,该数据集还被用于中医教育领域,帮助医学生通过自动化问答系统学习中医理论和临床实践,提升中医知识的传播效率。
衍生相关工作
HQ-GCM-RA-C1数据集的推出催生了一系列相关研究工作,特别是在中医语言模型的优化与扩展方面。基于该数据集,研究人员开发了Hengqin-RA-v1模型,该模型在中医诊断与治疗任务中表现出色,甚至在某些情况下超越了人类专家的诊断准确性。此外,该数据集还推动了中医知识图谱的构建,进一步促进了中医智能化系统的发展,为中医领域的其他疾病研究提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作