five

HQ-GCM-RA-C1|中医数据集|类风湿性关节炎数据集

收藏
arXiv2025-01-05 更新2025-01-08 收录
中医
类风湿性关节炎
下载链接:
http://arxiv.org/abs/2501.02471v1
下载链接
链接失效反馈
资源简介:
HQ-GCM-RA-C1是由中医药广东实验室和南方科技大学联合创建的中医类风湿性关节炎(RA)数据集。该数据集涵盖了古代中医文献、现代临床研究、硕士和博士论文等多种来源,共计270,000条数据。数据集的内容包括问题-答案对、病理解释等,旨在为中医类风湿性关节炎的诊断和治疗提供全面的数据支持。数据集的创建过程包括从原始文献中提取信息、生成对话集、并通过滑动窗口方法增强上下文逻辑。该数据集的应用领域主要集中在中医类风湿性关节炎的诊断和治疗,旨在解决现有大语言模型在中医领域的数据稀缺问题,提升模型在中医诊断和治疗中的准确性和文化适应性。
提供机构:
中医药广东实验室, 南方科技大学
创建时间:
2025-01-05
AI搜集汇总
数据集介绍
main_image_url
构建方式
HQ-GCM-RA-C1数据集的构建基于对中医经典文献、现代临床研究以及国家级考试题目的系统性整理与整合。研究团队从大量古代中医典籍、近万篇硕士与博士论文中提取了与类风湿性关节炎(RA)相关的知识,并通过结构化处理将其转化为问答对、病理描述等多种形式的数据。数据集的构建过程中,采用了滑动窗口技术提取文本片段之间的关系,并通过模糊匹配等方法确保数据的准确性与完整性。此外,数据集还结合了中医诊断与治疗的逻辑链,增强了其在中医领域的适用性。
特点
HQ-GCM-RA-C1数据集的特点在于其专注于中医领域类风湿性关节炎的诊断与治疗,涵盖了从古代经典到现代研究的广泛知识。数据集不仅包含问答对和病理描述,还整合了国家级考试题目和临床案例,使其具有高度的专业性与实用性。此外,数据集通过结构化处理和滑动窗口技术,增强了文本片段之间的逻辑关系,使其能够更好地支持中医诊断与治疗的推理过程。数据集的多样性与专业性使其成为训练中医领域大语言模型的理想资源。
使用方法
HQ-GCM-RA-C1数据集的使用方法主要包括将其用于训练和微调中医领域的大语言模型,如Hengqin-RA-v1。研究人员可以通过数据集中提供的问答对、病理描述和临床案例,构建模型的中医诊断与治疗逻辑。此外,数据集还可用于生成中医诊断报告、推荐治疗方案等任务。在使用过程中,建议结合滑动窗口技术和模糊匹配方法,进一步优化模型的推理能力与准确性。数据集的结构化设计使其能够灵活应用于多种自然语言处理任务,为中医领域的研究与应用提供了有力支持。
背景与挑战
背景概述
HQ-GCM-RA-C1数据集是由中国医学广东实验室和南方科技大学的研究团队于2025年推出的首个专注于类风湿性关节炎(RA)的中医(TCM)语料库。该数据集的创建旨在解决大语言模型(LLMs)在中医领域,尤其是类风湿性关节炎诊断与治疗中的局限性。数据集涵盖了古代中医文献、现代临床研究以及国家级考试题目,形成了一个综合性的资源库,用于训练和优化中医领域的语言模型。该数据集的推出不仅填补了中医领域高质量中文语料库的空白,还为中医智能诊断系统的发展提供了重要支持。
当前挑战
HQ-GCM-RA-C1数据集在构建和应用过程中面临多重挑战。首先,中医领域的语言和文化背景复杂,古代文献中的术语和表达方式与现代医学存在显著差异,导致数据预处理和语义理解的难度增加。其次,类风湿性关节炎的诊断与治疗涉及多种中医理论和实践,数据集的构建需要精确提取和整合这些信息,以确保模型的准确性和可靠性。此外,数据集的规模和质量要求极高,尤其是在缺乏现成的高质量中文医学语料库的情况下,数据收集、清洗和标注的工作量巨大。最后,如何将现代医学数据与中医理论有机结合,进一步提升模型的诊断和治疗能力,也是该数据集面临的核心挑战之一。
常用场景
经典使用场景
HQ-GCM-RA-C1数据集在类风湿性关节炎(RA)的中医诊断与治疗领域具有广泛的应用。该数据集通过整合古代中医文献、现代临床研究及经典文本,为中医语言模型提供了丰富的训练素材。其经典使用场景包括中医诊断推理、治疗方案推荐以及中医知识的自动化问答系统。通过该数据集,模型能够生成符合中医理论的高质量诊断与治疗建议,显著提升了中医智能化系统的表现。
实际应用
在实际应用中,HQ-GCM-RA-C1数据集被广泛用于中医智能化系统的开发,特别是在类风湿性关节炎的诊断与治疗中。通过该数据集训练的模型能够为患者提供个性化的中医治疗方案,辅助医生进行诊断决策。此外,该数据集还被用于中医教育领域,帮助医学生通过自动化问答系统学习中医理论和临床实践,提升中医知识的传播效率。
衍生相关工作
HQ-GCM-RA-C1数据集的推出催生了一系列相关研究工作,特别是在中医语言模型的优化与扩展方面。基于该数据集,研究人员开发了Hengqin-RA-v1模型,该模型在中医诊断与治疗任务中表现出色,甚至在某些情况下超越了人类专家的诊断准确性。此外,该数据集还推动了中医知识图谱的构建,进一步促进了中医智能化系统的发展,为中医领域的其他疾病研究提供了宝贵的参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据,涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。

www.moe.gov.cn 收录

TPTP

TPTP(Thousands of Problems for Theorem Provers)是一个包含大量逻辑问题的数据集,主要用于定理证明器的测试和评估。它包含了多种逻辑形式的问题,如一阶逻辑、高阶逻辑、命题逻辑等。

www.tptp.org 收录

OECD - Education at a Glance

该数据集提供了关于教育系统在不同国家和地区的详细统计数据,包括教育支出、教育参与率、教育成果、教师资源等多个方面。数据涵盖了OECD成员国以及部分非成员国。

www.oecd.org 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

EmoBench-M

EmoBench-M是由深圳大学计算机科学与软件工程学院等机构创建的一个新型基准数据集,旨在评估大型多模态语言模型在情感智能方面的能力。该数据集基于心理学的情感理论,包含13个评估场景,涵盖了基础情感识别、对话情感理解和复杂社会情感分析三个维度。数据集采用视频、音频和文本等多模态数据,为评估大型多模态语言模型在真实世界交互中的情感智能提供了全面的基准。

arXiv 收录