five

TCM metaphor-rich dataset

收藏
arXiv2025-03-05 更新2025-03-06 收录
下载链接:
http://arxiv.org/abs/2503.02760v1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个隐喻丰富的传统中医药(TCM)数据集,由山东师范大学信息科学与工程学院创建。数据集包含了大量的TCM隐喻表达,用于训练和测试多智能体系统在将TCM隐喻准确映射到西医病理生理学方面的性能。数据集的具体大小和条目未在文中明确说明,但强调了其用于支持临床决策、跨系统教育计划和综合医疗研究的重要性。

This is a traditional Chinese medicine (TCM) dataset rich in metaphors, created by the School of Information Science and Engineering, Shandong Normal University. The dataset contains a large number of TCM metaphorical expressions, which are used to train and test the performance of multi-agent systems in accurately mapping TCM metaphors to Western medical pathophysiology. The specific size and number of entries of the dataset are not explicitly stated in the text, but its importance in supporting clinical decision-making, cross-system educational programs, and integrated medical research is emphasized.
提供机构:
山东师范大学信息科学与工程学院
创建时间:
2025-03-05
搜集汇总
数据集介绍
main_image_url
构建方式
TCM metaphor-rich dataset的构建方式是通过多源数据收集和层次化标注过程实现的。数据集从经典中医文献、现代临床记录、处方数据库以及并行西医健康数据中提取了2801个句子,这些句子经过精心挑选和分类,以反映不同的理论对应关系和不同程度的语言复杂性。数据来源包括权威的中医教科书、经典作品以及西医的术语和教材。构建过程中,采用了四阶段分层筛选,以确保句子反映了中医和西医对疾病的理解。数据集被分为训练集和测试集,并通过分层抽样来确保多样性。
特点
TCM metaphor-rich dataset的特点在于其丰富的隐喻表达和多元的医学理论融合。数据集涵盖了中医和西医的理论术语,并通过一致的SVO结构(主语-谓语-宾语)来减少句法变异性,提高清晰度。该数据集不仅反映了中医的整体健康观念,还包含了西医的病理生理学概念,旨在通过隐喻表达来连接这两个不同的医学范式。数据集的构建还考虑到了中医的复杂性,包括其语言和哲学遗产,以及与西方医学量化模型的差异。
使用方法
TCM metaphor-rich dataset的使用方法包括对中医隐喻的解析和将它们映射到西医病理生理学。数据集通过多智能体系统实现,其中TCM专家智能体负责根据中医的经典理论解释隐喻表达,而西医专家智能体则将这些解释与当代生物医学科学相结合。协调智能体则负责整合两个输出,揭示概念上的对应或差异。此外,链式思维(CoT)机制被用于增强透明度和可解释性,通过记录每个智能体的推理步骤,使领域专家能够验证或修订逻辑转换,从而最小化“黑盒”推理的风险。数据集的使用还包括对模型性能的评估,以及通过比较具有和不具有CoT提示的模型来验证该方法的有效性。
背景与挑战
背景概述
中医药(TCM)以其丰富的隐喻表达而闻名,这些表达承载着复杂的疾病机制和整体健康概念,通常使用文化丰富且抽象的术语。为了解决将TCM隐喻与基于解剖学的西方医学(WM)概念之间的差距,研究人员提出了一个多智能体和思维链(CoT)框架,旨在准确地解释TCM隐喻并将其映射到WM病理生理学。该数据集由山东师范大学信息科学与工程学院的唐嘉诚等研究人员创建,旨在支持临床决策、跨系统教育倡议和综合医疗研究,从而为TCM的象征性语言与西方医学的机械论焦点之间的调和提供了一个坚实的框架。
当前挑战
该数据集面临的挑战包括:1) 所解决的领域问题的挑战,即如何将TCM的隐喻语言准确映射到WM的病理生理学;2) 构建过程中所遇到的挑战,例如如何构建一个隐喻丰富的TCM数据集,以及如何有效地整合多智能体协作和CoT推理。这些挑战要求一个方法论的合成,结合先进的AI技术和TCM理论,以解决TCM隐喻语言的复杂性和文化嵌入性。
常用场景
经典使用场景
该数据集被用于构建一个多代理和思维链(CoT)框架,旨在准确解释中医隐喻并将其映射到西医病理生理学。该框架结合了领域特定的代理(中医专家、西医专家)与协调代理,利用逐步的思维链提示来确保透明的推理和冲突解决。该数据集为训练这些代理提供了丰富的隐喻内容,帮助它们理解和翻译中医的复杂术语。
解决学术问题
该数据集解决了中医隐喻难以直接解剖或病理翻译的问题,这为跨学科交流带来了挑战。此外,该数据集也解决了现有的大型语言模型(LLMs)在解释隐喻丰富的中医描述时的局限性。该数据集通过提供丰富的隐喻内容,帮助LLMs更好地理解和翻译中医的复杂术语,从而促进了中医和西医之间的概念融合。
衍生相关工作
该数据集衍生了与中医隐喻推理和大型语言模型(LLMs)相关的工作。例如,研究人员可以探索如何使用LLMs来解释和翻译其他领域的隐喻语言,如文学、艺术等。此外,该数据集还可以用于开发其他多代理系统和思维链框架,以解决其他领域的推理问题。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作