hwtcm
收藏github2024-08-09 更新2024-08-10 收录
下载链接:
https://github.com/huangxinping/HWTCMBench
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于评估大型语言模型在传统中医领域的应用,包含单选题、多选题和判断题。
This dataset is designed to evaluate the application of large language models (LLMs) in the field of traditional Chinese medicine, and comprises single-choice questions, multiple-choice questions, and true-false questions.
创建时间:
2024-08-09
原始信息汇总
HWTCMBench 数据集概述
数据集简介
HWTCMBench 是一个用于评估大型语言模型在传统中医学领域的综合基准数据集。
数据集版本
- 2024-08-09: 首次发布
数据集链接
数据集可通过以下链接获取:HWTCMBench 数据集
模型准确率基准
以下是不同模型在数据集上的准确率表现:
| 模型名称 | 单选题准确率 | 多选题准确率 | 判断题准确率 |
|---|---|---|---|
| llama3:8b | 21.94% | 17.71% | 46.56% |
| phi3:14b-instruct | 26.93% | 1.04% | 38.93% |
| aya:8b | 17.85% | 1.04% | 34.35% |
| mistral:7b-instruct | 21.76% | 2.08% | 48.09% |
| qwen1.5-7b-chat | 51.35% | 13.54% | 46.56% |
| qwen1.5-14b-chat | 69.94% | 78.12% | 31.30% |
| huangdi-13b-chat | 21.73% | 45.83% | 0.00% |
| canggong-14b-chat(SFT) | 55.98% | 4.17% | 23.66% |
| canggong-14b-chat(DPO) | 72.33% | 2.08% | 45.80% |
canggong-14b-chat 是一个仍在训练中的传统中医学领域的大型语言模型。
搜集汇总
数据集介绍

构建方式
在传统中医领域,hwtcm数据集的构建旨在为大型语言模型提供一个全面的评估基准。该数据集通过精心设计,涵盖了多种题型,包括单选题、多选题和判断题,共计7226道题目。这些题目不仅覆盖了广泛的中医知识,还确保了题目的多样性和复杂性,从而能够全面评估模型在中医领域的理解和应用能力。
特点
hwtcm数据集的显著特点在于其题型的多样性和内容的深度。数据集不仅包含了传统的单选题和判断题,还引入了多选题,这种设计能够更全面地测试模型的多维度理解能力。此外,数据集中的题目均来源于权威的中医文献和临床实践,确保了数据的真实性和可靠性。
使用方法
hwtcm数据集主要用于评估和提升大型语言模型在传统中医领域的性能。用户可以通过访问Hugging Face平台获取该数据集,并将其应用于模型的训练和测试。数据集的多样题型设计使得用户能够全面评估模型在不同情境下的表现,从而进行针对性的优化和改进。
背景与挑战
背景概述
在传统中医(TCM)领域,随着人工智能技术的迅猛发展,评估大型语言模型(LLMs)在中医知识处理中的表现成为一项重要研究课题。HWTCMBench数据集于2024年7月20日首次亮相,由Monor团队创建,旨在提供一个全面的基准,用于评估LLMs在中医领域的应用。该数据集包含7226个问题,涵盖单选题、多选题和判断题,为研究人员提供了一个标准化的测试平台,以衡量不同模型在中医知识处理上的准确性和性能。HWTCMBench的推出,标志着中医与人工智能结合研究的一个重要里程碑,对推动中医智能化发展具有深远影响。
当前挑战
尽管HWTCMBench数据集为评估LLMs在中医领域的应用提供了宝贵的资源,但其构建和应用过程中仍面临诸多挑战。首先,中医知识的复杂性和多样性使得数据集的构建需要涵盖广泛且深入的中医理论和实践知识,这对数据集的质量和全面性提出了高要求。其次,不同LLMs在处理中医问题时的表现差异显著,如模型huangdi-13b-chat在判断题上的表现几乎为零,这表明现有模型在理解和应用中医知识方面仍存在显著不足。此外,数据集的更新和维护也是一个持续的挑战,以确保其能够反映中医领域的最新发展和研究成果。
常用场景
经典使用场景
在传统中医领域,HWTCMBench数据集被广泛用于评估大型语言模型(LLMs)在处理中医相关问题时的准确性和性能。该数据集包含了多种题型,如单选题、多选题和判断题,为研究人员提供了一个全面的基准来测试和比较不同模型的表现。通过这些题型的评估,可以深入了解模型在中医知识理解和应用方面的能力。
解决学术问题
HWTCMBench数据集解决了在传统中医领域中,如何有效评估和提升大型语言模型性能的学术问题。通过提供多样化的题型和丰富的中医知识内容,该数据集为研究人员提供了一个标准化的测试平台,有助于揭示模型在处理复杂中医问题时的优势和不足。这不仅推动了中医知识的数字化和智能化进程,也为相关领域的研究提供了宝贵的数据支持。
衍生相关工作
基于HWTCMBench数据集,研究人员已开展了一系列相关工作,包括但不限于优化中医知识图谱、开发智能诊断算法和提升模型在特定中医问题上的表现。例如,通过对比不同模型的性能,研究人员可以发现并改进模型的弱点,从而提升整体性能。此外,该数据集还激发了更多关于中医知识与人工智能结合的研究,推动了该领域的技术进步和创新。
以上内容由遇见数据集搜集并总结生成



