CHBench
收藏Hugging Face2025-03-02 更新2025-03-03 收录
下载链接:
https://huggingface.co/datasets/TracyGuo/CHBench
下载链接
链接失效反馈官方服务:
资源简介:
CHBench是一个全面的安全导向中文健康相关基准数据集,旨在评估大型语言模型在理解和处理物理和心理健康问题方面的能力,这些能力需在不同的场景下以安全为导向。CHBench包括6,493个关于精神健康的条目和2,999个关于身体健康的条目,覆盖了广泛的话题。
创建时间:
2025-02-25
搜集汇总
数据集介绍

构建方式
CHBench数据集的构建基于对现有语言模型在理解和处理涉及身心健康问题方面的安全性的全面评估需求。该数据集通过整合6,493条关于心理健康和2,999条关于身体健康的条目,涵盖了广泛的话题,旨在为评估大型语言模型(LLM)的能力提供一个综合性的安全导向基准。
特点
CHBench数据集的特点在于其全面的安全性导向设计,针对中文语言模型在处理健康相关问题的能力进行评估。数据集覆盖了身心健康的多个方面,且在构建过程中,通过五大中文语言模型的响应评估,确保了数据集的实用性和准确性。特别地,对于敏感问题进行了排除,以保证数据集的质量和适用性。
使用方法
使用CHBench数据集时,用户可以依据数据集中提供的心理健康和身体健康条目,对语言模型进行评估。数据集的构建考虑了不同场景下的安全性,用户需注意,部分内容可能包含可能被视为冒犯性的模型输出,使用时应保持谨慎。引用此数据集的研究成果时,应参照提供的文献引用格式进行正确引用。
背景与挑战
背景概述
CHBench数据集,作为首个全面关注安全性的中文健康相关基准,由Guo Chenlu等研究人员于2024年设计并推出。该数据集旨在评估大型语言模型(LLM)在理解和处理涉及身体和心理健康问题的多样化场景中的能力,特别强调安全性视角。CHBench包含了6,493个关于精神健康的条目和2,999个关于身体健康的条目,覆盖了广泛的话题。该数据集的推出,为中文语言模型在健康领域的应用研究提供了重要支撑,对促进相关领域的技术进步和模型评估具有显著影响力。
当前挑战
CHBench数据集面临的挑战主要在于两个方面:一是如何确保模型在处理敏感问题时的响应有效性和安全性,该数据集在构建过程中特别排除了敏感问题;二是构建一个全面且多样化的健康相关数据集,涵盖了身体和心理健康两个维度,这对数据集的构建者提出了较高的要求。此外,数据集在评估过程中,需要选择合适的语言模型作为参照标准,ERNIE Bot因其表现卓越被选为金标准响应,这也反映了评估过程中的挑战和复杂性。
常用场景
经典使用场景
CHBench作为首个面向安全的中文健康相关基准数据集,其经典使用场景在于评测大型语言模型在理解与应对身体和心理健康问题时的能力,特别是在涉及安全的多样化情境下。该数据集包含了6,493条关于心理健康和2,999条关于身体健康的条目,覆盖了广泛的话题,使得研究者能够全面评估模型在处理健康咨询、健康知识普及等任务上的表现。
解决学术问题
该数据集解决了学术研究中如何准确评估大型语言模型在处理健康问题时安全性和有效性的问题,为相关领域的研究提供了可靠的评价标准。通过CHBench,研究者能够识别模型在理解和处理敏感健康问题时的不足,进而指导模型的优化与改进,具有重要的学术意义和影响。
衍生相关工作
基于CHBench,研究者已经进行了一系列的扩展研究,如开发特定的模型来优化敏感问题的处理,以及构建多模态健康数据集以增强模型在健康领域的理解能力。这些相关工作进一步扩展了CHBench的应用范围,推动了健康信息处理技术的发展。
以上内容由遇见数据集搜集并总结生成



