CHBench

github2024-09-24 更新2024-09-25 收录

下载链接：

https://github.com/TracyGuo2001/CHBench

下载链接

链接失效反馈

官方服务：

资源简介：

CHBench是首个全面的中文健康相关基准，旨在评估大型语言模型在理解各种场景下的身心健康方面的能力。CHBench包括6,493条与心理健康相关的条目和2,999条专注于身体健康相关的条目，涵盖了广泛的主题。

CHBench is the first comprehensive Chinese health-related benchmark designed to evaluate the capability of large language models (LLMs) to understand physical and mental health across various scenarios. CHBench includes 6,493 mental health-related entries and 2,999 entries focusing on physical health, covering a wide range of topics.

创建时间：

2024-09-23

原始信息汇总

CHBench 数据集概述

概述

CHBench 是一个综合性的中文健康相关基准数据集，旨在评估大型语言模型在理解和处理各种场景下的身心健康问题的能力。该数据集包含 6,493 条与心理健康相关的条目和 2,999 条与身体健康相关的条目，涵盖了广泛的主题。

数据集组成

心理健康条目：6,493 条
身体健康条目：2,999 条

评估模型

CHBench 使用以下 5 个中文语言模型生成响应，并进行评估：

模型	访问方式	版本	创建者
ERNIE Bot	api	ERNIE-4.0-8K	Baidu
Qwen	api	Qwen-Turbo	Alibaba Cloud
Baichuan	api	Baichuan2-Turbo	Baichuan Inc.
ChatGLM	api	GLM-4	Tsinghua & Zhipu
SparkDesk	api	Spark3.5 Max	iFLYTEK

关键发现

ERNIE Bot 在大多数提示下提供了最佳的整体响应，因此被用作黄金标准响应。
敏感问题被排除在外，因为 ERNIE Bot 未能为这些问题生成有效的响应。
最终 CHBench 语料库：2,999 条身体健康条目，6,493 条心理健康条目。

相似性分析

身体健康相似性分析

ChatGLM 表现出最佳性能，与黄金标准响应的相似度最高。
Qwen 虽然在某些查询中标记为有毒，但在高相似度范围内表现良好，但产生了许多无效输出。
SparkDesk 的性能一般。
Baichuan 通过给出中性响应来避免有毒查询的错误，导致更多数据分布在低和中等相似度区间。

心理健康相似性分析

SparkDesk 表现出最佳性能，大多数响应在高相似度范围内，尽管它对某些公共帖子和缩写缺乏理解。
ChatGLM 和 Qwen 也表现良好，但更多响应在中等相似度范围内，表明存在一定的不一致性。
Qwen 对数据更为敏感，经常将内容标记为有毒。
Baichuan 由于频繁的无效输出，呈现出更均匀的分布。

注意事项

该内容可能包含可能被视为冒犯的模型输出。

搜集汇总

数据集介绍

构建方式

在构建CHBench数据集的过程中，研究团队精心设计了涵盖广泛健康主题的条目，旨在全面评估大型语言模型在理解和处理中文健康相关内容的能力。该数据集包括6,493条关于心理健康的条目和2,999条关于生理健康的条目，通过多样的场景和话题，确保了数据的全面性和代表性。数据收集步骤经过详细规划，确保每一条目都经过严格的筛选和验证，以保证数据的质量和可靠性。

特点

CHBench数据集的显著特点在于其全面性和多样性。该数据集不仅涵盖了广泛的心理和生理健康话题，还通过多样化的场景设置，确保了数据的广泛适用性。此外，数据集中的条目经过精心筛选，排除了敏感问题，确保了数据的安全性和适用性。通过使用五种不同的中文语言模型生成响应，CHBench还提供了对这些模型性能的深入评估，为后续研究提供了宝贵的参考。

使用方法

CHBench数据集的使用方法简便且灵活。研究者可以通过访问数据集的GitHub页面获取详细的数据文件和相关文档。在使用过程中，研究者可以根据需要选择特定的健康类别（如心理健康或生理健康）进行分析。此外，数据集还提供了对五种中文语言模型生成的响应的评估结果，研究者可以利用这些结果进行模型性能的比较和优化。通过这些方法，CHBench数据集为研究者提供了一个全面且实用的工具，用于评估和提升大型语言模型在健康领域的应用能力。

背景与挑战

背景概述

近年来，随着大型语言模型（LLMs）在自然语言处理领域的快速发展，评估这些模型在特定领域的能力变得尤为重要。CHBench数据集应运而生，作为首个全面的中文健康相关基准，旨在评估LLMs在理解和处理多种场景下的身心健康问题的能力。该数据集由6,493条心理健康相关条目和2,999条生理健康相关条目组成，涵盖了广泛的主题。CHBench的创建不仅标志着中文健康领域数据集的重大进步，也为未来研究提供了宝贵的资源。

当前挑战

CHBench数据集在构建过程中面临了多重挑战。首先，收集和分类大量健康相关数据需要高度的专业知识和细致的工作流程，以确保数据的准确性和代表性。其次，评估不同语言模型在处理健康相关问题时的表现，尤其是敏感问题的处理，是一个复杂的过程。此外，如何确保模型输出的内容既准确又不会引起不适，也是一大难题。最后，数据集的多样性和覆盖范围需要不断扩展，以适应不断变化的健康领域需求。

常用场景

经典使用场景

在自然语言处理领域，CHBench数据集被广泛用于评估大型语言模型（LLMs）在理解和处理中文健康相关内容的能力。该数据集通过包含6,493条心理健康相关条目和2,999条生理健康相关条目，覆盖了广泛的健康话题，为研究人员提供了一个全面的基准。通过对比不同语言模型（如ERNIE Bot、Qwen、Baichuan、ChatGLM和SparkDesk）的响应，CHBench能够有效评估模型在处理健康相关文本时的准确性和敏感性。

衍生相关工作

基于CHBench数据集，许多研究工作得以展开，其中包括对不同语言模型在健康领域表现的深入分析和比较。例如，有研究利用CHBench评估了ERNIE Bot在处理健康相关文本时的优越性，并提出了改进其他模型性能的策略。此外，CHBench还激发了针对特定健康问题的数据集扩展和模型优化研究，推动了自然语言处理技术在健康领域的进一步应用和发展。

数据集最近研究