CHBench

Name: CHBench
Creator: 吉林大学
Published: 2024-09-24 13:44:46
License: 暂无描述

arXiv2024-09-24 更新2024-09-26 收录

下载链接：

https://github.com/TracyGuo2001/CHBench

下载链接

链接失效反馈

官方服务：

资源简介：

CHBench是由吉林大学开发的首个全面的中文健康相关基准数据集，旨在评估大型语言模型（LLMs）在理解和生成健康相关信息方面的能力。该数据集包含6493条心理健康相关数据和2999条生理健康相关数据，涵盖广泛的主题。数据来源于网络帖子、考试和现有数据集，经过精心筛选和标注，确保数据的质量和多样性。CHBench的创建过程包括数据收集、黄金标准响应选择和提示-响应对的标注，旨在为评估中文LLMs在健康领域的性能提供基础。该数据集的应用领域主要集中在健康信息的准确性和可靠性评估，旨在解决大型语言模型在健康相关查询中可能存在的误解和错误信息传播问题。

CHBench is the first comprehensive Chinese health-related benchmark dataset developed by Jilin University, designed to evaluate the capabilities of large language models (LLMs) in understanding and generating health-related information. This dataset includes 6,493 mental health-related entries and 2,999 physical health-related entries, covering a broad spectrum of topics. The data is sourced from online posts, examinations and existing datasets, and has been rigorously screened and annotated to ensure its quality and diversity. The development pipeline of CHBench encompasses three core steps: data collection, gold-standard response selection, and annotation of prompt-response pairs, aiming to provide a foundational resource for evaluating the performance of Chinese LLMs in the healthcare domain. The primary applications of this dataset focus on assessing the accuracy and reliability of health information, with the goal of addressing the problems of misinterpretation and misinformation dissemination that LLMs may face in response to health-related queries.

提供机构：

吉林大学

创建时间：

2024-09-24

原始信息汇总

CHBench 数据集概述

数据集简介

CHBench 是一个综合性的中文健康相关基准数据集，旨在评估大型语言模型（LLMs）在理解和处理各种场景下的身心健康问题的能力。该数据集包含 6,493 条与心理健康相关的条目和 2,999 条与身体健康相关的条目，涵盖了广泛的主题。

数据集组成

心理健康条目：6,493 条
身体健康条目：2,999 条

数据收集与评估

数据集的收集步骤如下：

使用 5 个中文语言模型生成响应，并对这些响应进行评估。
评估的语言模型包括：ERNIE Bot、Qwen、Baichuan、ChatGLM 和 SparkDesk。

关键发现

ERNIE Bot 在大多数提示下提供了最佳的整体响应，因此被用作黄金标准响应。
敏感问题被排除在外，因为 ERNIE Bot 未能为这些问题生成有效的响应。
最终的 CHBench 语料库：2,999 条身体健康条目，6,493 条心理健康条目。

相似性分析

身体健康相似性分析

ChatGLM 在相似性方面表现最佳，与黄金标准响应的相似度最高。
Qwen 在某些查询中标记为有毒，但在高相似性范围内表现良好，但产生了很多无效输出。
SparkDesk 的表现一般。
Baichuan 通过给出中性响应来避免有毒查询的错误，导致更多数据分布在低和中等相似性区间。

心理健康相似性分析

SparkDesk 在高相似性范围内表现最佳，但对某些公共帖子和缩写缺乏理解。
ChatGLM 和 Qwen 也表现良好，但在中等相似性范围内有更多响应，表明存在一定的不一致性。
Qwen 对数据更为敏感，经常将内容标记为有毒。
Baichuan 由于频繁的无效输出，分布更为均匀。

注意事项

数据集中可能包含被认为具有冒犯性的模型输出。

搜集汇总

数据集介绍

构建方式

CHBench数据集的构建过程体现了对大语言模型在健康领域应用的深刻理解。该数据集从网络帖子、考试题目和现有数据集中精心筛选，涵盖了6,493条心理健康相关条目和2,999条生理健康相关条目。数据集的构建不仅注重多样性，还通过强大的中文大语言模型ERNIE Bot生成标准答案，确保了数据集的客观性和一致性。此外，数据集的构建过程中采用了多维度的评估标准，包括准确性、安全性、实用性等，以确保生成的答案质量。

特点

CHBench数据集的显著特点在于其针对性和全面性。作为首个专门用于评估中文大语言模型在健康领域表现的综合性基准，CHBench不仅覆盖了广泛的健康话题，还特别关注了心理和生理健康的不同方面。数据集的条目设计旨在测试模型在复杂和多样的健康场景中的理解和生成能力，从而为模型的性能评估提供了坚实的基础。此外，数据集的构建过程中采用了ERNIE Bot生成的标准答案，确保了评估的客观性和一致性。

使用方法

CHBench数据集的使用方法旨在为研究人员和开发者提供一个全面的评估工具。用户可以通过该数据集对中文大语言模型在健康领域的理解和生成能力进行评估。具体使用时，用户可以利用数据集中的问题和标准答案，通过对比模型生成的答案与标准答案的相似度，来评估模型的性能。此外，数据集还提供了详细的评估标准和方法，帮助用户更准确地理解和应用数据集，从而推动大语言模型在健康领域的进一步发展。

背景与挑战

背景概述

随着大型语言模型（LLMs）的快速发展，评估其在健康相关查询中的表现变得愈发重要。这些模型在现实世界中的应用，特别是在提供医疗建议和支持时，其可靠性至关重要。CHBench数据集由吉林大学人工智能学院的Chenlu Guo、Nuo Xu、Yi Chang和Yuan Wu等人于2024年创建，旨在评估LLMs在理解和生成健康相关信息方面的能力。该数据集包含6,493条心理健康相关条目和2,999条生理健康相关条目，覆盖了广泛的主题。CHBench的推出填补了中文健康相关数据集的空白，为评估中文LLMs在健康领域的性能提供了基础。

当前挑战

CHBench数据集面临的挑战主要包括两个方面。首先，构建过程中遇到的挑战，如数据来源的多样性和质量控制，确保数据集的全面性和准确性。其次，所解决的领域问题挑战，即如何有效评估LLMs在健康相关查询中的表现，特别是在处理复杂和敏感的健康问题时。当前的LLMs在理解健康相关信息方面仍存在显著不足，如误解问题、提供不准确信息或无法有效管理复杂查询。这些挑战突显了进一步改进和优化LLMs在健康领域应用的必要性。

常用场景

经典使用场景

CHBench数据集在评估大型语言模型（LLMs）在健康相关查询中的表现方面具有经典应用。该数据集通过包含6,493条心理健康和2,999条生理健康相关的条目，全面覆盖了健康领域的多样场景。研究者利用CHBench来测试和改进中文LLMs在理解和生成准确健康信息方面的能力，特别是在处理开放式问题和实际生活场景分析时。

衍生相关工作

CHBench数据集的发布催生了一系列相关研究和工作，特别是在中文大型语言模型的健康领域评估和改进方面。例如，研究者利用CHBench进行模型训练和测试，提出了多种优化策略以提高模型在健康查询中的表现。此外，CHBench还激发了对多语言健康数据集的需求和研究，推动了跨语言健康信息处理技术的发展。

数据集最近研究