HalluQA 中文大模型幻觉评估数据集

超神经2024-04-10 更新2024-05-15 收录

下载链接：

https://hyper.ai/cn/datasets/30624

下载链接

链接失效反馈

资源简介：

该存储库包含 HalluQA（中文幻觉问答）基准的数据和评估脚本。 HalluQA 的完整数据位于 HalluQA.json 中。介绍 HalluQA 的论文以及多个中文大语言模型的详细实验结果在这里。 HalluQA 包含 450 个精心设计的对抗性问题，跨越多个领域，并考虑到中国历史文化、习俗和社会现象。

This repository hosts the data and evaluation scripts for the HalluQA (Chinese Hallucinatory Question Answering) benchmark. The full dataset of HalluQA is stored in HalluQA.json. The paper introducing HalluQA, along with detailed experimental results across multiple Chinese large language models, is available here. HalluQA consists of 450 meticulously designed adversarial questions spanning multiple domains, taking into account Chinese history, culture, customs, and social phenomena.

创建时间：

2024-04-03

搜集汇总

数据集介绍

背景与挑战

背景概述

HalluQA 是一个专门用于评估中文大语言模型幻觉问题的基准数据集，包含450个精心设计的对抗性问题，覆盖多个领域并特别融入中国历史文化和社会现象。该数据集提供了完整的评估脚本和详细的研究论文，旨在帮助研究者分析和改进模型在中文语境下的幻觉表现。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集