HypoTermQA
收藏arXiv2024-02-26 更新2024-07-23 收录
下载链接:
https://github.com/cemuluoglakci/HypoTermQA
下载链接
链接失效反馈官方服务:
资源简介:
HypoTermQA数据集是由中东技术大学信息系统研究生院的Cem ULUOGLAKCI和Tugba TASKAYA TEMIZEL创建的,用于评估大型语言模型(LLMs)的幻觉倾向。该数据集包含19508个问题,这些问题是通过使用LLMs生成的,旨在测试模型在处理假设现象时的表现。数据集的设计允许在任何领域使用任何语言模型进行基准测试,从而为测试和改进LLMs提供了机会。此外,该框架还具有生成针对特定领域(如法律、健康和金融)定制的基准数据集的潜力。
The HypoTermQA dataset was created by Cem ULUOGLAKCI and Tugba TASKAYA TEMIZEL from the Graduate School of Information Systems, Middle East Technical University, to evaluate the hallucination tendencies of Large Language Models (LLMs). This dataset contains 19,508 questions generated using LLMs, designed to test model performance when dealing with hypothetical phenomena. The design of the dataset enables benchmarking of any language model across any domain, providing opportunities for testing and improving LLMs. Furthermore, this framework has the potential to generate benchmark datasets customized for specific domains such as law, healthcare, and finance.
提供机构:
中东技术大学信息系统研究生院
创建时间:
2024-02-26
原始信息汇总
HypoTermQA 数据集概述
简介
HypoTermQA 数据集用于评估大型语言模型(LLMs)的幻觉倾向。该数据集包含以下内容:
- HypoTermQA 基准数据集:用于评估幻觉倾向的数据集。
- 示例代码:
- 使用 HypoTermQA 数据集与 LLMs 的示例代码。
- 评估 LLMs 幻觉倾向的示例代码。
- 重现论文中数据集创建过程的示例代码。
- 中间结果:
- 数据集生成过程的中间结果。
- LLM 评估过程的中间结果。
使用和示例
该仓库包含多个示例,展示了 HypoTermQA 数据集的不同方面及其与 LLMs 的使用:
- 使用 HypoTermQA 数据集与 LLMs:展示如何使用 HypoTermQA 数据集与语言模型。
- 评估 LLMs 的幻觉倾向:展示如何使用我们的数据集评估语言模型的幻觉倾向。
- 重现论文:提供重现假设数据集创建过程所需的代码。
要求
使用该数据集需要以下环境:
- PYTHON_VERSION=3.10.5
- Ollama Container
- MySql Server
- Mongo DB
- Milvus DB
- Pytorch
设置
按照以下步骤设置开发环境:
-
创建虚拟环境:
-
对于 Unix 或 MacOS: bash python3 -m venv venv
-
对于 Windows: powershell python -m venv venv
-
-
激活虚拟环境:
-
在 Unix 或 MacOS 上: bash source venv/bin/activate
-
在 Windows 上: powershell .venvScriptsactivate
-
-
安装所需包: bash pip install -r requirements.txt



