Arthur-AI/python_wiki_hallucination_graded

Name: Arthur-AI/python_wiki_hallucination_graded
Creator: Arthur-AI
Published: 2024-05-19 00:30:30
License: 暂无描述

Hugging Face2024-05-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Arthur-AI/python_wiki_hallucination_graded

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个实验的产物，该实验旨在评估大型语言模型（LLMs）在回答问题时如何使用提供的上下文信息。实验通过比较模型在回答问题时是否能够准确地基于提供的上下文（Python编程语言的维基百科摘要和历史部分）来回答问题，以及是否能够识别出无法回答的问题并选择不回答。实验还包括对模型回答的正确性和是否基于提供的上下文进行评估。

提供机构：

Arthur-AI

原始信息汇总

RAG + Instruction Following Results from Python Wikipedia benchmark

实验目的

本数据集是Arthur进行的一项实验的产物，旨在比较大型语言模型（LLMs）在给定上下文的情况下回答问题的能力。实验特别关注模型是否能够识别何时缺乏回答问题所需的必要信息，并选择不回答，即“保持基于提供的上下文”。

数据内容

数据集包含关于Python编程语言的问题，每个问题的上下文是Python Wikipedia页面的摘要段落和历史部分。问题被设计成一半可以在提供的上下文中回答，另一半则不能。模型被指示只有在问题可以在上下文中回答时才回答。

评估方法

答案的评估分为正确/不正确和基于上下文的/不基于上下文的两种。正确性评估基于个人判断，是否模型正确理解了问题并提供了关于Python编程语言的真实信息。基于上下文的评估则检查模型是否提及了在提供的Wikipedia上下文中未提及的任何信息。

5,000+

优质数据集

54 个

任务类型

进入经典数据集