Arthur-AI/python_wiki_hallucination_graded
收藏Hugging Face2024-05-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Arthur-AI/python_wiki_hallucination_graded
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个实验的产物,该实验旨在评估大型语言模型(LLMs)在回答问题时如何使用提供的上下文信息。实验通过比较模型在回答问题时是否能够准确地基于提供的上下文(Python编程语言的维基百科摘要和历史部分)来回答问题,以及是否能够识别出无法回答的问题并选择不回答。实验还包括对模型回答的正确性和是否基于提供的上下文进行评估。
该数据集是一个实验的产物,该实验旨在评估大型语言模型(LLMs)在回答问题时如何使用提供的上下文信息。实验通过比较模型在回答问题时是否能够准确地基于提供的上下文(Python编程语言的维基百科摘要和历史部分)来回答问题,以及是否能够识别出无法回答的问题并选择不回答。实验还包括对模型回答的正确性和是否基于提供的上下文进行评估。
提供机构:
Arthur-AI
原始信息汇总
RAG + Instruction Following Results from Python Wikipedia benchmark
实验目的
本数据集是Arthur进行的一项实验的产物,旨在比较大型语言模型(LLMs)在给定上下文的情况下回答问题的能力。实验特别关注模型是否能够识别何时缺乏回答问题所需的必要信息,并选择不回答,即“保持基于提供的上下文”。
数据内容
数据集包含关于Python编程语言的问题,每个问题的上下文是Python Wikipedia页面的摘要段落和历史部分。问题被设计成一半可以在提供的上下文中回答,另一半则不能。模型被指示只有在问题可以在上下文中回答时才回答。
评估方法
答案的评估分为正确/不正确和基于上下文的/不基于上下文的两种。正确性评估基于个人判断,是否模型正确理解了问题并提供了关于Python编程语言的真实信息。基于上下文的评估则检查模型是否提及了在提供的Wikipedia上下文中未提及的任何信息。



