iamasQ/DefAn
收藏Hugging Face2024-07-16 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/iamasQ/DefAn
下载链接
链接失效反馈官方服务:
资源简介:
DefAn数据集是一个用于评估大型语言模型(LLMs)幻觉倾向的综合性基准数据集,包含超过75000个样本,分为八个知识领域:体育、澳大利亚人口普查、诺贝尔奖、娱乐、世界组织、QS排名、会议地点和数学。数据集分为公开和隐藏两部分,公开部分用于一般评估,隐藏部分用于基准测试以确保评估的全面性和无偏性。数据集的主要特征包括评估LLM幻觉的指标(如事实矛盾幻觉率、提示错位幻觉率和响应一致性),并且所有样本均为英文。
DefAn数据集是一个用于评估大型语言模型(LLMs)幻觉倾向的综合性基准数据集,包含超过75000个样本,分为八个知识领域:体育、澳大利亚人口普查、诺贝尔奖、娱乐、世界组织、QS排名、会议地点和数学。数据集分为公开和隐藏两部分,公开部分用于一般评估,隐藏部分用于基准测试以确保评估的全面性和无偏性。数据集的主要特征包括评估LLM幻觉的指标(如事实矛盾幻觉率、提示错位幻觉率和响应一致性),并且所有样本均为英文。
提供机构:
iamasQ



