yq27/Face4RAG
收藏Hugging Face2024-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yq27/Face4RAG
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含合成数据集和真实世界数据集,位于Face4RAG_Benchmark文件夹中。数据集用于评估事实一致性,必须包含以下列:question, ref, answer, id,数据格式为CSV。
该数据集包含合成数据集和真实世界数据集,位于Face4RAG_Benchmark文件夹中。数据集用于评估事实一致性,必须包含以下列:question, ref, answer, id,数据格式为CSV。
提供机构:
yq27
原始信息汇总
数据集评估流程
数据集格式要求
- 数据集必须包含以下列:
question,ref,answer,id。 - 数据格式应为CSV。
评估步骤
- 上传OPENAI_API_KEY。
- 切换目录到
L-Face4RAG。 - 修改脚本:
- 修改
run_fce.sh脚本中的origin_data为待评估数据集的路径。 - 自定义
output_dir以存储过程中生成的文件和最终结果。
- 修改
- 运行评估:
- 仅执行答案分解和事实FCE(无逻辑FCE):运行
sh run_fce.sh 0。 - 执行完整过程(答案分解、事实FCE和逻辑FCE):运行
sh run_fce.sh 1。
- 仅执行答案分解和事实FCE(无逻辑FCE):运行
- 结果存储:
- 最终结果将存储在
output_dir下的final_result.csv中:answer_segment:答案分解结果。fact_fce_result:事实FCE结果。label_fact_FCE:基于事实FCE提取的事实一致性标签。logic_fce_result:逻辑FCE结果。label_logic_FCE:基于逻辑FCE提取的事实一致性标签。fce_output:总体事实一致性标签。
- 最终结果将存储在
评估FCE方法
- 切换目录到
L-Face4RAG。 - 修改脚本:
- 修改
evaluate_fce.sh脚本中的fce_output_dir为FCE输出结果的文件路径(必须包含id列和fce_output)。
- 修改
- 运行评估:
- 使用合成数据集:运行
sh evaluate_fce.sh 0。 - 使用真实世界数据集:运行
sh evaluate_fce.sh 1。
- 使用合成数据集:运行
- 结果:
- 将获得总体准确率,以及合成数据集中不同类型错误的准确率或真实世界数据集中不同生成模型的准确率。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于评估事实一致性的文本数据集,包含182行数据,提供详细的评估流程和脚本使用方法,适用于合成和真实世界数据的评估。
以上内容由遇见数据集搜集并总结生成



