five

yq27/Face4RAG

收藏
Hugging Face2024-03-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/yq27/Face4RAG
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含合成数据集和真实世界数据集,位于Face4RAG_Benchmark文件夹中。数据集用于评估事实一致性,必须包含以下列:question, ref, answer, id,数据格式为CSV。

该数据集包含合成数据集和真实世界数据集,位于Face4RAG_Benchmark文件夹中。数据集用于评估事实一致性,必须包含以下列:question, ref, answer, id,数据格式为CSV。
提供机构:
yq27
原始信息汇总

数据集评估流程

数据集格式要求

  • 数据集必须包含以下列:question, ref, answer, id
  • 数据格式应为CSV。

评估步骤

  1. 上传OPENAI_API_KEY
  2. 切换目录L-Face4RAG
  3. 修改脚本
    • 修改run_fce.sh脚本中的origin_data为待评估数据集的路径。
    • 自定义output_dir以存储过程中生成的文件和最终结果。
  4. 运行评估
    • 仅执行答案分解和事实FCE(无逻辑FCE):运行sh run_fce.sh 0
    • 执行完整过程(答案分解、事实FCE和逻辑FCE):运行sh run_fce.sh 1
  5. 结果存储
    • 最终结果将存储在output_dir下的final_result.csv中:
      • answer_segment:答案分解结果。
      • fact_fce_result:事实FCE结果。
      • label_fact_FCE:基于事实FCE提取的事实一致性标签。
      • logic_fce_result:逻辑FCE结果。
      • label_logic_FCE:基于逻辑FCE提取的事实一致性标签。
      • fce_output:总体事实一致性标签。

评估FCE方法

  1. 切换目录L-Face4RAG
  2. 修改脚本
    • 修改evaluate_fce.sh脚本中的fce_output_dir为FCE输出结果的文件路径(必须包含id列和fce_output)。
  3. 运行评估
    • 使用合成数据集:运行sh evaluate_fce.sh 0
    • 使用真实世界数据集:运行sh evaluate_fce.sh 1
  4. 结果
    • 将获得总体准确率,以及合成数据集中不同类型错误的准确率或真实世界数据集中不同生成模型的准确率。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于评估事实一致性的文本数据集,包含182行数据,提供详细的评估流程和脚本使用方法,适用于合成和真实世界数据的评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作