hkust-nlp/felm
收藏Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hkust-nlp/felm
下载链接
链接失效反馈官方服务:
资源简介:
FELM数据集是一个用于评估大型语言模型事实性的元基准。该数据集包含847个问题,涵盖五个不同的领域:世界知识、科学/技术、写作/推荐、推理和数学。数据集的提示来自多种来源,包括标准数据集如truthfulQA、在线平台如Github仓库、ChatGPT生成或作者起草。对于每个提示,数据集提供了ChatGPT的响应,并对响应进行了细粒度的注释,包括参考链接、识别的错误类型以及错误原因。数据集的结构包括数据实例和数据字段的详细描述,数据实例展示了数据的格式,数据字段则解释了每个字段的含义。数据集的创建过程包括数据收集、清理和注释,注释过程由作者完成,并经过双重检查。数据集使用Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License许可。
提供机构:
hkust-nlp
原始信息汇总
数据集概述:FELM
数据集描述
数据集总结
- 名称:FELM
- 目的:作为元基准,用于评估大型语言模型的真实性。
- 内容:包含847个问题,涵盖五个领域:世界知识、科学/技术、写作/推荐、推理和数学。
- 数据来源:包括标准数据集如truthfulQA、在线平台如GitHub仓库、ChatGPT生成或由作者草拟。
- 处理:通过ChatGPT获取响应,并对每个响应进行细粒度注释,包括参考链接、识别的错误类型及错误原因。
支持的任务和排行榜
- 信息缺失
语言
- 语言:英语
数据集结构
数据实例
- 示例结构: python {"index": "0", "source": "quora", "prompt": "Which country or city has the maximum number of nuclear power plants?", "response": "...", "segmented_response": ["...", "..."], "labels": [false, true], "comment": ["...", ""], "type": ["knowledge_error", null], "ref": ["https://www.eia.gov/tools/faqs/faq.php?id=207&t=3"]}
数据字段
- 字段列表:
字段名 类型 描述 index Integer 数据点顺序号 source String 提示来源 prompt String 生成响应的提示 response String ChatGPT的响应 segmented_response List 响应的片段 labels List 片段的真实性标签 comment List 事实错误的解释 type List 事实错误的类型 ref List 参考链接
数据集创建
源数据
- 收集与清洗:数据来自多种来源,包括truthfulQA等标准数据集和GitHub等在线平台,由作者进行清洗。
注释
- 注释过程:使用自开发的注释工具和注释指南,所有注释经过双重检查,包括其他注释者和专家的审查。
- 注释者:论文作者,包括Yuzhen Huang, Yikai Zhang, Tangjun Su。
附加信息
许可信息
引用信息
- 引用格式: bibtex @inproceedings{ chen2023felm, title={FELM: Benchmarking Factuality Evaluation of Large Language Models}, author={Chen, Shiqi and Zhao, Yiran and Zhang, Jinghan and Chern, I-Chun and Gao, Siyang and Liu, Pengfei and He, Junxian}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year={2023}, url={http://arxiv.org/abs/2310.00741} }



