hkust-nlp/felm

Name: hkust-nlp/felm
Creator: hkust-nlp
Published: 2023-10-03 17:29:57
License: 暂无描述

Hugging Face2023-10-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hkust-nlp/felm

下载链接

链接失效反馈

官方服务：

资源简介：

FELM数据集是一个用于评估大型语言模型事实性的元基准。该数据集包含847个问题，涵盖五个不同的领域：世界知识、科学/技术、写作/推荐、推理和数学。数据集的提示来自多种来源，包括标准数据集如truthfulQA、在线平台如Github仓库、ChatGPT生成或作者起草。对于每个提示，数据集提供了ChatGPT的响应，并对响应进行了细粒度的注释，包括参考链接、识别的错误类型以及错误原因。数据集的结构包括数据实例和数据字段的详细描述，数据实例展示了数据的格式，数据字段则解释了每个字段的含义。数据集的创建过程包括数据收集、清理和注释，注释过程由作者完成，并经过双重检查。数据集使用Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License许可。

提供机构：

hkust-nlp

原始信息汇总

数据集概述：FELM

数据集描述

数据集总结

名称：FELM
目的：作为元基准，用于评估大型语言模型的真实性。
内容：包含847个问题，涵盖五个领域：世界知识、科学/技术、写作/推荐、推理和数学。
数据来源：包括标准数据集如truthfulQA、在线平台如GitHub仓库、ChatGPT生成或由作者草拟。
处理：通过ChatGPT获取响应，并对每个响应进行细粒度注释，包括参考链接、识别的错误类型及错误原因。

支持的任务和排行榜

信息缺失

语言

语言：英语

数据集结构

数据实例

示例结构： python {"index": "0", "source": "quora", "prompt": "Which country or city has the maximum number of nuclear power plants?", "response": "...", "segmented_response": ["...", "..."], "labels": [false, true], "comment": ["...", ""], "type": ["knowledge_error", null], "ref": ["https://www.eia.gov/tools/faqs/faq.php?id=207&t=3"]}

数据字段

字段列表：

字段名	类型	描述
index	Integer	数据点顺序号
source	String	提示来源
prompt	String	生成响应的提示
response	String	ChatGPT的响应
segmented_response	List	响应的片段
labels	List	片段的真实性标签
comment	List	事实错误的解释
type	List	事实错误的类型
ref	List	参考链接

数据集创建

源数据

收集与清洗：数据来自多种来源，包括truthfulQA等标准数据集和GitHub等在线平台，由作者进行清洗。

注释

注释过程：使用自开发的注释工具和注释指南，所有注释经过双重检查，包括其他注释者和专家的审查。
注释者：论文作者，包括Yuzhen Huang, Yikai Zhang, Tangjun Su。

附加信息

许可信息

许可：Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License

引用信息

引用格式： bibtex @inproceedings{ chen2023felm, title={FELM: Benchmarking Factuality Evaluation of Large Language Models}, author={Chen, Shiqi and Zhao, Yiran and Zhang, Jinghan and Chern, I-Chun and Gao, Siyang and Liu, Pengfei and He, Junxian}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year={2023}, url={http://arxiv.org/abs/2310.00741} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集