five

hkust-nlp/felm

收藏
Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/hkust-nlp/felm
下载链接
链接失效反馈
官方服务:
资源简介:
FELM数据集是一个用于评估大型语言模型事实性的元基准。该数据集包含847个问题,涵盖五个不同的领域:世界知识、科学/技术、写作/推荐、推理和数学。数据集的提示来自多种来源,包括标准数据集如truthfulQA、在线平台如Github仓库、ChatGPT生成或作者起草。对于每个提示,数据集提供了ChatGPT的响应,并对响应进行了细粒度的注释,包括参考链接、识别的错误类型以及错误原因。数据集的结构包括数据实例和数据字段的详细描述,数据实例展示了数据的格式,数据字段则解释了每个字段的含义。数据集的创建过程包括数据收集、清理和注释,注释过程由作者完成,并经过双重检查。数据集使用Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License许可。
提供机构:
hkust-nlp
原始信息汇总

数据集概述:FELM

数据集描述

数据集总结

  • 名称:FELM
  • 目的:作为元基准,用于评估大型语言模型的真实性。
  • 内容:包含847个问题,涵盖五个领域:世界知识、科学/技术、写作/推荐、推理和数学。
  • 数据来源:包括标准数据集如truthfulQA、在线平台如GitHub仓库、ChatGPT生成或由作者草拟。
  • 处理:通过ChatGPT获取响应,并对每个响应进行细粒度注释,包括参考链接、识别的错误类型及错误原因。

支持的任务和排行榜

  • 信息缺失

语言

  • 语言:英语

数据集结构

数据实例

  • 示例结构: python {"index": "0", "source": "quora", "prompt": "Which country or city has the maximum number of nuclear power plants?", "response": "...", "segmented_response": ["...", "..."], "labels": [false, true], "comment": ["...", ""], "type": ["knowledge_error", null], "ref": ["https://www.eia.gov/tools/faqs/faq.php?id=207&t=3"]}

数据字段

  • 字段列表
    字段名 类型 描述
    index Integer 数据点顺序号
    source String 提示来源
    prompt String 生成响应的提示
    response String ChatGPT的响应
    segmented_response List 响应的片段
    labels List 片段的真实性标签
    comment List 事实错误的解释
    type List 事实错误的类型
    ref List 参考链接

数据集创建

源数据

  • 收集与清洗:数据来自多种来源,包括truthfulQA等标准数据集和GitHub等在线平台,由作者进行清洗。

注释

  • 注释过程:使用自开发的注释工具和注释指南,所有注释经过双重检查,包括其他注释者和专家的审查。
  • 注释者:论文作者,包括Yuzhen Huang, Yikai Zhang, Tangjun Su。

附加信息

许可信息

引用信息

  • 引用格式: bibtex @inproceedings{ chen2023felm, title={FELM: Benchmarking Factuality Evaluation of Large Language Models}, author={Chen, Shiqi and Zhao, Yiran and Zhang, Jinghan and Chern, I-Chun and Gao, Siyang and Liu, Pengfei and He, Junxian}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track}, year={2023}, url={http://arxiv.org/abs/2310.00741} }
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作