r-three/fib

Name: r-three/fib
Creator: r-three
Published: 2022-11-19 15:57:58
License: 暂无描述

Hugging Face2022-11-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/r-three/fib

下载链接

链接失效反馈

官方服务：

资源简介：

FIB基准数据集包含3579个示例，用于评估大型语言模型的事实不一致性。每个示例包括一个文档和一对摘要：一个是事实一致的，另一个是事实不一致的。数据集基于XSum和CNN/DM的文档和摘要。由于该数据集旨在评估大型语言模型的事实不一致性，因此仅包含测试集。应分别报告XSum和CNN/DM示例的准确性，因为模型在这两个数据集上的行为预期会非常不同。事实不一致的摘要在CNN/DM中是从文档中提取的，而在XSum中是模型生成的。

提供机构：

r-three

原始信息汇总

数据集概述

数据集名称

FIB Benchmark

数据集目的

评估大型语言模型的实际不一致性。

数据集内容

包含3579个示例，每个示例包括一个文档和一对摘要：一个是事实一致的，另一个是事实不一致的。

数据来源

基于XSum和CNN/DM的文档和摘要。

数据集结构

仅包含测试集。

评估要求

准确度应分别报告来自XSum和CNN/DM的示例，因为模型在这两个来源上的表现预期会有很大差异。

不一致摘要的生成方式

CNN/DM：从文档中模型提取。
XSum：模型生成。

引用信息

@article{tam2022fib, title={Evaluating the Factual Consistency of Large Language Models Through Summarization}, author={Tam, Derek and Mascarenhas, Anisha and Zhang, Shiyue and Kwan, Sarah and Bansal, Mohit and Raffel, Colin}, journal={arXiv preprint arXiv:2211.08412}, year={2022} }

许可信息

CC-BY-4.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集