blattimer/ScreenEval

Name: blattimer/ScreenEval
Creator: blattimer
Published: 2023-12-07 07:14:55
License: 暂无描述

Hugging Face2023-12-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/blattimer/ScreenEval

下载链接

链接失效反馈

官方服务：

资源简介：

ScreenEval是一个新颖的数据集，专为长对话中的事实一致性检测而设计。该数据集包含52个电视剧本的摘要，这些摘要由人类、Longformer和GPT-4生成，并对每个摘要句子进行了事实一致性标注。此外，如果摘要句子在事实上是一致的，标注者还会提供源文档中的相关话语支持。ScreenEval是目前为止基于对话的最长的事实一致性检测数据集，对话领域提出了独特的挑战，如长距离共指解析和相关话语之间的显著噪声。ScreenEval是在EMNLP2023上发表的论文《Fast and Accurate Factual Inconsistency Detection Over Long Documents》中提出的数据集。

提供机构：

blattimer

原始信息汇总

ScreenEval 数据集概述

数据集简介

ScreenEval 是一个用于长对话中事实不一致检测的新型数据集。该数据集包含 52 个电视转录文本，由人类、Longformer 和 GPT-4 进行总结，并对每个总结句进行与源电视转录文本的事实一致性标注。如果总结句事实一致，标注者还会提供源文档中相关的语句支持。ScreenEval 是目前为止用于事实不一致检测的最长对话数据集。

数据集统计

包含 52 个电视转录文本
每个电视转录文本超过 6000 个词
总计 624 个总结句（来自人类、Longformer 和 GPT-4）
所有事实一致的总结句都有相关的语句支持标注

数据集结构

数据集的各个部分可以通过以下键访问：

键	类型	描述
original_convo	List[str]	待总结的源文档，字符串形式
convo	List[List[str]]	待总结的源文档，分割成语句列表
inferred_summary	List[str]	与给定源文档配对的总结句
summary_id	List[str]	总结句的来源模型
convo_id	List[int]	源文档的 ID
annotated_summary	List[str]	整个相关总结，重点总结句被 `<mark></mark>` 包围
prediction_annotated_source_doc	List[str]	原始源文档
agreement	List[float]	总结句事实不一致标签的标注者一致性
agg_label	List[bool]	事实不一致标签（true -> 事实一致，false -> 事实不一致）
rel_utt	List[List[int]]	相关语句在相应 `convo` 列表中的索引

5,000+

优质数据集

54 个

任务类型

进入经典数据集