five

blattimer/ScreenEval

收藏
Hugging Face2023-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/blattimer/ScreenEval
下载链接
链接失效反馈
官方服务:
资源简介:
ScreenEval是一个新颖的数据集,专为长对话中的事实一致性检测而设计。该数据集包含52个电视剧本的摘要,这些摘要由人类、Longformer和GPT-4生成,并对每个摘要句子进行了事实一致性标注。此外,如果摘要句子在事实上是一致的,标注者还会提供源文档中的相关话语支持。ScreenEval是目前为止基于对话的最长的事实一致性检测数据集,对话领域提出了独特的挑战,如长距离共指解析和相关话语之间的显著噪声。ScreenEval是在EMNLP2023上发表的论文《Fast and Accurate Factual Inconsistency Detection Over Long Documents》中提出的数据集。
提供机构:
blattimer
原始信息汇总

ScreenEval 数据集概述

数据集简介

ScreenEval 是一个用于长对话中事实不一致检测的新型数据集。该数据集包含 52 个电视转录文本,由人类、Longformer 和 GPT-4 进行总结,并对每个总结句进行与源电视转录文本的事实一致性标注。如果总结句事实一致,标注者还会提供源文档中相关的语句支持。ScreenEval 是目前为止用于事实不一致检测的最长对话数据集。

数据集统计

  • 包含 52 个电视转录文本
  • 每个电视转录文本超过 6000 个词
  • 总计 624 个总结句(来自人类、Longformer 和 GPT-4)
  • 所有事实一致的总结句都有相关的语句支持标注

数据集结构

数据集的各个部分可以通过以下键访问:

类型 描述
original_convo List[str] 待总结的源文档,字符串形式
convo List[List[str]] 待总结的源文档,分割成语句列表
inferred_summary List[str] 与给定源文档配对的总结句
summary_id List[str] 总结句的来源模型
convo_id List[int] 源文档的 ID
annotated_summary List[str] 整个相关总结,重点总结句被 <mark></mark> 包围
prediction_annotated_source_doc List[str] 原始源文档
agreement List[float] 总结句事实不一致标签的标注者一致性
agg_label List[bool] 事实不一致标签(true -> 事实一致,false -> 事实不一致)
rel_utt List[List[int]] 相关语句在相应 convo 列表中的索引
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作