blattimer/ScreenEval
收藏Hugging Face2023-12-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/blattimer/ScreenEval
下载链接
链接失效反馈官方服务:
资源简介:
ScreenEval是一个新颖的数据集,专为长对话中的事实一致性检测而设计。该数据集包含52个电视剧本的摘要,这些摘要由人类、Longformer和GPT-4生成,并对每个摘要句子进行了事实一致性标注。此外,如果摘要句子在事实上是一致的,标注者还会提供源文档中的相关话语支持。ScreenEval是目前为止基于对话的最长的事实一致性检测数据集,对话领域提出了独特的挑战,如长距离共指解析和相关话语之间的显著噪声。ScreenEval是在EMNLP2023上发表的论文《Fast and Accurate Factual Inconsistency Detection Over Long Documents》中提出的数据集。
提供机构:
blattimer
原始信息汇总
ScreenEval 数据集概述
数据集简介
ScreenEval 是一个用于长对话中事实不一致检测的新型数据集。该数据集包含 52 个电视转录文本,由人类、Longformer 和 GPT-4 进行总结,并对每个总结句进行与源电视转录文本的事实一致性标注。如果总结句事实一致,标注者还会提供源文档中相关的语句支持。ScreenEval 是目前为止用于事实不一致检测的最长对话数据集。
数据集统计
- 包含 52 个电视转录文本
- 每个电视转录文本超过 6000 个词
- 总计 624 个总结句(来自人类、Longformer 和 GPT-4)
- 所有事实一致的总结句都有相关的语句支持标注
数据集结构
数据集的各个部分可以通过以下键访问:
| 键 | 类型 | 描述 |
|---|---|---|
| original_convo | List[str] | 待总结的源文档,字符串形式 |
| convo | List[List[str]] | 待总结的源文档,分割成语句列表 |
| inferred_summary | List[str] | 与给定源文档配对的总结句 |
| summary_id | List[str] | 总结句的来源模型 |
| convo_id | List[int] | 源文档的 ID |
| annotated_summary | List[str] | 整个相关总结,重点总结句被 <mark></mark> 包围 |
| prediction_annotated_source_doc | List[str] | 原始源文档 |
| agreement | List[float] | 总结句事实不一致标签的标注者一致性 |
| agg_label | List[bool] | 事实不一致标签(true -> 事实一致,false -> 事实不一致) |
| rel_utt | List[List[int]] | 相关语句在相应 convo 列表中的索引 |



