DIVERSESUMM
收藏arXiv2024-03-23 更新2024-06-21 收录
下载链接:
https://github.com/salesforce/DiverseSumm
下载链接
链接失效反馈官方服务:
资源简介:
DIVERSESUMM数据集由Salesforce AI Research创建,旨在支持从多篇新闻文章中总结多样化信息的新任务。该数据集包含245个新闻故事,每个故事由10篇文章组成,并附有人工验证的参考。数据集通过一个基于GPT-3.5-Turbo的管道进行自动多样化信息发现和人工验证阶段,确保数据完整性。DIVERSESUMM特别关注于捕捉和总结新闻报道中的不同观点和信息,为理解和总结同一新闻事件的复杂性提供了挑战和机会。
The DIVERSESUMM dataset was developed by Salesforce AI Research to support a novel task of summarizing diversified information from multiple news articles. This dataset contains 245 news stories, each consisting of 10 articles paired with human-validated reference summaries. The dataset utilizes a GPT-3.5-Turbo-based pipeline for automated diversified information discovery and manual verification phases to ensure data integrity. DIVERSESUMM specifically focuses on capturing and summarizing diverse perspectives and information within news coverage, providing both challenges and opportunities for understanding and summarizing the complexity of the same news event.
提供机构:
Salesforce AI Research
创建时间:
2023-09-18
搜集汇总
数据集介绍

构建方式
在新闻事件的报道中,不同媒体往往呈现出丰富多元甚至相互矛盾的视角。为了系统捕捉并归纳这些分散于多篇文章中的异质信息,DIVERSESUMM数据集应运而生。其构建采用了一条基于GPT-3.5-Turbo的自动化流水线:首先,针对同一新闻事件生成能够引发多元回答的问题;随后,从每篇文章中提取对应答案,并基于语义进行聚类;接着,通过后处理步骤剔除无效问答对;最终,所有数据均经过人工校验以确保质量。该数据集共包含245个新闻事件,每个事件配以10篇新闻报道,平均每个事件有2.49个问题,每个问题对应约3.41个答案簇。
特点
DIVERSESUMM数据集最显著的特点在于其对信息多样性的聚焦。与传统多文档摘要数据集侧重于提炼共识信息不同,本数据集专门挖掘并呈现同一新闻事件下不同来源报道间的分歧与多元观点。其参考标注采用问答对形式,每个问题对应多个蕴含不同立场或视角的答案簇,为评估摘要的覆盖度提供了细粒度基准。实验表明,即便如GPT-4般强大的模型,在此数据集上也仅能覆盖不足40%的多样信息,凸显了该任务的高度挑战性,使其成为检验大语言模型多文档理解与综合能力的严苛标杆。
使用方法
该数据集适用于评估模型对多源新闻中多元信息的摘要能力,核心关注两个维度:忠实度与覆盖度。忠实度衡量摘要内容是否与源文章事实一致;覆盖度则评估摘要对参考问答对中异质信息的涵盖程度。研究者可采用基于GPT-4的自动评估协议,但需注意其位置偏差和冗长偏差。推荐在预算充足时使用双向成对比较以获取高相关性,否则可采用李克特量表式的单答案评分。此外,数据集还可用于分析模型在不同问题类型、文章位置及答案出现频率下的覆盖偏好,以深入理解模型行为。
背景与挑战
背景概述
在新闻传播的广阔图景中,同一事件往往被多家媒体以迥异的视角与立场加以报道,形成了信息的多重叙事。然而,传统的多文档摘要研究长期聚焦于凝练各源文本中的共识性信息,忽视了其间蕴含的丰富分歧与多元观点。为填补这一研究空白,来自伊利诺伊大学厄巴纳-香槟分校与Salesforce AI Research的研究团队于2023年提出了DIVERSESUMM数据集。该数据集以多文档多样性摘要(MDDS)为核心任务,旨在忠实呈现多篇新闻报道中关于同一事件的异质性信息。通过构建基于问答对(QA)的精细标注框架,数据集涵盖了245个新闻故事,每个故事包含10篇新闻文章,并配有人工验证的参考摘要。DIVERSESUMM的提出,不仅为评估大语言模型(LLM)在捕捉信息多样性方面的能力提供了严苛的测试基准,也深刻推动了多文档摘要研究从“求同”向“存异”的范式转变。
当前挑战
DIVERSESUMM数据集所面临的挑战具有双重性。首先,在领域问题层面,MDDS任务要求模型超越传统摘要对共识信息的提取,精准识别并综合多源文本中分散的、甚至相互矛盾的多元观点。实验表明,即便是性能卓越的GPT-4,其生成摘要对参考中多样性信息的覆盖率也平均不足40%,凸显了该任务对模型信息整合与推理能力的极高要求。其次,在数据集构建过程中,研究团队遭遇了显著的技术障碍。自动化的数据采集流程虽借助GPT-3.5-Turbo进行问题生成与答案提取,但如何确保生成的问题能够引发跨文章的多样性回答、如何从整篇文章而非段落级进行高效问答以提升召回率,以及如何通过后处理步骤剔除无效的问答对,均是亟待攻克的技术难点。此外,人工验证阶段需确保每个答案既准确回应问题又源于至少一篇源文章,这一精细化的质量控制过程进一步增加了数据集的构建成本与复杂度。
常用场景
经典使用场景
在新闻聚合与多源信息融合的背景下,DIVERSESUMM数据集为多文档多样性摘要(MDDS)任务提供了基准测试平台。其经典使用场景聚焦于从同一新闻事件的十篇报道中,自动提取并凝练出观点相异、视角纷呈的多元信息,而非传统摘要所追求的一致性共识。该数据集以问答对的形式标注参考摘要,要求模型生成的摘要能够覆盖不同来源对同一问题的多样化回答,从而忠实反映新闻叙事中的矛盾与分歧。
实际应用
在实际应用层面,DIVERSESUMM可赋能新闻聚合平台与智能资讯服务,使其在生成事件摘要时突破单一视角的局限,为用户呈现包含多方观点、争议焦点与隐性矛盾的综合性叙述。例如,在政治选举或国际冲突等高度分歧的议题中,该数据集训练的摘要系统能够帮助读者快速把握不同立场间的核心差异,从而降低信息过载引发的认知疲劳。
衍生相关工作
基于DIVERSESUMM,衍生出一系列探索大语言模型摘要行为的前沿工作。研究者深入分析了模型对不同位置文章、不同问题类型(如“为何”与“如何”类问题)以及不同信息出现频率的覆盖偏好,揭示了长上下文模型更擅长高频信息而标准模型更关注低频信息的互补特性。此外,针对GPT-4评估器的位置偏差与冗长偏差分析,催生了更可靠的自动化评估协议,为后续多文档摘要研究奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成



