AnswerSumm

arXiv2022-04-29 更新2024-06-21 收录

下载链接：

https://github.com/Alex-Fabbri/AnswerSumm

下载链接

链接失效反馈

官方服务：

资源简介：

AnswerSumm是由耶鲁大学和脸书人工智能合作开发的数据集，专门用于社区问答（CQA）的答案摘要任务。该数据集包含4631个CQA线程，每个线程由专业语言学家进行标注，涵盖了答案句子选择、句子聚类、聚类摘要和整体摘要等多个子任务。数据集的创建旨在解决CQA中答案多样性的问题，通过提供高质量的监督数据来训练模型生成反映多种答案视角的摘要。AnswerSumm的应用领域主要集中在提高CQA系统的效率和用户满意度，通过自动生成摘要帮助用户快速获取信息。

AnswerSumm is a dataset co-developed by Yale University and Facebook AI, specifically designed for the answer summarization task in Community Question Answering (CQA). The dataset contains 4631 CQA threads, each annotated by professional linguists, covering multiple subtasks including answer sentence selection, sentence clustering, cluster-based summarization, and holistic summarization. This dataset was developed to address the challenge of answer diversity in CQA, by supplying high-quality supervised data to train models that generate summaries embodying multiple perspectives from various answers. The primary application scenarios of AnswerSumm are centered on boosting the efficiency of CQA systems and enhancing user satisfaction, where automatic summary generation helps users quickly obtain relevant information.

提供机构：

耶鲁大学脸书人工智能

创建时间：

2021-11-12

搜集汇总

数据集介绍

构建方式

在社区问答（CQA）领域，AnswerSumm数据集通过精心设计的标注流程构建，旨在捕捉多视角答案摘要的复杂性。该数据集从StackExchange平台筛选了4,631个非技术性问答线程，确保每个线程包含至少四个答案，且答案长度适中，以排除摘要冗余或信息不足的情况。专业语言学家遵循四步标注协议：首先选择与问题相关的答案句子，随后基于主题视角对这些句子进行聚类，接着为每个聚类生成抽象摘要，最后融合各聚类摘要形成连贯的整体摘要。整个流程通过预实验、试点和最终标注三个阶段实施，并采用重复标注以保障质量，最终构建了一个高质量、多视角的人工标注数据集。

特点

AnswerSumm数据集的核心特点在于其多视角性和高度抽象性，能够全面反映社区问答中多样化的答案观点。与现有基于启发式方法的数据集不同，该数据集通过人工标注确保了摘要覆盖多个视角，其中75%的示例需要多视角摘要，显著高于自动生成数据集的37%。数据集分解为句子选择、聚类、聚类摘要和摘要融合四个子任务，为模型训练和评估提供了细粒度监督。统计显示，摘要中新颖单字占比达21%，输入平均长度为787词，输出为47词，体现了较高的抽象压缩率，为研究多文档摘要和事实一致性提供了理想基准。

使用方法

AnswerSumm数据集适用于训练和评估多视角答案摘要模型，支持从端到端摘要到子任务的系统研究。使用时，可将数据集划分为训练、验证和测试集，分别包含3,131、500和1,000个示例。研究人员可基于BART或T5等预训练模型进行微调，针对句子选择任务训练RoBERTa分类器，或利用聚类摘要任务优化抽象生成能力。此外，数据集配套的自动数据增强管道可用于生成银标数据，以提升模型性能。强化学习奖励机制，如基于文本蕴含的事实一致性奖励和语义面积奖励，可进一步优化摘要的覆盖范围和忠实度，推动多视角摘要技术的发展。

背景与挑战

背景概述

AnswerSumm数据集由耶鲁大学与Facebook AI的研究团队于2022年联合推出，旨在解决社区问答（CQA）平台中多视角答案摘要生成的监督数据缺失问题。该数据集包含4,631个经过专业语言学家精心标注的问答线程，覆盖了答案句子选择、视角聚类、分簇摘要及整体摘要融合等多个子任务。其核心研究问题在于如何从海量异构答案中提炼出全面反映不同观点的抽象摘要，为自然语言处理领域的多文档摘要研究提供了高质量基准，显著推动了问答摘要任务向更细粒度、更富语义深度的方向发展。

当前挑战

AnswerSumm数据集面临的挑战主要体现在两大维度：其一，在领域问题层面，社区问答摘要需克服答案多样性带来的信息整合难题，要求模型不仅识别相关答案句子，还需区分并融合不同视角，避免单一观点主导摘要内容，这对模型的语义理解和生成能力提出了极高要求；其二，在构建过程中，数据标注面临主观性强、一致性低的困境，例如句子相关性标注的Fleiss Kappa仅达0.25，且需通过多阶段迭代标注确保质量。此外，自动摘要模型在抽象度控制上表现不足，生成摘要的新词比例远低于人工标注，凸显了现有方法在压缩率与语义保真度之间的平衡挑战。

常用场景

经典使用场景

在社区问答（CQA）领域，AnswerSumm数据集为多视角答案摘要任务提供了关键支持。该数据集通过专业语言学家精心标注，涵盖了Stack Overflow等平台上的4,631个问答线程，每个线程包含多个答案及其对应的多视角摘要。其经典使用场景在于训练和评估抽象摘要模型，特别是针对从多样答案中提取并融合不同观点的任务。研究者可利用该数据集进行端到端摘要生成，或分解为句子选择、聚类、分簇摘要及融合等子任务，以深入探索多文档摘要的复杂性。

衍生相关工作

AnswerSumm数据集催生了一系列相关研究工作，特别是在多视角摘要和强化学习优化方面。基于该数据集，研究者开发了数据增强管道，通过自动生成多视角摘要数据来提升模型性能。同时，工作引入了基于文本蕴含和语义面积的强化学习奖励机制，以改善摘要的事实一致性和视角覆盖度。这些衍生工作不仅扩展了数据集的适用性，还推动了摘要模型在抽象性、忠实性和多样性等方面的技术进步，为社区问答摘要领域的持续创新提供了动力。

数据集最近研究