alexfabbri/answersumm

Name: alexfabbri/answersumm
Creator: alexfabbri
Published: 2022-12-14 20:18:28
License: 暂无描述

Hugging Face2022-12-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/alexfabbri/answersumm

下载链接

链接失效反馈

官方服务：

资源简介：

AnswerSumm数据集是一个英语数据集，包含从StackExchange数据转储中收集的问题和答案。该数据集旨在支持查询聚焦的答案摘要任务，特别是多视角答案的摘要。数据集包含4200多个问答线程，由专业语言学家注释，包含8700多个摘要。数据集的结构包括问题、答案、摘要和元数据，数据字段详细描述了每个部分的组成。数据集分为训练、验证和测试集，采用分层抽样方法。数据集的创建旨在提供一个测试平台，用于多视角答案的查询聚焦摘要。

提供机构：

alexfabbri

原始信息汇总

数据集概述

数据集名称

名称: AnswerSumm

数据集摘要

摘要: AnswerSumm是一个英语语言的数据集，包含从StackExchange数据转储中收集的问题和答案。该数据集旨在支持查询焦点答案摘要任务，特别强调多视角答案。数据集包含超过4200个问题-答案线程，由专业语言学家标注，并包含超过8700个摘要。

支持的任务

任务: 摘要任务（Summarization）
具体任务: 查询基础摘要（Query-based Summarization）

语言

语言: 英语（English）

数据集结构

数据实例: 每个数据点包括一个问题和答案。问题部分包含标题和详细问题描述，答案部分经过句子标记化处理，包含相关性标签、最终摘要包含标签和集群标签。此外，还包括集群摘要、总体摘要和额外元数据。
数据字段:
- 问题: 包含问题的元数据，如问题内容、标题、标签、链接和作者信息。
- 答案: 列表形式的句子标记化答案，每个答案包含作者详情、句子文本、相关性标签、摘要包含标签和集群ID。
- 摘要: 每个注释者编写的两个摘要列表，第一个摘要要求注释者标记用于最终摘要的句子，并紧密使用这些句子的词汇；第二个摘要要求注释者改写和压缩集群摘要，但不要求减少抽象。
- 注释者ID: 完成与该线程相关所有任务的注释者ID列表。
- 不匹配信息: 处理Excel文件时可能出现的问题信息。

数据分割

分割: 数据分为训练、验证和测试集，分别包含2783、500和1000个训练/验证/测试线程。

数据集创建

来源数据: 数据来自StackExchange论坛的白名单筛选，注释者移除了需要专业知识或额外上下文的示例。
注释者: 专业语言学家通过内部承包商获得。
注释过程: 包括预试点、试点和最终注释阶段，共处理5000个示例。

许可证

许可证: cc-by-sa-4.0

引用信息

bibtex @misc{fabbri-etal-2022-answersumm, title={AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization}, author={Alexander R. Fabbri and Xiaojian Wu and Srini Iyer and Haoran Li and Mona Diab }, year={2022}, eprint={2111.06474}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2111.06474} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集