five

alexfabbri/answersumm

收藏
Hugging Face2022-12-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexfabbri/answersumm
下载链接
链接失效反馈
官方服务:
资源简介:
AnswerSumm数据集是一个英语数据集,包含从StackExchange数据转储中收集的问题和答案。该数据集旨在支持查询聚焦的答案摘要任务,特别是多视角答案的摘要。数据集包含4200多个问答线程,由专业语言学家注释,包含8700多个摘要。数据集的结构包括问题、答案、摘要和元数据,数据字段详细描述了每个部分的组成。数据集分为训练、验证和测试集,采用分层抽样方法。数据集的创建旨在提供一个测试平台,用于多视角答案的查询聚焦摘要。
提供机构:
alexfabbri
原始信息汇总

数据集概述

数据集名称

  • 名称: AnswerSumm

数据集摘要

  • 摘要: AnswerSumm是一个英语语言的数据集,包含从StackExchange数据转储中收集的问题和答案。该数据集旨在支持查询焦点答案摘要任务,特别强调多视角答案。数据集包含超过4200个问题-答案线程,由专业语言学家标注,并包含超过8700个摘要。

支持的任务

  • 任务: 摘要任务(Summarization)
  • 具体任务: 查询基础摘要(Query-based Summarization)

语言

  • 语言: 英语(English)

数据集结构

  • 数据实例: 每个数据点包括一个问题和答案。问题部分包含标题和详细问题描述,答案部分经过句子标记化处理,包含相关性标签、最终摘要包含标签和集群标签。此外,还包括集群摘要、总体摘要和额外元数据。
  • 数据字段:
    • 问题: 包含问题的元数据,如问题内容、标题、标签、链接和作者信息。
    • 答案: 列表形式的句子标记化答案,每个答案包含作者详情、句子文本、相关性标签、摘要包含标签和集群ID。
    • 摘要: 每个注释者编写的两个摘要列表,第一个摘要要求注释者标记用于最终摘要的句子,并紧密使用这些句子的词汇;第二个摘要要求注释者改写和压缩集群摘要,但不要求减少抽象。
    • 注释者ID: 完成与该线程相关所有任务的注释者ID列表。
    • 不匹配信息: 处理Excel文件时可能出现的问题信息。

数据分割

  • 分割: 数据分为训练、验证和测试集,分别包含2783、500和1000个训练/验证/测试线程。

数据集创建

  • 来源数据: 数据来自StackExchange论坛的白名单筛选,注释者移除了需要专业知识或额外上下文的示例。
  • 注释者: 专业语言学家通过内部承包商获得。
  • 注释过程: 包括预试点、试点和最终注释阶段,共处理5000个示例。

许可证

  • 许可证: cc-by-sa-4.0

引用信息

bibtex @misc{fabbri-etal-2022-answersumm, title={AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization}, author={Alexander R. Fabbri and Xiaojian Wu and Srini Iyer and Haoran Li and Mona Diab }, year={2022}, eprint={2111.06474}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2111.06474} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作