alexfabbri/answersumm
收藏Hugging Face2022-12-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexfabbri/answersumm
下载链接
链接失效反馈官方服务:
资源简介:
AnswerSumm数据集是一个英语数据集,包含从StackExchange数据转储中收集的问题和答案。该数据集旨在支持查询聚焦的答案摘要任务,特别是多视角答案的摘要。数据集包含4200多个问答线程,由专业语言学家注释,包含8700多个摘要。数据集的结构包括问题、答案、摘要和元数据,数据字段详细描述了每个部分的组成。数据集分为训练、验证和测试集,采用分层抽样方法。数据集的创建旨在提供一个测试平台,用于多视角答案的查询聚焦摘要。
提供机构:
alexfabbri
原始信息汇总
数据集概述
数据集名称
- 名称: AnswerSumm
数据集摘要
- 摘要: AnswerSumm是一个英语语言的数据集,包含从StackExchange数据转储中收集的问题和答案。该数据集旨在支持查询焦点答案摘要任务,特别强调多视角答案。数据集包含超过4200个问题-答案线程,由专业语言学家标注,并包含超过8700个摘要。
支持的任务
- 任务: 摘要任务(Summarization)
- 具体任务: 查询基础摘要(Query-based Summarization)
语言
- 语言: 英语(English)
数据集结构
- 数据实例: 每个数据点包括一个问题和答案。问题部分包含标题和详细问题描述,答案部分经过句子标记化处理,包含相关性标签、最终摘要包含标签和集群标签。此外,还包括集群摘要、总体摘要和额外元数据。
- 数据字段:
- 问题: 包含问题的元数据,如问题内容、标题、标签、链接和作者信息。
- 答案: 列表形式的句子标记化答案,每个答案包含作者详情、句子文本、相关性标签、摘要包含标签和集群ID。
- 摘要: 每个注释者编写的两个摘要列表,第一个摘要要求注释者标记用于最终摘要的句子,并紧密使用这些句子的词汇;第二个摘要要求注释者改写和压缩集群摘要,但不要求减少抽象。
- 注释者ID: 完成与该线程相关所有任务的注释者ID列表。
- 不匹配信息: 处理Excel文件时可能出现的问题信息。
数据分割
- 分割: 数据分为训练、验证和测试集,分别包含2783、500和1000个训练/验证/测试线程。
数据集创建
- 来源数据: 数据来自StackExchange论坛的白名单筛选,注释者移除了需要专业知识或额外上下文的示例。
- 注释者: 专业语言学家通过内部承包商获得。
- 注释过程: 包括预试点、试点和最终注释阶段,共处理5000个示例。
许可证
- 许可证: cc-by-sa-4.0
引用信息
bibtex @misc{fabbri-etal-2022-answersumm, title={AnswerSumm: A Manually-Curated Dataset and Pipeline for Answer Summarization}, author={Alexander R. Fabbri and Xiaojian Wu and Srini Iyer and Haoran Li and Mona Diab }, year={2022}, eprint={2111.06474}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2111.06474} }



