five

abhilashpotluri/lfqa_summary

收藏
Hugging Face2023-05-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/abhilashpotluri/lfqa_summary
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于长形式问答摘要的数据。数据集中的每个实例都是来自ELI5、WebGPT和NQ三个数据源的问题和长形式答案对。每个实例都是一个JSON字典,包含多个字段,如问题、答案段落、答案句子列表、摘要句子索引等。数据集还提供了训练、开发和测试的分割。

该数据集包含用于长形式问答摘要的数据。数据集中的每个实例都是来自ELI5、WebGPT和NQ三个数据源的问题和长形式答案对。每个实例都是一个JSON字典,包含多个字段,如问题、答案段落、答案句子列表、摘要句子索引等。数据集还提供了训练、开发和测试的分割。
提供机构:
abhilashpotluri
原始信息汇总

数据集概述

数据集描述

数据集总结

  • 名称: LFQA Summary
  • 内容: 包含长形式问答的摘要数据。
  • 语言: 英语

数据集结构

数据实例

  • 格式: 每个实例为(问题, 长形式答案)对,来自三个数据源:ELI5, WebGPT, 和 NQ。

数据字段

  • 类型: JSON字典格式
  • 字段:
    • type: 注释类型,值为summary
    • dataset: 所属数据集,值为NQ, ELI5, Web-GPT之一。
    • q_id: 问题ID。
    • a_id: 答案ID。
    • question: 问题文本。
    • answer_paragraph: 答案段落。
    • answer_sentences: 答案句子的列表,从答案段落分词得到。
    • summary_sentences: 摘要句子索引列表。
    • is_summary_count: 选择该句子作为摘要的注释者计数列表。
    • is_summary_1, is_summary_2, is_summary_3: 分别表示三个注释者是否选择对应句子作为摘要的布尔值列表。

数据分割

  • 分割: 提供训练/开发/测试集。

附加信息

许可信息

  • 许可: CC-BY-SA-4.0
  • 链接: https://creativecommons.org/licenses/by-sa/4.0/legalcode

引用信息

@inproceedings{TODO, title = {Concise Answers to Complex Questions: Summarization of Long-Form Answers}, author = {Potluri,Abhilash and Xu, Fangyuan and Choi, Eunsol}, year = 2023, booktitle = {Proceedings of the Annual Meeting of the Association for Computational Linguistics}, note = {Long paper} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作