five

Bisi/DivSumm

收藏
Hugging Face2023-05-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Bisi/DivSumm
下载链接
链接失效反馈
官方服务:
资源简介:
DivSumm是一个新颖的数据集,包含多种英语方言的推文和人工编写的摘要。数据集包含25个主题,每个主题有90条推文,这些推文均匀分布在三种方言中(非洲裔美国人、西班牙裔和白人)。每个主题有两个参考摘要,一个是抽象摘要,另一个是提取摘要。抽象摘要是由两名注释者用自己的话总结的,而提取摘要则是从每个主题中选择5条推文作为摘要。
提供机构:
Bisi
原始信息汇总

DivSumm Summarization Dataset

简介

DivSumm是一个新颖的数据集,包含多种英语方言(非洲裔美国人、西班牙裔和白人)的90条推文以及人工编写的提取式和抽象式摘要。该数据集涵盖25个主题,每个主题包含90条推文,均匀分布在三种方言中,每个输入对应两个参考摘要。

数据集内容

  • input_docs: 包含每个主题的90条推文,均匀分布在三种方言中,总计25个主题。
  • abstractive: 两位注释者被要求使用自己的话,对每个主题进行5句话的摘要。
  • extractive: 两位注释者被要求从每个主题中选择5条最能概括输入推文的推文。

论文引用

若在研究中使用此数据集,请引用以下论文:

@inproceedings{olabisi-etal-2022-analyzing, title = "Analyzing the Dialect Diversity in Multi-document Summaries", author = "Olabisi, Olubusayo and Hudson, Aaron and Jetter, Antonie and Agrawal, Ameeta", booktitle = "Proceedings of the 29th International Conference on Computational Linguistics", month = oct, year = "2022", }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作