Bisi/DivSumm
收藏Hugging Face2023-05-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Bisi/DivSumm
下载链接
链接失效反馈官方服务:
资源简介:
DivSumm是一个新颖的数据集,包含多种英语方言的推文和人工编写的摘要。数据集包含25个主题,每个主题有90条推文,这些推文均匀分布在三种方言中(非洲裔美国人、西班牙裔和白人)。每个主题有两个参考摘要,一个是抽象摘要,另一个是提取摘要。抽象摘要是由两名注释者用自己的话总结的,而提取摘要则是从每个主题中选择5条推文作为摘要。
提供机构:
Bisi
原始信息汇总
DivSumm Summarization Dataset
简介
DivSumm是一个新颖的数据集,包含多种英语方言(非洲裔美国人、西班牙裔和白人)的90条推文以及人工编写的提取式和抽象式摘要。该数据集涵盖25个主题,每个主题包含90条推文,均匀分布在三种方言中,每个输入对应两个参考摘要。
数据集内容
- input_docs: 包含每个主题的90条推文,均匀分布在三种方言中,总计25个主题。
- abstractive: 两位注释者被要求使用自己的话,对每个主题进行5句话的摘要。
- extractive: 两位注释者被要求从每个主题中选择5条最能概括输入推文的推文。
论文引用
若在研究中使用此数据集,请引用以下论文:
@inproceedings{olabisi-etal-2022-analyzing, title = "Analyzing the Dialect Diversity in Multi-document Summaries", author = "Olabisi, Olubusayo and Hudson, Aaron and Jetter, Antonie and Agrawal, Ameeta", booktitle = "Proceedings of the 29th International Conference on Computational Linguistics", month = oct, year = "2022", }



