Awesome-Summarization-Datasets

github2024-11-08 更新2024-11-12 收录

下载链接：

https://github.com/edahanoam/Awesome-Summarization-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集集合包括了100多种语言的摘要数据集，基于我们的调查《摘要数据集的状态和命运》。数据集卡片模板标准化了数据集的信息，包括语言、摘要形式、领域、大小、注释信息、数据质量评估和可用性细节。

This dataset collection encompasses summarization datasets spanning over 100 languages, which is based on our survey titled *The State and Fate of Summarization Datasets*. The dataset card template standardizes the information of datasets, including language, summarization format, domain, scale, annotation information, data quality assessment and availability details.

创建时间：

2024-10-25

原始信息汇总

Awesome-Summarization-Datasets

数据集概述

该数据集集合是基于调查报告《The State and Fate of Summarization Datasets》的结果整理而成。

引用

如果该调查报告对您的研究有贡献，请在您的作品中引用以下论文： bibtex @misc{dahan2024statefatesummarizationdatasets, title={The State and Fate of Summarization Datasets}, author={Noam Dahan and Gabriel Stanovsky}, year={2024}, eprint={2411.04585}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.04585}, }

数据卡模板

为标准化数据集描述，推荐使用以下数据卡模板： latex egin{table}[tb!]

esizebox{columnwidth}{!}{% egin{tabular}{|p{7.5cm}|}

hline extbf{Summarization Data Card} \ hline extbf{underline{Sample information:}}

extbf{Languages:}

ewline extit{List all supported languages}
extbf{Summary Shape:}

ewline extit{Paragraph/One Sentence/Highlights/Span}
extbf{Domain:}

ewline extit{Example: News/Scientific/Dialogues/etc.}
extbf{Size:}

ewline extit{Number of document-summary pairs} \ hline extbf{underline{Annotation information:}}
egin{tabular}[|p{7.5cm}|]{@{}l@{}} extbf{Annotation efforts:} \ extit{Automatic, Human annotations, Semi-automatic}end{tabular}
egin{tabular}[|p{7.5cm}|]{@{}l@{}} extbf{Source of supervision:}\ extit{Natural} (summaries created organically)/ \ extit{Distant} (annotations are proxies of summaries)/\ extit{Dedicated} (annotations created by researchers)end{tabular}
egin{tabular}[|p{7.5cm}|]{@{}l@{}} extbf{Brief description of the summaries source:} \ extit{Example: digests of legal documents}end{tabular} \ hline extbf{underline{Data quality assessment:}}
egin{tabular}[|p{7.5cm}|]{@{}l@{}} extbf{Abstraction level:} \ extit{1-to-4-gram ratios} end{tabular}
extbf{Compression rate:}
$ frac{ ext{doc length (#words)}}{ ext{summary length (#words)}}$
extbf{Human evaluation:} extit{Yes/No} \ hline extbf{underline{Availability details:}}
egin{tabular}[|p{7.5cm}|]{@{}l@{}} extbf{How is the data made accessible:} \ extit{Publicly Available} /
extit{URL-based Reconstruction} / \ extit{Upon Request}end{tabular}
egin{tabular}[c]{@{}l@{}} extbf{Copyrights information:} \ extit{License}end{tabular} \ hline end{tabular}% } caption{Template for a summarization data card.} label{tab:datacard}

end{table}

数据集列表

以下是包含段落输出文本的数据集列表：

数据集名称	论文	语言	语言模式	领域	监督来源	标注努力	可用性	子任务	样本数量	人工评估
DUC 2001-2007	The Document Understanding Conference (DUC)	English	Monolingual	News	Dedicated	Human	Upon Request	Multidocument, Query-focused	45	-
MultiLing 2013	Multi-document multilingual summarization and evaluation tracks in ACL 2013 MultiLing Workshop	Arabic, Czech, English, French, Modern Greek, Hebrew, Hindi, Chinese, Romanian, Spanish	Multilingual	News	Naturally	Automatic	Upon Request	Multidocument	150	-
MultiLing 2015, 2017	MultiLing 2017 Overview	Afrikaans, Arabic, Azerbaijani, Bulgarian, Bosnian, Catalan, Czech, German, Modern Greek, English, Esperanto, Spanish, Basque, Persian, Finnish, French, Croatian, Indonesian, Italian, Japanese, Javanese, Georgian, Korean, Limburgish, Latvian, Marathi, Malay, Dutch, Norwegian, Polish, Portuguese, Romanian, Russian, Slovak, Thai, Turkish, Tagalog, Ukrainian, Chinese	Multilingual	Encyclopedia	Distant	Automatic	Upon Request	-	38	-
New York Times Corpus	The New York Times Annotated Corpus	English	Monolingual	News	Dedicated	Human	Not Sure It Is Still Availiable	-	650,000	-
NEWSROOM	Newsroom: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies	English	Monolingual	News	Distant	Automatic	URL-based reconstruction	-	1,321,995	-
DaNewsroom	DaNewsroom: A Large-scale Danish Summarisation Dataset	Danish	Monolingual	News	Distant	Automatic	URL-based reconstruction	-	1,132,734	-
Multi-News	Multi-News: a Large-Scale Multi-Document Summarization Dataset and Abstractive Hierarchical Model	English	Monolingual	News	Naturally	Automatic	Publicly Available (License)	Multidocument Summarization	250,000	-
DACSA	DACSA: A large-scale Dataset for Automatic summarization of Catalan and Spanish newspaper Articles	Catalan, Spanish	Multilingual	News	Naturally	Automatic	Upon Request	-	2,845,833	-
MENSA	Select and Summarize: Scene Saliency for Movie Script Summarization	English	Monolingual	Movie Scripts	Dedicated	Human	Upon Request	Scene Saliency	1,000	-

搜集汇总

数据集介绍

构建方式

Awesome-Summarization-Datasets 数据集的构建基于对现有摘要数据集的全面调查，即《The State and Fate of Summarization Datasets》。该调查系统地收集和分类了多种语言和领域的摘要数据集，涵盖了新闻、科学、对话等多个领域。数据集的构建过程中，采用了标准化的数据卡片（Summarization Data Card）来记录每个数据集的详细信息，包括语言、摘要形式、领域、样本数量、注释方式、数据质量评估等。这种标准化的方法确保了数据集的透明性和可重复性，为研究人员提供了详尽的数据集描述和使用指南。

特点

Awesome-Summarization-Datasets 数据集的主要特点在于其多样性和全面性。该数据集包含了多种语言（如英语、阿拉伯语、中文等）和多种摘要形式（如段落、单句、亮点、跨度等），覆盖了新闻、科学、对话等多个领域。此外，数据集还详细记录了每个数据集的注释方式、监督来源、数据质量评估等信息，确保了数据的高质量和可靠性。通过这种全面和标准化的记录方式，该数据集为自然语言处理领域的研究人员提供了丰富的资源和参考。

使用方法

使用 Awesome-Summarization-Datasets 数据集时，研究人员可以通过提供的平台（https://searchdatasets-fru5zwwfm2shmyrtna9gjh.streamlit.app/）进行交互式探索和搜索，根据类别筛选所需的数据集。每个数据集的详细信息都记录在标准化的数据卡片中，研究人员可以参考这些卡片了解数据集的具体信息和使用条件。此外，数据集的构建和分类方式也为研究人员提供了清晰的指导，帮助他们选择适合自己研究需求的数据集。

背景与挑战

背景概述

Awesome-Summarization-Datasets是由Noam Dahan和Gabriel Stanovsky在2024年创建的数据集集合，旨在系统化地整理和分类现有的摘要数据集。该数据集的构建基于他们的研究论文《The State and Fate of Summarization Datasets》，该论文详细探讨了摘要数据集的现状及其未来发展趋势。这一数据集的创建不仅为自然语言处理领域的研究人员提供了一个全面的资源库，还为摘要技术的进一步研究奠定了坚实的基础。通过标准化数据卡的使用，该数据集促进了数据集的透明度和可重复性，对推动摘要技术的发展具有重要意义。

当前挑战

尽管Awesome-Summarization-Datasets为研究人员提供了丰富的资源，但其构建过程中仍面临诸多挑战。首先，数据集的多样性要求涵盖多种语言和领域，这增加了数据收集和标注的复杂性。其次，数据集的质量评估需要精确的自动化工具和人工验证，以确保摘要的准确性和相关性。此外，数据集的可用性和版权问题也是一大挑战，特别是在处理公开和私有数据时，需要确保数据的合法性和合规性。最后，随着摘要技术的不断发展，数据集需要持续更新以反映最新的研究成果和技术进步。

常用场景

经典使用场景

在自然语言处理领域，Awesome-Summarization-Datasets 数据集被广泛用于文本摘要任务。该数据集涵盖了多种语言和领域，如新闻、科学和对话等，为研究人员提供了丰富的资源。其经典使用场景包括多文档摘要、查询聚焦摘要和跨语言摘要等，这些任务在信息检索和内容生成中具有重要应用。

解决学术问题

Awesome-Summarization-Datasets 数据集解决了自然语言处理中的多个关键学术问题。首先，它为多语言摘要研究提供了丰富的语料，促进了跨语言模型的开发。其次，通过提供不同领域的数据，该数据集帮助研究人员探索领域特定的摘要技术。此外，数据集中的多文档摘要任务有助于解决信息过载问题，提升了信息检索的效率。

衍生相关工作

基于 Awesome-Summarization-Datasets 数据集，研究人员开发了多种先进的摘要模型和算法。例如，Multi-News 数据集衍生的多文档摘要模型，显著提升了多源信息整合的能力。此外，DaNewsroom 数据集推动了丹麦语摘要技术的发展，促进了多语言处理技术的进步。这些衍生工作不仅丰富了摘要研究的理论基础，也在实际应用中展现了巨大的潜力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集