summarization-dataset
收藏github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/iis-research-team/summarization-dataset
下载链接
链接失效反馈官方服务:
资源简介:
一个针对俄语的多模态摘要数据集,包含来自8个科学领域的480篇论文,每篇论文包含名称、摘要、全文、图像、表格及描述。
A multimodal summarization dataset for Russian, comprising 480 papers from 8 scientific fields, each including the title, abstract, full text, images, tables, and descriptions.
创建时间:
2024-03-10
原始信息汇总
数据集概述
数据集名称
summarization-dataset
数据集描述
该数据集是一个针对俄语的多模态摘要数据集,主要用于科学论文的自动摘要。
数据集结构
数据集目前包含来自8个科学领域的480篇论文,每个领域包括:
- 语言学
- 历史
- 法律
- 医学
- 新闻学
- 计算机科学
- 经济学
- 化学
每篇论文作为一个文件夹,包含以下文件:
name.txt:论文名称abstract.txt:论文摘要text.txt:论文全文image_number.png:图表table_number.png:表格figures.json:图表描述tables.json:表格描述
数据集统计
| Domain | Length (chars) | Length (tokens) | Figures | Tables |
|---|---|---|---|---|
| Economics | 1 316 995 | 151 284 | 32 | 25 |
| Chemistry | 938 743 | 109 859 | 159 | 150 |
| History | 1 540 251 | 184 407 | 2 | 17 |
| IT | 1 002 115 | 114 721 | 238 | 27 |
| Journalism | 1 377 087 | 174 064 | 45 | 12 |
| Law | 1 243 153 | 143 675 | 0 | 2 |
| Linguistics | 1 557 481 | 190 478 | 1 | 1 |
| Medicine | 963 178 | 107 449 | 19 | 45 |
| Total | 9 939 003 | 1 175 937 | 496 | 279 |
数据集用途
用于测试和开发自动摘要技术,特别是针对科学论文的多模态内容处理。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对俄罗斯语科学论文的深入挖掘,涵盖了八个不同的科学领域,包括语言学、历史、法律、医学、新闻学、计算机科学、经济学和化学。每篇论文被单独存储在一个文件夹中,文件夹内包含论文的名称、摘要、全文、图表及其描述。这种结构化的存储方式确保了数据的完整性和可访问性,为后续的多模态摘要研究提供了坚实的基础。
特点
该数据集的显著特点在于其多模态性,不仅包含文本信息,还整合了图表和表格的视觉元素及其详细描述。这种多模态的特性使得数据集在处理复杂科学内容时更具表现力和解释力。此外,数据集的领域广泛性也是其一大特色,涵盖了从社会科学到自然科学的多个学科,为跨学科研究提供了丰富的资源。
使用方法
使用该数据集时,研究者可以通过访问每篇论文的独立文件夹,获取包括文本、图表和表格在内的全面信息。数据集还提供了与大型语言模型(如GigaChat、YandexGPT和GPT-3.5 Turbo)的集成测试代码,用户可以通过提供的Colab Notebook链接进行模型测试和应用。这种集成方式使得数据集不仅适用于基础研究,也适用于实际应用场景中的多模态摘要任务。
背景与挑战
背景概述
多模态摘要数据集(summarization-dataset)是由Alena Tsanda和Elena Bruches创建的,专注于俄罗斯语科学论文的自动摘要任务。该数据集包含了来自八个科学领域的480篇论文,涵盖了语言学、历史、法律、医学、新闻学、计算机科学、经济学和化学。每篇论文的文件夹中包含了论文名称、摘要、全文、图表及其描述,为多模态数据处理提供了丰富的资源。这一数据集的创建旨在推动多模态摘要技术的发展,特别是在非英语语言环境中的应用,对相关领域的研究具有重要影响。
当前挑战
该数据集在构建过程中面临了多重挑战。首先,多模态数据的整合与处理,特别是图表和文本的结合,增加了数据处理的复杂性。其次,不同科学领域的论文在内容和结构上存在显著差异,如何确保摘要的准确性和全面性是一个重要问题。此外,俄罗斯语的特殊语法和词汇特点,对模型的语言理解和生成能力提出了更高的要求。最后,数据集的规模和多样性虽然丰富,但也带来了数据标注和质量控制的挑战。
常用场景
经典使用场景
在自然语言处理领域,summarization-dataset数据集的经典使用场景主要集中在多模态摘要生成任务上。该数据集汇集了来自八个不同科学领域的480篇论文,每篇论文不仅包含文本信息,还附有图像和表格等多模态数据。研究者可以利用这些丰富的数据,训练和评估多模态摘要生成模型,以期在生成摘要时能够综合考虑文本、图像和表格等多种信息源,从而提升摘要的准确性和全面性。
实际应用
在实际应用中,summarization-dataset数据集为多模态摘要生成技术提供了广泛的应用场景。例如,在学术出版领域,编辑和审稿人可以利用该数据集训练的模型,快速生成论文的摘要,从而提高工作效率。此外,在教育和科研领域,学生和研究人员可以通过多模态摘要获取关键信息,节省阅读全文的时间。该数据集的应用还扩展到新闻报道、法律文书摘要等多个领域,极大地提升了信息处理的效率和准确性。
衍生相关工作
summarization-dataset数据集的发布催生了多项相关经典工作。研究者们基于该数据集,开发了多种多模态摘要生成模型,如结合图像和文本的摘要生成算法,以及利用表格数据进行摘要生成的创新方法。此外,该数据集还激发了跨学科研究,特别是在计算机科学、语言学和信息科学等领域,推动了多模态信息处理技术的发展。这些工作不仅丰富了多模态摘要生成的理论基础,也为实际应用提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成



