umanlp/xscitldr

Name: umanlp/xscitldr
Creator: umanlp
Published: 2024-06-15 16:15:45
License: 暂无描述

Hugging Face2024-06-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/umanlp/xscitldr

下载链接

链接失效反馈

官方服务：

资源简介：

X-SCITLDR是一个跨语言的科学文献摘要生成数据集，旨在解决科学出版物数量迅速增加导致的信息过载问题。该数据集支持从英语论文生成德语、意大利语、中文和日语的摘要，填补了现有研究主要集中在单语言环境（尤其是英语）的空白。数据集用于训练和评估基于多语言预训练模型的摘要生成模型，并探讨了中间阶段训练的优势，包括使用英语单语言摘要和机器翻译作为中间任务，并分析了零样本和少样本场景下的性能。

提供机构：

umanlp

原始信息汇总

数据集概述

名称: X-SCITLDR

全称: Cross-Lingual Extreme Summarization of Scholarly Documents

目的: 为解决科学出版物数量激增导致的信息过载问题，本数据集专注于跨语言的学术文档极简摘要生成，支持从英语到其他四种语言的摘要生成。

支持语言

德语
意大利语
中文
日语

数据集特点

提供跨语言摘要功能，支持英语到德语、意大利语、中文和日语的摘要生成。
基于最新的多语言预训练模型进行模型训练和评估。
探索了零样本和少样本学习场景下的模型性能。

引用信息

@inproceedings{takeshita-etal-2022-xsci, author = {Takeshita, Sotaro and Green, Tommaso and Friedrich, Niklas and Eckert, Kai and Ponzetto, Simone Paolo}, title = {X-SCITLDR: Cross-Lingual Extreme Summarization of Scholarly Documents}, year = {2022}, isbn = {9781450393454}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3529372.3530938}, doi = {10.1145/3529372.3530938}, abstract = {详细描述了数据集的目的和功能}, booktitle = {Proceedings of the 22nd ACM/IEEE Joint Conference on Digital Libraries}, articleno = {4}, numpages = {12}, keywords = {scholarly document processing, summarization, multilinguality}, location = {Cologne, Germany}, series = {JCDL 22} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集