five

umanlp/xscitldr

收藏
Hugging Face2024-06-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/umanlp/xscitldr
下载链接
链接失效反馈
官方服务:
资源简介:
X-SCITLDR是一个跨语言的科学文献摘要生成数据集,旨在解决科学出版物数量迅速增加导致的信息过载问题。该数据集支持从英语论文生成德语、意大利语、中文和日语的摘要,填补了现有研究主要集中在单语言环境(尤其是英语)的空白。数据集用于训练和评估基于多语言预训练模型的摘要生成模型,并探讨了中间阶段训练的优势,包括使用英语单语言摘要和机器翻译作为中间任务,并分析了零样本和少样本场景下的性能。
提供机构:
umanlp
原始信息汇总

数据集概述

名称: X-SCITLDR

全称: Cross-Lingual Extreme Summarization of Scholarly Documents

目的: 为解决科学出版物数量激增导致的信息过载问题,本数据集专注于跨语言的学术文档极简摘要生成,支持从英语到其他四种语言的摘要生成。

支持语言

  • 德语
  • 意大利语
  • 中文
  • 日语

数据集特点

  • 提供跨语言摘要功能,支持英语到德语、意大利语、中文和日语的摘要生成。
  • 基于最新的多语言预训练模型进行模型训练和评估。
  • 探索了零样本和少样本学习场景下的模型性能。

引用信息

@inproceedings{takeshita-etal-2022-xsci, author = {Takeshita, Sotaro and Green, Tommaso and Friedrich, Niklas and Eckert, Kai and Ponzetto, Simone Paolo}, title = {X-SCITLDR: Cross-Lingual Extreme Summarization of Scholarly Documents}, year = {2022}, isbn = {9781450393454}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, url = {https://doi.org/10.1145/3529372.3530938}, doi = {10.1145/3529372.3530938}, abstract = {详细描述了数据集的目的和功能}, booktitle = {Proceedings of the 22nd ACM/IEEE Joint Conference on Digital Libraries}, articleno = {4}, numpages = {12}, keywords = {scholarly document processing, summarization, multilinguality}, location = {Cologne, Germany}, series = {JCDL 22} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作