five

ARTeLab/mlsum-it

收藏
Hugging Face2022-11-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ARTeLab/mlsum-it
下载链接
链接失效反馈
官方服务:
资源简介:
mlsum-it数据集是MLSum数据集的西班牙语部分通过Helsinki-NLP/opus-mt-es-it翻译成意大利语的版本,包含来自BBC/mundo的新闻文章。数据集有两个特征:source(输入的新闻文章)和target(文章的摘要)。支持的任务包括抽象摘要和摘要生成。数据集的语言为意大利语。
提供机构:
ARTeLab
原始信息汇总

数据集概述

数据集名称

  • 名称: MLSum-it

数据集描述

  • 摘要: MLSum-it 数据集是 MLSum 西班牙部分的翻译版本(Helsinki-NLP/opus-mt-es-it),包含从 BBC/mundo 获取的新闻文章。
  • 语言: 意大利语
  • 任务: 摘要生成(summarization)
  • 数据集特征:
    • source: 输入新闻文章
    • target: 文章摘要

数据集结构

  • 数据实例、字段和分割: 信息待补充

数据集创建

  • 来源数据和注释过程: 信息待补充
  • 个人和敏感信息处理: 信息待补充

使用数据集的考虑

  • 社会影响、偏见和其他已知限制: 信息待补充

附加信息

  • 数据集管理员和许可证信息: 信息待补充
  • 引用信息:
    • 文献: Two New Datasets for Italian-Language Abstractive Text Summarization
    • 作者: Landro, Nicola; Gallo, Ignazio; La Grassa, Riccardo; Federici, Edoardo
    • 期刊: Information
    • 年份: 2022
    • 卷数/期数: 13/5
    • 文章编号: 228
    • 摘要: 介绍了两个新的意大利语抽象文本摘要数据集,通过训练 T5-base 和 mBART 模型,展示了数据集的有效性。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作