five

MLRS/maltese_news_headlines

收藏
Hugging Face2024-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MLRS/maltese_news_headlines
下载链接
链接失效反馈
官方服务:
资源简介:
Maltese News Headlines数据集包含马耳他新闻文章的标题和文章内容对,主要用于从文章内容生成标题。数据来源于Korpus Malti v4.0的press_mt子集,并经过清理以过滤掉JavaScript、CSS和重复的非马耳他子标题。数据集的特征包括类别、URL、标题、文本、原始文本序列、基础URL和索引级别。数据集分为训练集、验证集和测试集,分别包含17782、3810和3811个样本。数据集的许可证为CC BY-NC-SA 4.0,适用于非商业用途。
提供机构:
MLRS
原始信息汇总

Maltese News Headlines 数据集概述

数据集信息

特征

  • category: 类型为字符串。
  • url: 类型为字符串。
  • title: 类型为字符串。
  • text: 类型为字符串。
  • text_raw: 序列类型为字符串。
  • base_url: 类型为类别标签,包含以下名称:
    • 0: inewsmalta.com
    • 1: netnews.com.mt
    • 2: newsbook.com.mt
    • 3: one.com.mt
    • 4: stradarjali.com
    • 5: www.gwida.mt
    • 6: www.illum.com.mt
    • 7: www.tvm.com.mt
  • index_level_0: 类型为 int64。

数据分割

  • train: 包含 17782 个样本,总字节数为 63559985.55997323。
  • validation: 包含 3810 个样本,总字节数为 13618465.019879542。
  • test: 包含 3811 个样本,总字节数为 13622039.420147227。

数据大小

  • 下载大小: 55694312 字节。
  • 数据集大小: 90800490 字节。

配置

  • default: 数据文件路径如下:
    • train: data/train-*
    • validation: data/validation-*
    • test: data/test-*

许可证

  • cc-by-nc-sa-4.0: 该数据集遵循 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。

任务类别

  • summarization: 用于标题生成任务。

语言

  • mt: 马耳他语。

数据集名称

  • Maltese News Headlines: 马耳他新闻标题数据集。

数据集规模

  • 10K<n<100K: 数据集规模在 10,000 到 100,000 个样本之间。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作