MLRS/maltese_news_headlines
收藏Hugging Face2024-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/MLRS/maltese_news_headlines
下载链接
链接失效反馈官方服务:
资源简介:
Maltese News Headlines数据集包含马耳他新闻文章的标题和文章内容对,主要用于从文章内容生成标题。数据来源于Korpus Malti v4.0的press_mt子集,并经过清理以过滤掉JavaScript、CSS和重复的非马耳他子标题。数据集的特征包括类别、URL、标题、文本、原始文本序列、基础URL和索引级别。数据集分为训练集、验证集和测试集,分别包含17782、3810和3811个样本。数据集的许可证为CC BY-NC-SA 4.0,适用于非商业用途。
提供机构:
MLRS
原始信息汇总
Maltese News Headlines 数据集概述
数据集信息
特征
- category: 类型为字符串。
- url: 类型为字符串。
- title: 类型为字符串。
- text: 类型为字符串。
- text_raw: 序列类型为字符串。
- base_url: 类型为类别标签,包含以下名称:
0: inewsmalta.com1: netnews.com.mt2: newsbook.com.mt3: one.com.mt4: stradarjali.com5: www.gwida.mt6: www.illum.com.mt7: www.tvm.com.mt
- index_level_0: 类型为 int64。
数据分割
- train: 包含 17782 个样本,总字节数为 63559985.55997323。
- validation: 包含 3810 个样本,总字节数为 13618465.019879542。
- test: 包含 3811 个样本,总字节数为 13622039.420147227。
数据大小
- 下载大小: 55694312 字节。
- 数据集大小: 90800490 字节。
配置
- default: 数据文件路径如下:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*
许可证
- cc-by-nc-sa-4.0: 该数据集遵循 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License。
任务类别
- summarization: 用于标题生成任务。
语言
- mt: 马耳他语。
数据集名称
- Maltese News Headlines: 马耳他新闻标题数据集。
数据集规模
- 10K<n<100K: 数据集规模在 10,000 到 100,000 个样本之间。



