LeoCordoba/CC-NEWS-ES-titles
收藏Hugging Face2023-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LeoCordoba/CC-NEWS-ES-titles
下载链接
链接失效反馈官方服务:
资源简介:
CC-NEWS-ES-titles是一个西班牙语的新闻标题生成数据集,包含2019年和2020年CC-NEWS数据中的新闻正文和标题对。数据集共有402,310对数据,分为训练集(370,125对)、验证集(16,092对)和测试集(16,092对)。每个数据实例包含两个字段:text(新闻正文)和output_text(新闻标题)。该数据集旨在支持文本生成和摘要生成任务,特别是针对西班牙语的抽象摘要生成。
提供机构:
LeoCordoba
原始信息汇总
CC-NEWS-ES-titles 数据集概述
数据集描述
数据集总结
- 名称: CC-NEWS-ES-titles
- 语言: 西班牙语(es)
- 内容: 包含402,310对新闻标题和正文的数据集,用于新闻标题生成。
- 数据来源: 2019和2020年的CC-NEWS数据,来源于Common Crawl。
- 数据分割:
- 训练集: 370,125条
- 验证集: 16,092条
- 测试集: 16,092条
支持的任务和排行榜
- 任务: 文本分类、情感分类
- 用途: 用于训练模型进行新闻标题生成,属于摘要生成的一部分。
语言
- 语言: 西班牙语
- BCP-47代码: es
数据集结构
数据实例
- 特征:
- text: 新闻正文
- output_text: 新闻标题
数据字段
- text: 包含新闻正文的字符串
- output_text: 包含新闻标题的字符串
数据分割
- 分割详情:
- 训练集: 370,125条
- 验证集: 16,092条
- 测试集: 16,092条
数据集创建
源数据
- 数据来源: Common Crawl (https://commoncrawl.org/)
注释
- 注释情况: 无额外注释
使用数据的考虑
数据集的社会影响
- 影响: 增加西班牙语资源,有助于改善NLP领域的研究和教育活动。



