LeoCordoba/CC-NEWS-ES-titles

Name: LeoCordoba/CC-NEWS-ES-titles
Creator: LeoCordoba
Published: 2023-02-23 21:53:46
License: 暂无描述

Hugging Face2023-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/LeoCordoba/CC-NEWS-ES-titles

下载链接

链接失效反馈

官方服务：

资源简介：

CC-NEWS-ES-titles是一个西班牙语的新闻标题生成数据集，包含2019年和2020年CC-NEWS数据中的新闻正文和标题对。数据集共有402,310对数据，分为训练集（370,125对）、验证集（16,092对）和测试集（16,092对）。每个数据实例包含两个字段：text（新闻正文）和output_text（新闻标题）。该数据集旨在支持文本生成和摘要生成任务，特别是针对西班牙语的抽象摘要生成。

提供机构：

LeoCordoba

原始信息汇总

CC-NEWS-ES-titles 数据集概述

数据集描述

数据集总结

名称: CC-NEWS-ES-titles
语言: 西班牙语（es）
内容: 包含402,310对新闻标题和正文的数据集，用于新闻标题生成。
数据来源: 2019和2020年的CC-NEWS数据，来源于Common Crawl。
数据分割:
- 训练集: 370,125条
- 验证集: 16,092条
- 测试集: 16,092条

支持的任务和排行榜

任务: 文本分类、情感分类
用途: 用于训练模型进行新闻标题生成，属于摘要生成的一部分。

语言

语言: 西班牙语
BCP-47代码: es

数据集结构

数据实例

特征:
- text: 新闻正文
- output_text: 新闻标题

数据字段

text: 包含新闻正文的字符串
output_text: 包含新闻标题的字符串

数据分割

分割详情:
- 训练集: 370,125条
- 验证集: 16,092条
- 测试集: 16,092条

数据集创建

源数据

数据来源: Common Crawl (https://commoncrawl.org/)

注释

注释情况: 无额外注释

使用数据的考虑

数据集的社会影响

影响: 增加西班牙语资源，有助于改善NLP领域的研究和教育活动。

5,000+

优质数据集

54 个

任务类型

进入经典数据集