five

LeoCordoba/CC-NEWS-ES-titles

收藏
Hugging Face2023-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LeoCordoba/CC-NEWS-ES-titles
下载链接
链接失效反馈
官方服务:
资源简介:
CC-NEWS-ES-titles是一个西班牙语的新闻标题生成数据集,包含2019年和2020年CC-NEWS数据中的新闻正文和标题对。数据集共有402,310对数据,分为训练集(370,125对)、验证集(16,092对)和测试集(16,092对)。每个数据实例包含两个字段:text(新闻正文)和output_text(新闻标题)。该数据集旨在支持文本生成和摘要生成任务,特别是针对西班牙语的抽象摘要生成。
提供机构:
LeoCordoba
原始信息汇总

CC-NEWS-ES-titles 数据集概述

数据集描述

数据集总结

  • 名称: CC-NEWS-ES-titles
  • 语言: 西班牙语(es)
  • 内容: 包含402,310对新闻标题和正文的数据集,用于新闻标题生成。
  • 数据来源: 2019和2020年的CC-NEWS数据,来源于Common Crawl。
  • 数据分割:
    • 训练集: 370,125条
    • 验证集: 16,092条
    • 测试集: 16,092条

支持的任务和排行榜

  • 任务: 文本分类、情感分类
  • 用途: 用于训练模型进行新闻标题生成,属于摘要生成的一部分。

语言

  • 语言: 西班牙语
  • BCP-47代码: es

数据集结构

数据实例

  • 特征:
    • text: 新闻正文
    • output_text: 新闻标题

数据字段

  • text: 包含新闻正文的字符串
  • output_text: 包含新闻标题的字符串

数据分割

  • 分割详情:
    • 训练集: 370,125条
    • 验证集: 16,092条
    • 测试集: 16,092条

数据集创建

源数据

  • 数据来源: Common Crawl (https://commoncrawl.org/)

注释

  • 注释情况: 无额外注释

使用数据的考虑

数据集的社会影响

  • 影响: 增加西班牙语资源,有助于改善NLP领域的研究和教育活动。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作