five

LeoCordoba/CC-NEWS-ES

收藏
Hugging Face2023-02-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/LeoCordoba/CC-NEWS-ES
下载链接
链接失效反馈
官方服务:
资源简介:
CC-NEWS-ES是一个西班牙语的新闻数据集,来源于2019年的CC-NEWS(Common Crawl的新闻索引),通过FastText模型进行语言预测提取西班牙语文章。数据集包含7,473,286篇文本和1,812,009,283个单词,按不同域(如国家或地区)分布。数据集的结构包括每个数据实例的国家域、新闻正文和内部ID。数据集未包含额外的注释,且未提及数据集的社交影响、偏见或其他已知限制。
提供机构:
LeoCordoba
原始信息汇总

数据集概述

数据集名称

CC-NEWS-ES

语言

  • 西班牙语(es)

许可

  • MIT许可证

多语言性

  • 单语种

数据集大小

  • 包含7,473,286个文本和1,812,009,283个单词

数据集结构

  • 数据实例:每个实例包含国家(country)、文本(text)和内部ID(id)。
  • 数据字段:未详细说明。
  • 数据分割:未详细说明。

任务和支持

  • 任务类别:摘要生成(summarization)、文本生成(text-generation)
  • 领导板:未提供

数据集创建

  • 来源数据:从Common Crawl的CC-NEWS中提取的西班牙语新闻文章。
  • 注释:无额外注释。

使用考虑

  • 社会影响:未详细说明。
  • 偏见讨论:未提供。
  • 其他已知限制:未提供。

附加信息

  • 数据集维护者:Leonardo Ignacio Córdoba和María Gaska。
  • 许可证信息:未提供详细信息。
  • 引用信息:未提供。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作